Автоматическое определение автора текста на основе распределения частот буквосочетаний

В последнее время стала популярной задача идентификации автора в связи с большим количеством текстов в цифровом виде. В настоящей работе проводится исследование метода распределения частот буквосочетаний для решения альтернативных задач: классификации и кластеризации текстов по авторству. Данный метод заключается в сопоставлении каждому тексту плотности функции распределения (ПФР) частот встречаемости буквосочетаний, состоящих из трех символов. В работе произведен анализ применимости этого подхода для текстов различной длины, написанных в публицистическом и литературном стиле речи на русском, английском и немецком языках. Приводятся результаты проведенных экспериментов.

Математика
Дипломы

Вуз: Санкт-Петербургский государственный университет (СПбГУ)

ID: 587d36575f1be77c40d58d13
UUID: 5601b532-c058-4e22-b2a6-23305f8660d0
Язык: Русский
Опубликовано: около 7 лет назад
Просмотры: 77

Дюрдева Полина Сергеевна

Источник: Санкт-Петербургский государственный университет


0

Комментировать 0

Рецензировать 0

Скачать - 153301 bytes


Поделиться работой
Current View

Рецензии:

  Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -

Для лиц старше 18 лет