Атрибуция авторства на основе оценки стилеметрических параметров текста (на материале англоязычных туристических блогов)
ВВЕДЕНИЕ …………………………………………………………………………………………………. 3
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ОСНОВАНИЯ ИССЛЕДОВАНИЯ
АТРИБУЦИИ АВТОРСТВА ……………………………………………………………………….. 7
1.1. Стилеметрия и атрибуция авторства ……………………………………………………….. 7
1.2. История стилеметрических исследований …………………………………………….. 13
1.3. Построение канонической системы атрибуции авторства ……………………… 20
1.3.1. Предварительная обработка текста ……………………………………………… 20
1.3.2. Извлечение стилеметрических параметров текста ……………………….. 25
1.3.3. Формальные методы определения авторства текстов …………………… 41
1.3.4. Машинное обучение и метод опорных векторов ………………………….. 50
ВЫВОДЫ ПО ГЛАВЕ 1 …………………………………………………………………………….. 60
ГЛАВА 2. ОЦЕНКА ЭФФЕКТИВНОСТИ ИСПОЛЬЗОВАНИЯ
СТИЛЕМЕТРИЧЕСКИХ ПАРАМЕТРОВ ТЕКСТА ДЛЯ РЕШЕНИЯ
ЗАДАЧИ АТРИБУЦИИ АВТОРСТВА ……………………………………………………… 62
2.1. Материалы исследования ……………………………………………………………………… 62
2.2. Предварительная обработка корпуса …………………………………………………….. 64
2.3. Анализ стилеметрических параметров текста ……………………………………….. 67
2.3.1. Единицы лексического уровня ……………………………………………………. 67
2.3.2. Элементы плана выражения знака ………………………………………………. 83
2.3.3. Единицы синтаксического уровня ……………………………………………….. 89
2.3.4. Единицы морфологического уровня ……………………………………………. 93
2.4. Результаты работы модели атрибуции авторства …………………………………… 95
ВЫВОДЫ ПО ГЛАВЕ 2 …………………………………………………………………………… 100
ЗАКЛЮЧЕНИЕ ……………………………………………………………………………………….. 103
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ ………………………………….. 106
ПРИЛОЖЕНИЕ А …………………………………………………………………………………… 118
ПРИЛОЖЕНИЕ Б ……………………………………………………………………………………. 120
ПРИЛОЖЕНИЕ В ……………………………………………………………………………………. 121
В процессе создания письменного текста каждый человек в силу своих
индивидуальных особенностей использует различные языковые структуры.
Обнаружение и описание таких структур позволяет с высокой точностью
определять личность автора анонимного документа с помощью объективных
научных методик.
Распространение Интернета привело к увеличению количества
анонимных материалов, существенную долю которых составляют
противоправные тексты, содержащие призывы к экстремизму, угрозы,
оскорбления и пр. В связи с этим вопросы установления авторства
представляют интерес не только для лингвистов, но и для экспертов-
криминалистов в вопросах установления личности автора вредоносного кода,
определения автора писем с угрозами, установления достоверности
предсмертных записок, идентификации террористов и убийц. Также системы
атрибуции текста используются юристами и журналистами, поскольку
установление истинного автора текста может использоваться для
обнаружения плагиата, привлечения к ответственности правонарушителей
или оправдания невиновных.
Данная работа посвящена атрибуции авторства, основывающейся на
количественной оценке стилеметрических параметров. Построение
автоматической системы атрибуции и эффективность отдельных параметров
рассматриваются на примере текстов англоязычных туристических блогов.
Актуальность исследования обусловлена тем, что, несмотря на
существование достаточно точных систем атрибуции, исследователи до сих
пор не пришли к согласию по поводу оптимального набора характеристик,
описывающих авторский стиль. Многообразие возможных стилеметрических
параметров требует дополнительных исследований в этой области.
Научная новизна исследования заключается в рассмотрении
эффективности стилеметрических параметров для атрибуции текста среди
большого количества авторов-кандидатов. Большинство работ данной
области рассматривает проблему выбора искомого автора из небольшого
круга кандидатов, исследования обширных корпусов весьма
немногочисленны.
Целью нашего исследования является сравнительный анализ
стилеметрических параметров текста и оценка их эффективности для
решения задачи атрибуции авторства.
Для достижения данной цели потребуется решение следующих задач:
1) провести обзор исследований в области стилеметрии:
рассмотреть существующие подходы к анализу авторского стиля; подробно
охарактеризовать основные параметры и современные методы атрибуции;
2) составить сбалансированный исследовательский корпус;
3) проанализировать показатели отдельных стилеметрических
параметров для авторов нашего корпуса;
4) осуществить практическую реализацию автоматического
извлечения характеристик и построить каноническую систему атрибуции;
5) провести анализ эффективности разработанного решения.
Объектом исследования является задача атрибуции текста; предметом
служат стилеметрические параметры, количественная оценка которых
позволяет охарактеризовать авторский стиль.
Корпус языкового материала был сформирован из записей
англоязычных туристических блогов, размещенных на платформе WordPress.
Всего корпус содержит 50 авторов, на каждого из которых приходится около
3000 слов. Суммарный объем проанализированного материала составляет
300 страниц формата A4.
Теоретическая значимость работы заключается в рассмотрении
стилеметрических параметров на обширном корпусе, который позволяет
эмпирически оценить их различающую способность и сопоставить с
эффективностью в системе атрибуции.
Практическая значимость заключается в возможности применения
разработанной системы атрибуции для решения реальных задач
идентификации автора противоправного текста.
Методологическую основу данного исследования составляют труды
ученых в области анализа индивидуального стиля автора (В.В. Виноградов,
Ю.Н. Караулов, Г.Я. Мартыненко, М.Ю. Мухин), в области атрибуции
текстов (З.И. Резанова, Д.В. Хмелев, А.С. Романов, Р.В. Мещеряков) и в
области компьютерных методов обработки естественного языка и
классификации текстов (М. Коппел, Дж. Шлер, Э. Стамататос, Т. Нил).
Основными методами исследования в работе являются метод
сплошной и специальной выборки, метод экспертного лингвистического
анализа, метод статистического анализа, метод контент-анализа.
Структура работы обусловлена ее содержанием.
Во введении изложено краткое содержание темы, ее актуальность,
научная новизна, цель, задачи, объект и предмет исследования, материал и
методы исследования, его практическая значимость и теоретическая база.
Первая глава «Теоретические основания атрибуции текста» посвящена
описанию теоретических оснований исследования стиля и технологий
решения задачи атрибуции текста. Глава состоит из трех параграфов. В
параграфе 1.1. «Стилеметрия и атрибуция текста» описываются подходы к
исследованию авторского стиля и типы задач, решаемых стилеметрией, а
также дается формулировка задачи атрибуции авторства. Параграф 1.2.
«История стилеметрических исследований» содержит краткий
хронологический обзор научных работ, демонстрирующий становление и
развитие стилеметрии. В параграфе 1.3. «Построение канонической системы
атрибуции авторства» рассматриваются этапы построения системы
автоматической атрибуции; типы стилеметрических характеристик и
формальных методов классификации, применяемых для решения задачи, а
также предоставляется теоретическое обоснование выбранной модели
классификации. Выводы по первой главе содержат основные выводы по всем
параграфам.
Вторая глава «Анализ стилеметрических параметров текста и их
эффективности в задаче атрибуции авторства» посвящена анализу основных
стилеметрических характеристик, путем количественной оценки которых,
проводится атрибуция авторства. Глава состоит из четырех параграфов. В
параграфе 2.1. «Материалы исследования» представлено подробное описание
корпуса исследования. Параграф 2.2. «Предварительная обработка корпуса»
содержит описание техник обработки текста, используемых в нашей работе.
В параграфе 2.3. «Анализ стилеметрических параметров текста» выделяются
четыре подпункта, в которых рассматриваются лексические, символьные,
синтаксические и морфологические группы параметров. В параграфе 2.4.
«Результаты работы модели атрибуции авторства» представлена оценка
точности разработанной системы атрибуции в зависимости от используемых
стилеметрических характеристик. Выводы по второй главе содержат
основные выводы по всем параграфам. В заключении представлены выводы
по всему исследованию. Список использованной литературы содержит 115
источников.
Развитие цифровых технологий и сети Интернет значительным образом
повлияло на человеческую коммуникацию: на сегодняшний день объемы
ежедневно генерируемой текстовой информации увеличиваются в
геометрической прогрессии и, как следствие, увеличивается потребность в
установлении авторства анонимных текстов. Большинство членов
современного общества ежедневно генерирует цифровые текстовые
документы, в результате чего формируется объемный корпус авторских
текстов, хранящихся на серверах цифровых систем коммуникации
(социальные сети, мессенджеры, сотовые операторы). Таким образом, в
случае необходимости правоохранительные органы могут получить доступ к
достаточному для описания авторского стиля количеству текстового
материала и использовать его для атрибуции противоправных текстов.
Развитие компьютерных технологий, в свою очередь, позволило существенно
усовершенствовать процесс атрибуции авторства и перейти от субъективных
методов к более объективным методикам, основанным на количественной
оценке параметров текста.
В теоретической части работы мы рассмотрели основные подходы к
определению понятия «стиль», историю и этапы становления стилеметрии,
современную формулировку проблемы атрибуции авторства и методы ее
решения.
При анализе языковых элементов текстовой структуры используются
параметры различных уровней: лексического, символьного и
грамматического. На сегодняшний день различными исследователями было
предложено более 1000 параметров, характеризующих авторский стиль, но
универсальный набор характеристик, позволяющий со 100% вероятностью
отличить одного автора от другого до сих пор не найден. В каждом частном
случае выбор параметров зависит от материалов исследования: учитываются
особенности языка, анализируемого дискурса, электронного представления
текстов и используемая для атрибуции модель классификации. Одним из
наиболее популярных подходов к классификации текста является машинное
обучение, основанное на методе опорных векторов (SVM). Такая модель
позволяет обрабатывать многомерные массивы параметров и с их помощью
разграничивать тексты разного авторства.
Практическая часть исследования посвящена анализу
стилеметрических параметров и развертыванию полноценной системы
атрибуции авторства. В нашем исследовании рассматривались
исключительно языковые черты текста без учета структурных особенностей
и метаданных документа. В соответствии с классификацией параметров,
представленной в теоретической главе, мы проанализировали единицы
лексического уровня, плана выражения знака, синтаксического и
морфологического уровней, всего 362 параметра и 9 текстовых
представлений. Анализ наиболее распространенных характеристик показал,
что все они обладают различающей способностью и могут быть
использованы для атрибуции авторства с различной степенью
эффективности. Результаты анализа для большей наглядности представлены
в виде сравнительных диаграмм.
Практическая реализация системы атрибуции показала, что наиболее
эффективными для установления личности автора оказались всеобъемлющие
текстовые репрезентации и группы параметров, возвращающие большое
количество значений: чем больше значений содержит набор параметров, тем
точнее определяется личность автора. Для эксперимента на корпусе 50
авторов максимальная точность атрибуции была получена с помощью
представления текста в виде tf-idf взвешенных символьных 4-грамм и
составила 82.5%. Для достижения такой точности тексты были представлены
в виде 41394 значений частотности соответствующих 4-грамм. Среди
наборов частных характеристик максимальная точность установления
личности автора составила 36.7%. для синтаксических параметров.
Полученные значения считаются весьма удовлетворительными,
разработанная система может использоваться для решения реальных
практических задач.
Текст представляет собой сложную систему, в которой выражаются
индивидуальные особенности и предпочтения языковой личности и, конечно,
он не может быть всеобъемлюще описан единичными параметрами. Для
построения эффективной системы атрибуции авторства необходимо достичь
такого количественного представления текста, которое будет учитывать как
можно большее число лингвистических явлений. Нельзя однозначно оценить
результативность отдельных параметров, потому что только в совокупности
с общим множеством характеристик они представляют собой текст, а по-
отдельности содержат лишь частичную информацию, которая не всегда
позволяет однозначно отнести документ к тому или иному автору. В случае
необходимости ограничить количество стилеметрических параметров, на
наш взгляд, предпочтение стоит отдавать более объемным характеристикам,
которые часто встречаются в тексте и охватывают наибольший диапазон
специфических черт идиостиля.
В перспективе дальнейшего исследования нам представляется
актуальным улучшение представленной системы с помощью настройки
отдельных параметров и масштабирования значений характеристик;
рассмотрение эффективности различных методов атрибуции при
использовании одного и того же набора стилеметрических параметров;
проведение эксперимента, отражающего зависимость точности атрибуции от
количества авторов кандидатов.
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!