Атрибуция авторства на основе оценки стилеметрических параметров текста (на материале англоязычных туристических блогов)

Вдовина, Любовь Александровна Кафедра теории германских языков и межкультурной коммуникации
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

ВВЕДЕНИЕ …………………………………………………………………………………………………. 3
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ОСНОВАНИЯ ИССЛЕДОВАНИЯ
АТРИБУЦИИ АВТОРСТВА ……………………………………………………………………….. 7
1.1. Стилеметрия и атрибуция авторства ……………………………………………………….. 7
1.2. История стилеметрических исследований …………………………………………….. 13
1.3. Построение канонической системы атрибуции авторства ……………………… 20
1.3.1. Предварительная обработка текста ……………………………………………… 20
1.3.2. Извлечение стилеметрических параметров текста ……………………….. 25
1.3.3. Формальные методы определения авторства текстов …………………… 41
1.3.4. Машинное обучение и метод опорных векторов ………………………….. 50
ВЫВОДЫ ПО ГЛАВЕ 1 …………………………………………………………………………….. 60
ГЛАВА 2. ОЦЕНКА ЭФФЕКТИВНОСТИ ИСПОЛЬЗОВАНИЯ
СТИЛЕМЕТРИЧЕСКИХ ПАРАМЕТРОВ ТЕКСТА ДЛЯ РЕШЕНИЯ
ЗАДАЧИ АТРИБУЦИИ АВТОРСТВА ……………………………………………………… 62
2.1. Материалы исследования ……………………………………………………………………… 62
2.2. Предварительная обработка корпуса …………………………………………………….. 64
2.3. Анализ стилеметрических параметров текста ……………………………………….. 67
2.3.1. Единицы лексического уровня ……………………………………………………. 67
2.3.2. Элементы плана выражения знака ………………………………………………. 83
2.3.3. Единицы синтаксического уровня ……………………………………………….. 89
2.3.4. Единицы морфологического уровня ……………………………………………. 93
2.4. Результаты работы модели атрибуции авторства …………………………………… 95
ВЫВОДЫ ПО ГЛАВЕ 2 …………………………………………………………………………… 100
ЗАКЛЮЧЕНИЕ ……………………………………………………………………………………….. 103
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ ………………………………….. 106
ПРИЛОЖЕНИЕ А …………………………………………………………………………………… 118
ПРИЛОЖЕНИЕ Б ……………………………………………………………………………………. 120
ПРИЛОЖЕНИЕ В ……………………………………………………………………………………. 121

В процессе создания письменного текста каждый человек в силу своих
индивидуальных особенностей использует различные языковые структуры.
Обнаружение и описание таких структур позволяет с высокой точностью
определять личность автора анонимного документа с помощью объективных
научных методик.
Распространение Интернета привело к увеличению количества
анонимных материалов, существенную долю которых составляют
противоправные тексты, содержащие призывы к экстремизму, угрозы,
оскорбления и пр. В связи с этим вопросы установления авторства
представляют интерес не только для лингвистов, но и для экспертов-
криминалистов в вопросах установления личности автора вредоносного кода,
определения автора писем с угрозами, установления достоверности
предсмертных записок, идентификации террористов и убийц. Также системы
атрибуции текста используются юристами и журналистами, поскольку
установление истинного автора текста может использоваться для
обнаружения плагиата, привлечения к ответственности правонарушителей
или оправдания невиновных.
Данная работа посвящена атрибуции авторства, основывающейся на
количественной оценке стилеметрических параметров. Построение
автоматической системы атрибуции и эффективность отдельных параметров
рассматриваются на примере текстов англоязычных туристических блогов.
Актуальность исследования обусловлена тем, что, несмотря на
существование достаточно точных систем атрибуции, исследователи до сих
пор не пришли к согласию по поводу оптимального набора характеристик,
описывающих авторский стиль. Многообразие возможных стилеметрических
параметров требует дополнительных исследований в этой области.
Научная новизна исследования заключается в рассмотрении
эффективности стилеметрических параметров для атрибуции текста среди
большого количества авторов-кандидатов. Большинство работ данной
области рассматривает проблему выбора искомого автора из небольшого
круга кандидатов, исследования обширных корпусов весьма
немногочисленны.
Целью нашего исследования является сравнительный анализ
стилеметрических параметров текста и оценка их эффективности для
решения задачи атрибуции авторства.
Для достижения данной цели потребуется решение следующих задач:
1) провести обзор исследований в области стилеметрии:
рассмотреть существующие подходы к анализу авторского стиля; подробно
охарактеризовать основные параметры и современные методы атрибуции;
2) составить сбалансированный исследовательский корпус;
3) проанализировать показатели отдельных стилеметрических
параметров для авторов нашего корпуса;
4) осуществить практическую реализацию автоматического
извлечения характеристик и построить каноническую систему атрибуции;
5) провести анализ эффективности разработанного решения.
Объектом исследования является задача атрибуции текста; предметом
служат стилеметрические параметры, количественная оценка которых
позволяет охарактеризовать авторский стиль.
Корпус языкового материала был сформирован из записей
англоязычных туристических блогов, размещенных на платформе WordPress.
Всего корпус содержит 50 авторов, на каждого из которых приходится около
3000 слов. Суммарный объем проанализированного материала составляет
300 страниц формата A4.
Теоретическая значимость работы заключается в рассмотрении
стилеметрических параметров на обширном корпусе, который позволяет
эмпирически оценить их различающую способность и сопоставить с
эффективностью в системе атрибуции.
Практическая значимость заключается в возможности применения
разработанной системы атрибуции для решения реальных задач
идентификации автора противоправного текста.
Методологическую основу данного исследования составляют труды
ученых в области анализа индивидуального стиля автора (В.В. Виноградов,
Ю.Н. Караулов, Г.Я. Мартыненко, М.Ю. Мухин), в области атрибуции
текстов (З.И. Резанова, Д.В. Хмелев, А.С. Романов, Р.В. Мещеряков) и в
области компьютерных методов обработки естественного языка и
классификации текстов (М. Коппел, Дж. Шлер, Э. Стамататос, Т. Нил).
Основными методами исследования в работе являются метод
сплошной и специальной выборки, метод экспертного лингвистического
анализа, метод статистического анализа, метод контент-анализа.
Структура работы обусловлена ее содержанием.
Во введении изложено краткое содержание темы, ее актуальность,
научная новизна, цель, задачи, объект и предмет исследования, материал и
методы исследования, его практическая значимость и теоретическая база.
Первая глава «Теоретические основания атрибуции текста» посвящена
описанию теоретических оснований исследования стиля и технологий
решения задачи атрибуции текста. Глава состоит из трех параграфов. В
параграфе 1.1. «Стилеметрия и атрибуция текста» описываются подходы к
исследованию авторского стиля и типы задач, решаемых стилеметрией, а
также дается формулировка задачи атрибуции авторства. Параграф 1.2.
«История стилеметрических исследований» содержит краткий
хронологический обзор научных работ, демонстрирующий становление и
развитие стилеметрии. В параграфе 1.3. «Построение канонической системы
атрибуции авторства» рассматриваются этапы построения системы
автоматической атрибуции; типы стилеметрических характеристик и
формальных методов классификации, применяемых для решения задачи, а
также предоставляется теоретическое обоснование выбранной модели
классификации. Выводы по первой главе содержат основные выводы по всем
параграфам.
Вторая глава «Анализ стилеметрических параметров текста и их
эффективности в задаче атрибуции авторства» посвящена анализу основных
стилеметрических характеристик, путем количественной оценки которых,
проводится атрибуция авторства. Глава состоит из четырех параграфов. В
параграфе 2.1. «Материалы исследования» представлено подробное описание
корпуса исследования. Параграф 2.2. «Предварительная обработка корпуса»
содержит описание техник обработки текста, используемых в нашей работе.
В параграфе 2.3. «Анализ стилеметрических параметров текста» выделяются
четыре подпункта, в которых рассматриваются лексические, символьные,
синтаксические и морфологические группы параметров. В параграфе 2.4.
«Результаты работы модели атрибуции авторства» представлена оценка
точности разработанной системы атрибуции в зависимости от используемых
стилеметрических характеристик. Выводы по второй главе содержат
основные выводы по всем параграфам. В заключении представлены выводы
по всему исследованию. Список использованной литературы содержит 115
источников.

Развитие цифровых технологий и сети Интернет значительным образом
повлияло на человеческую коммуникацию: на сегодняшний день объемы
ежедневно генерируемой текстовой информации увеличиваются в
геометрической прогрессии и, как следствие, увеличивается потребность в
установлении авторства анонимных текстов. Большинство членов
современного общества ежедневно генерирует цифровые текстовые
документы, в результате чего формируется объемный корпус авторских
текстов, хранящихся на серверах цифровых систем коммуникации
(социальные сети, мессенджеры, сотовые операторы). Таким образом, в
случае необходимости правоохранительные органы могут получить доступ к
достаточному для описания авторского стиля количеству текстового
материала и использовать его для атрибуции противоправных текстов.
Развитие компьютерных технологий, в свою очередь, позволило существенно
усовершенствовать процесс атрибуции авторства и перейти от субъективных
методов к более объективным методикам, основанным на количественной
оценке параметров текста.
В теоретической части работы мы рассмотрели основные подходы к
определению понятия «стиль», историю и этапы становления стилеметрии,
современную формулировку проблемы атрибуции авторства и методы ее
решения.
При анализе языковых элементов текстовой структуры используются
параметры различных уровней: лексического, символьного и
грамматического. На сегодняшний день различными исследователями было
предложено более 1000 параметров, характеризующих авторский стиль, но
универсальный набор характеристик, позволяющий со 100% вероятностью
отличить одного автора от другого до сих пор не найден. В каждом частном
случае выбор параметров зависит от материалов исследования: учитываются
особенности языка, анализируемого дискурса, электронного представления
текстов и используемая для атрибуции модель классификации. Одним из
наиболее популярных подходов к классификации текста является машинное
обучение, основанное на методе опорных векторов (SVM). Такая модель
позволяет обрабатывать многомерные массивы параметров и с их помощью
разграничивать тексты разного авторства.
Практическая часть исследования посвящена анализу
стилеметрических параметров и развертыванию полноценной системы
атрибуции авторства. В нашем исследовании рассматривались
исключительно языковые черты текста без учета структурных особенностей
и метаданных документа. В соответствии с классификацией параметров,
представленной в теоретической главе, мы проанализировали единицы
лексического уровня, плана выражения знака, синтаксического и
морфологического уровней, всего 362 параметра и 9 текстовых
представлений. Анализ наиболее распространенных характеристик показал,
что все они обладают различающей способностью и могут быть
использованы для атрибуции авторства с различной степенью
эффективности. Результаты анализа для большей наглядности представлены
в виде сравнительных диаграмм.
Практическая реализация системы атрибуции показала, что наиболее
эффективными для установления личности автора оказались всеобъемлющие
текстовые репрезентации и группы параметров, возвращающие большое
количество значений: чем больше значений содержит набор параметров, тем
точнее определяется личность автора. Для эксперимента на корпусе 50
авторов максимальная точность атрибуции была получена с помощью
представления текста в виде tf-idf взвешенных символьных 4-грамм и
составила 82.5%. Для достижения такой точности тексты были представлены
в виде 41394 значений частотности соответствующих 4-грамм. Среди
наборов частных характеристик максимальная точность установления
личности автора составила 36.7%. для синтаксических параметров.
Полученные значения считаются весьма удовлетворительными,
разработанная система может использоваться для решения реальных
практических задач.
Текст представляет собой сложную систему, в которой выражаются
индивидуальные особенности и предпочтения языковой личности и, конечно,
он не может быть всеобъемлюще описан единичными параметрами. Для
построения эффективной системы атрибуции авторства необходимо достичь
такого количественного представления текста, которое будет учитывать как
можно большее число лингвистических явлений. Нельзя однозначно оценить
результативность отдельных параметров, потому что только в совокупности
с общим множеством характеристик они представляют собой текст, а по-
отдельности содержат лишь частичную информацию, которая не всегда
позволяет однозначно отнести документ к тому или иному автору. В случае
необходимости ограничить количество стилеметрических параметров, на
наш взгляд, предпочтение стоит отдавать более объемным характеристикам,
которые часто встречаются в тексте и охватывают наибольший диапазон
специфических черт идиостиля.
В перспективе дальнейшего исследования нам представляется
актуальным улучшение представленной системы с помощью настройки
отдельных параметров и масштабирования значений характеристик;
рассмотрение эффективности различных методов атрибуции при
использовании одного и того же набора стилеметрических параметров;
проведение эксперимента, отражающего зависимость точности атрибуции от
количества авторов кандидатов.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Лидия К.
    4.5 (330 отзывов)
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии ... Читать все
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии и педагогики. Написание диссертаций, ВКР, курсовых и иных видов работ.
    #Кандидатские #Магистерские
    592 Выполненных работы
    Вики Р.
    5 (44 отзыва)
    Наличие красного диплома УрГЮУ по специальности юрист. Опыт работы в профессии - сфера банкротства. Уровень выполняемых работ - до магистерских диссертаций. Написан... Читать все
    Наличие красного диплома УрГЮУ по специальности юрист. Опыт работы в профессии - сфера банкротства. Уровень выполняемых работ - до магистерских диссертаций. Написание письменных работ для меня в удовольствие.Всегда качественно.
    #Кандидатские #Магистерские
    60 Выполненных работ
    Евгений А. доктор, профессор
    5 (154 отзыва)
    Более 40 лет занимаюсь преподавательской деятельностью. Специалист в области философии, логики и социальной работы. Кандидатская диссертация - по логике, докторская - ... Читать все
    Более 40 лет занимаюсь преподавательской деятельностью. Специалист в области философии, логики и социальной работы. Кандидатская диссертация - по логике, докторская - по социальной работе.
    #Кандидатские #Магистерские
    260 Выполненных работ
    Яна К. ТюмГУ 2004, ГМУ, выпускник
    5 (8 отзывов)
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соот... Читать все
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соответствии с Вашими требованиями.
    #Кандидатские #Магистерские
    12 Выполненных работ
    Анна В. Инжэкон, студент, кандидат наук
    5 (21 отзыв)
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссе... Читать все
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссертаций. Работала в маркетинге. Практикующий бизнес-консультант.
    #Кандидатские #Магистерские
    31 Выполненная работа
    Екатерина П. студент
    5 (18 отзывов)
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно... Читать все
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно занимаюсь английским языком, уровень владения - Upper-Intermediate.
    #Кандидатские #Магистерские
    39 Выполненных работ
    Евгения Р.
    5 (188 отзывов)
    Мой опыт в написании работ - 9 лет. Я специализируюсь на написании курсовых работ, ВКР и магистерских диссертаций, также пишу научные статьи, провожу исследования и со... Читать все
    Мой опыт в написании работ - 9 лет. Я специализируюсь на написании курсовых работ, ВКР и магистерских диссертаций, также пишу научные статьи, провожу исследования и создаю красивые презентации. Сопровождаю работы до сдачи, на связи 24/7 ?
    #Кандидатские #Магистерские
    359 Выполненных работ
    Андрей С. Тверской государственный университет 2011, математический...
    4.7 (82 отзыва)
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на... Читать все
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на продолжение диссертационной работы... Всегда готов помочь! ;)
    #Кандидатские #Магистерские
    164 Выполненных работы
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ

    Другие учебные работы по предмету

    Видовые различия в русской речи польских и чешских студентов
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Фразеологические единицы в политическом дискурсе
    📅 2021год
    🏢 Санкт-Петербургский государственный университет