Атрибуция авторства на основе оценки стилеметрических параметров текста (на материале англоязычных туристических блогов)

Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0
Вдовина, Любовь Александровна Кафедра теории германских языков и межкультурной коммуникации
Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

ВВЕДЕНИЕ …………………………………………………………………………………………………. 3
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ОСНОВАНИЯ ИССЛЕДОВАНИЯ
АТРИБУЦИИ АВТОРСТВА ……………………………………………………………………….. 7
1.1. Стилеметрия и атрибуция авторства ……………………………………………………….. 7
1.2. История стилеметрических исследований …………………………………………….. 13
1.3. Построение канонической системы атрибуции авторства ……………………… 20
1.3.1. Предварительная обработка текста ……………………………………………… 20
1.3.2. Извлечение стилеметрических параметров текста ……………………….. 25
1.3.3. Формальные методы определения авторства текстов …………………… 41
1.3.4. Машинное обучение и метод опорных векторов ………………………….. 50
ВЫВОДЫ ПО ГЛАВЕ 1 …………………………………………………………………………….. 60
ГЛАВА 2. ОЦЕНКА ЭФФЕКТИВНОСТИ ИСПОЛЬЗОВАНИЯ
СТИЛЕМЕТРИЧЕСКИХ ПАРАМЕТРОВ ТЕКСТА ДЛЯ РЕШЕНИЯ
ЗАДАЧИ АТРИБУЦИИ АВТОРСТВА ……………………………………………………… 62
2.1. Материалы исследования ……………………………………………………………………… 62
2.2. Предварительная обработка корпуса …………………………………………………….. 64
2.3. Анализ стилеметрических параметров текста ……………………………………….. 67
2.3.1. Единицы лексического уровня ……………………………………………………. 67
2.3.2. Элементы плана выражения знака ………………………………………………. 83
2.3.3. Единицы синтаксического уровня ……………………………………………….. 89
2.3.4. Единицы морфологического уровня ……………………………………………. 93
2.4. Результаты работы модели атрибуции авторства …………………………………… 95
ВЫВОДЫ ПО ГЛАВЕ 2 …………………………………………………………………………… 100
ЗАКЛЮЧЕНИЕ ……………………………………………………………………………………….. 103
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ ………………………………….. 106
ПРИЛОЖЕНИЕ А …………………………………………………………………………………… 118
ПРИЛОЖЕНИЕ Б ……………………………………………………………………………………. 120
ПРИЛОЖЕНИЕ В ……………………………………………………………………………………. 121

В процессе создания письменного текста каждый человек в силу своих
индивидуальных особенностей использует различные языковые структуры.
Обнаружение и описание таких структур позволяет с высокой точностью
определять личность автора анонимного документа с помощью объективных
научных методик.
Распространение Интернета привело к увеличению количества
анонимных материалов, существенную долю которых составляют
противоправные тексты, содержащие призывы к экстремизму, угрозы,
оскорбления и пр. В связи с этим вопросы установления авторства
представляют интерес не только для лингвистов, но и для экспертов-
криминалистов в вопросах установления личности автора вредоносного кода,
определения автора писем с угрозами, установления достоверности
предсмертных записок, идентификации террористов и убийц. Также системы
атрибуции текста используются юристами и журналистами, поскольку
установление истинного автора текста может использоваться для
обнаружения плагиата, привлечения к ответственности правонарушителей
или оправдания невиновных.
Данная работа посвящена атрибуции авторства, основывающейся на
количественной оценке стилеметрических параметров. Построение
автоматической системы атрибуции и эффективность отдельных параметров
рассматриваются на примере текстов англоязычных туристических блогов.
Актуальность исследования обусловлена тем, что, несмотря на
существование достаточно точных систем атрибуции, исследователи до сих
пор не пришли к согласию по поводу оптимального набора характеристик,
описывающих авторский стиль. Многообразие возможных стилеметрических
параметров требует дополнительных исследований в этой области.
Научная новизна исследования заключается в рассмотрении
эффективности стилеметрических параметров для атрибуции текста среди
большого количества авторов-кандидатов. Большинство работ данной
области рассматривает проблему выбора искомого автора из небольшого
круга кандидатов, исследования обширных корпусов весьма
немногочисленны.
Целью нашего исследования является сравнительный анализ
стилеметрических параметров текста и оценка их эффективности для
решения задачи атрибуции авторства.
Для достижения данной цели потребуется решение следующих задач:
1) провести обзор исследований в области стилеметрии:
рассмотреть существующие подходы к анализу авторского стиля; подробно
охарактеризовать основные параметры и современные методы атрибуции;
2) составить сбалансированный исследовательский корпус;
3) проанализировать показатели отдельных стилеметрических
параметров для авторов нашего корпуса;
4) осуществить практическую реализацию автоматического
извлечения характеристик и построить каноническую систему атрибуции;
5) провести анализ эффективности разработанного решения.
Объектом исследования является задача атрибуции текста; предметом
служат стилеметрические параметры, количественная оценка которых
позволяет охарактеризовать авторский стиль.
Корпус языкового материала был сформирован из записей
англоязычных туристических блогов, размещенных на платформе WordPress.
Всего корпус содержит 50 авторов, на каждого из которых приходится около
3000 слов. Суммарный объем проанализированного материала составляет
300 страниц формата A4.
Теоретическая значимость работы заключается в рассмотрении
стилеметрических параметров на обширном корпусе, который позволяет
эмпирически оценить их различающую способность и сопоставить с
эффективностью в системе атрибуции.
Практическая значимость заключается в возможности применения
разработанной системы атрибуции для решения реальных задач
идентификации автора противоправного текста.
Методологическую основу данного исследования составляют труды
ученых в области анализа индивидуального стиля автора (В.В. Виноградов,
Ю.Н. Караулов, Г.Я. Мартыненко, М.Ю. Мухин), в области атрибуции
текстов (З.И. Резанова, Д.В. Хмелев, А.С. Романов, Р.В. Мещеряков) и в
области компьютерных методов обработки естественного языка и
классификации текстов (М. Коппел, Дж. Шлер, Э. Стамататос, Т. Нил).
Основными методами исследования в работе являются метод
сплошной и специальной выборки, метод экспертного лингвистического
анализа, метод статистического анализа, метод контент-анализа.
Структура работы обусловлена ее содержанием.
Во введении изложено краткое содержание темы, ее актуальность,
научная новизна, цель, задачи, объект и предмет исследования, материал и
методы исследования, его практическая значимость и теоретическая база.
Первая глава «Теоретические основания атрибуции текста» посвящена
описанию теоретических оснований исследования стиля и технологий
решения задачи атрибуции текста. Глава состоит из трех параграфов. В
параграфе 1.1. «Стилеметрия и атрибуция текста» описываются подходы к
исследованию авторского стиля и типы задач, решаемых стилеметрией, а
также дается формулировка задачи атрибуции авторства. Параграф 1.2.
«История стилеметрических исследований» содержит краткий
хронологический обзор научных работ, демонстрирующий становление и
развитие стилеметрии. В параграфе 1.3. «Построение канонической системы
атрибуции авторства» рассматриваются этапы построения системы
автоматической атрибуции; типы стилеметрических характеристик и
формальных методов классификации, применяемых для решения задачи, а
также предоставляется теоретическое обоснование выбранной модели
классификации. Выводы по первой главе содержат основные выводы по всем
параграфам.
Вторая глава «Анализ стилеметрических параметров текста и их
эффективности в задаче атрибуции авторства» посвящена анализу основных
стилеметрических характеристик, путем количественной оценки которых,
проводится атрибуция авторства. Глава состоит из четырех параграфов. В
параграфе 2.1. «Материалы исследования» представлено подробное описание
корпуса исследования. Параграф 2.2. «Предварительная обработка корпуса»
содержит описание техник обработки текста, используемых в нашей работе.
В параграфе 2.3. «Анализ стилеметрических параметров текста» выделяются
четыре подпункта, в которых рассматриваются лексические, символьные,
синтаксические и морфологические группы параметров. В параграфе 2.4.
«Результаты работы модели атрибуции авторства» представлена оценка
точности разработанной системы атрибуции в зависимости от используемых
стилеметрических характеристик. Выводы по второй главе содержат
основные выводы по всем параграфам. В заключении представлены выводы
по всему исследованию. Список использованной литературы содержит 115
источников.

Развитие цифровых технологий и сети Интернет значительным образом
повлияло на человеческую коммуникацию: на сегодняшний день объемы
ежедневно генерируемой текстовой информации увеличиваются в
геометрической прогрессии и, как следствие, увеличивается потребность в
установлении авторства анонимных текстов. Большинство членов
современного общества ежедневно генерирует цифровые текстовые
документы, в результате чего формируется объемный корпус авторских
текстов, хранящихся на серверах цифровых систем коммуникации
(социальные сети, мессенджеры, сотовые операторы). Таким образом, в
случае необходимости правоохранительные органы могут получить доступ к
достаточному для описания авторского стиля количеству текстового
материала и использовать его для атрибуции противоправных текстов.
Развитие компьютерных технологий, в свою очередь, позволило существенно
усовершенствовать процесс атрибуции авторства и перейти от субъективных
методов к более объективным методикам, основанным на количественной
оценке параметров текста.
В теоретической части работы мы рассмотрели основные подходы к
определению понятия «стиль», историю и этапы становления стилеметрии,
современную формулировку проблемы атрибуции авторства и методы ее
решения.
При анализе языковых элементов текстовой структуры используются
параметры различных уровней: лексического, символьного и
грамматического. На сегодняшний день различными исследователями было
предложено более 1000 параметров, характеризующих авторский стиль, но
универсальный набор характеристик, позволяющий со 100% вероятностью
отличить одного автора от другого до сих пор не найден. В каждом частном
случае выбор параметров зависит от материалов исследования: учитываются
особенности языка, анализируемого дискурса, электронного представления
текстов и используемая для атрибуции модель классификации. Одним из
наиболее популярных подходов к классификации текста является машинное
обучение, основанное на методе опорных векторов (SVM). Такая модель
позволяет обрабатывать многомерные массивы параметров и с их помощью
разграничивать тексты разного авторства.
Практическая часть исследования посвящена анализу
стилеметрических параметров и развертыванию полноценной системы
атрибуции авторства. В нашем исследовании рассматривались
исключительно языковые черты текста без учета структурных особенностей
и метаданных документа. В соответствии с классификацией параметров,
представленной в теоретической главе, мы проанализировали единицы
лексического уровня, плана выражения знака, синтаксического и
морфологического уровней, всего 362 параметра и 9 текстовых
представлений. Анализ наиболее распространенных характеристик показал,
что все они обладают различающей способностью и могут быть
использованы для атрибуции авторства с различной степенью
эффективности. Результаты анализа для большей наглядности представлены
в виде сравнительных диаграмм.
Практическая реализация системы атрибуции показала, что наиболее
эффективными для установления личности автора оказались всеобъемлющие
текстовые репрезентации и группы параметров, возвращающие большое
количество значений: чем больше значений содержит набор параметров, тем
точнее определяется личность автора. Для эксперимента на корпусе 50
авторов максимальная точность атрибуции была получена с помощью
представления текста в виде tf-idf взвешенных символьных 4-грамм и
составила 82.5%. Для достижения такой точности тексты были представлены
в виде 41394 значений частотности соответствующих 4-грамм. Среди
наборов частных характеристик максимальная точность установления
личности автора составила 36.7%. для синтаксических параметров.
Полученные значения считаются весьма удовлетворительными,
разработанная система может использоваться для решения реальных
практических задач.
Текст представляет собой сложную систему, в которой выражаются
индивидуальные особенности и предпочтения языковой личности и, конечно,
он не может быть всеобъемлюще описан единичными параметрами. Для
построения эффективной системы атрибуции авторства необходимо достичь
такого количественного представления текста, которое будет учитывать как
можно большее число лингвистических явлений. Нельзя однозначно оценить
результативность отдельных параметров, потому что только в совокупности
с общим множеством характеристик они представляют собой текст, а по-
отдельности содержат лишь частичную информацию, которая не всегда
позволяет однозначно отнести документ к тому или иному автору. В случае
необходимости ограничить количество стилеметрических параметров, на
наш взгляд, предпочтение стоит отдавать более объемным характеристикам,
которые часто встречаются в тексте и охватывают наибольший диапазон
специфических черт идиостиля.
В перспективе дальнейшего исследования нам представляется
актуальным улучшение представленной системы с помощью настройки
отдельных параметров и масштабирования значений характеристик;
рассмотрение эффективности различных методов атрибуции при
использовании одного и того же набора стилеметрических параметров;
проведение эксперимента, отражающего зависимость точности атрибуции от
количества авторов кандидатов.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Читать «Атрибуция авторства на основе оценки стилеметрических параметров текста (на материале англоязычных туристических блогов)»

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Дарья С. Томский государственный университет 2010, Юридический, в...
    4.8 (13 отзывов)
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссерт... Читать все
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссертационное исследование, которое сейчас находится на рассмотрении в совете.
    #Кандидатские #Магистерские
    18 Выполненных работ
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Ксения М. Курганский Государственный Университет 2009, Юридический...
    4.8 (105 отзывов)
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитыв... Читать все
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитывать все требования и пожелания.
    #Кандидатские #Магистерские
    213 Выполненных работ
    Александра С.
    5 (91 отзыв)
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повы... Читать все
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повышении уникальности текста и оформлении библиографических ссылок по ГОСТу.
    #Кандидатские #Магистерские
    132 Выполненных работы
    Катерина М. кандидат наук, доцент
    4.9 (522 отзыва)
    Кандидат технических наук. Специализируюсь на выполнении работ по метрологии и стандартизации
    Кандидат технических наук. Специализируюсь на выполнении работ по метрологии и стандартизации
    #Кандидатские #Магистерские
    836 Выполненных работ
    Екатерина Д.
    4.8 (37 отзывов)
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два об... Читать все
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два образования: экономист-менеджер и маркетолог. Буду рада помочь и Вам.
    #Кандидатские #Магистерские
    55 Выполненных работ
    Катерина В. преподаватель, кандидат наук
    4.6 (30 отзывов)
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации... Читать все
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации. Опыт работы 7 лет. Всегда на связи и готова прийти на помощь. Вместе удовлетворим самого требовательного научного руководителя. Возможно полное сопровождение: от статуса студента до получения научной степени.
    #Кандидатские #Магистерские
    47 Выполненных работ
    Анна Александровна Б. Воронежский государственный университет инженерных технол...
    4.8 (30 отзывов)
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственно... Читать все
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственном университете инженерных технологий.
    #Кандидатские #Магистерские
    66 Выполненных работ
    Егор В. кандидат наук, доцент
    5 (428 отзывов)
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Ск... Читать все
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Скорее всего Ваш заказ будет выполнен раньше срока.
    #Кандидатские #Магистерские
    694 Выполненных работы

    Другие учебные работы по предмету

    Видовые различия в русской речи польских и чешских студентов
    📅 2021 год
    🏢 Санкт-Петербургский государственный университет
    Способы достижения эквивалентности при переводе конвенций ООН
    📅 2021 год
    🏢 Санкт-Петербургский государственный университет
    Фразеологические единицы в политическом дискурсе
    📅 2021 год
    🏢 Санкт-Петербургский государственный университет