Модели, методы и программные средства извлечения оценочных отношений на основе фреймовой базы знаний
Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Глава 1. Методы машинного обучения в задачах анализа
тональности . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1 Применение машинного обучения в задачах анализа
тональности текстов . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.1 Признаки в задачах анализа тональности . . . . . . . . . . 16
1.2 Модели векторного представления документов . . . . . . . . . . . 16
1.3 Классификаторы на основе векторных представлений документов 17
1.4 Методы глубокого обучения в задачах анализа тональности . . . 19
1.4.1 Векторные представления токенов документа и признаков 22
1.4.2 Сверточные нейронные сети . . . . . . . . . . . . . . . . . 24
1.4.3 Рекуррентные нейронные сети . . . . . . . . . . . . . . . . 26
1.4.4 Модуль с механизмом внимания для моделей на основе
нейронных сетей . . . . . . . . . . . . . . . . . . . . . . . . 29
1.4.5 Языковые модели для извлечения отношений . . . . . . . 31
1.5 Методы автоматической разметки данных для увеличения
объема обучающих коллекций . . . . . . . . . . . . . . . . . . . . 34
1.6 Подходы к извлечению оценочных отношений . . . . . . . . . . . 34
1.7 Методы оценки моделей анализа тональности . . . . . . . . . . . 38
1.7.1 Полнота, точность, 1-мера . . . . . . . . . . . . . . . . . 38
1.7.2 Усреднения результатов . . . . . . . . . . . . . . . . . . . . 39
Выводы по главе 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Глава 2. Извлечение оценочных отношений . . . . . . . . . . . . . . 42
2.1 Формальная постановка задачи . . . . . . . . . . . . . . . . . . . . 42
2.2 Контекстное представление отношений . . . . . . . . . . . . . . . 44
2.3 Классификаторы на основе ручных признаков обработки
естественного языка . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.4 Классификатор на основе нейронных сетей . . . . . . . . . . . . . 46
2.4.1 Векторное представление контекстов отношений . . . . . . 46
2.4.2 Архитектура модели сверточной нейронной сети PCNN . 46
Стр.
2.4.3 Архитектура модели AttCNN с механизмом внимания
на основе многослойного перцептрона . . . . . . . . . . . . 49
2.4.4 Архитектура модели IAN с механизмом кросс-внимания . 51
2.4.5 Архитектура модели Att-BLSTM с механизмом
внимания Self-Attention . . . . . . . . . . . . . . . . . 52
2.5 Работа с моделями на основе контекстного представления
отношений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.5.1 Предсказание класса тональности . . . . . . . . . . . . . . 53
2.5.2 Обучение нейронной сети . . . . . . . . . . . . . . . . . . . 54
2.5.3 Вычисление оценки отношения на уровне документа . . . 55
2.6 Эксперименты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.6.1 Описание корпуса с размеченными оценочными
отношениями в русскоязычных аналитических статьях
RuSentRel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.6.2 Разметка контекста . . . . . . . . . . . . . . . . . . . . . . 58
2.6.3 Составление векторов для термов контекста нейронных
сетей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.6.4 Оценка качества моделей . . . . . . . . . . . . . . . . . . . 61
2.6.5 Результаты . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Выводы по главе 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Глава 3. Методы опосредованного обучения в задаче
извлечения оценочных отношений . . . . . . . . . . . . . . 67
3.1 Формальная постановка задачи . . . . . . . . . . . . . . . . . . . . 67
3.2 Используемые ресурсы . . . . . . . . . . . . . . . . . . . . . . . . 68
3.2.1 Фреймовая база знаний RuSentiFrames . . . . . . . . . . . 68
3.2.2 Новостные коллекции . . . . . . . . . . . . . . . . . . . . . 70
3.3 Подход автоматической разметки оценочных отношений в
новостных документах с использованием лексикона RuSentiFrames 71
3.3.1 Обработка текста и распознавание именованных сущностей 72
3.3.2 Разметка на основе предварительно заданного списка
оценочных отношений . . . . . . . . . . . . . . . . . . . . . 72
3.3.3 Разметка с использованием коллекции фреймов . . . . . . 73
3.3.4 Фильтрация размеченных отношений . . . . . . . . . . . . 74
Стр.
3.4 Улучшение подхода автоматизации в извлечении оценочных
отношений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.4.1 Автоматическое построение вспомогательных ресурсов . . 78
3.4.2 Автоматическая разметка отношений и анализ результатов 82
3.5 Эксперименты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.5.1 Оценка качества и настройки обучения моделей . . . . . . 85
3.5.2 Подготовка данных . . . . . . . . . . . . . . . . . . . . . . 87
3.5.3 Результаты . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.5.4 Разбор контекста . . . . . . . . . . . . . . . . . . . . . . . . 94
3.5.5 Анализ оценочных фреймов и слов по частям речи в
результатах моделей . . . . . . . . . . . . . . . . . . . . . . 94
3.5.6 Анализ влияния обучения на распределения весов
механизма внимания в моделях нейронных сетей . . . . . 97
3.5.7 Анализ влияния предварительного обучения на
распределение весов механизма внимания в языковых
моделях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Выводы по главе 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Глава 4. Архитектура программного комплекса для
организации экспериментов с извлечением оценочных
отношений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.1 Возможности разработанного набора инструментов AREkit . . . . 112
4.2 Обработка и представления новостей . . . . . . . . . . . . . . . . 112
4.2.1 Архитектура представления документа . . . . . . . . . . . 112
4.2.2 Архитектура отношений между упоминаемыми
сущностями в рамках документа и контекстов . . . . . . . 115
4.2.3 Оценка качества разметки . . . . . . . . . . . . . . . . . . 117
4.3 Организация эксперимента фреймворка AREkit . . . . . . . . . . 119
4.3.1 Разметка документов нейтральными отношениями . . . . 122
4.3.2 Сериализация данных . . . . . . . . . . . . . . . . . . . . . 122
4.4 Модуль нейронных сетей для извлечения оценочных отношений . 126
4.5 Эксперименты и оценка производительности . . . . . . . . . . . . 128
4.5.1 Обучение сверточных и рекуррентных нейронных сетей . 128
4.5.2 Обучение языковых моделей сторонними библиотеками . . 130
Стр.
4.6 Возможности модуля автоматической разметки оценочных
отношений в новостных документах . . . . . . . . . . . . . . . . . 132
4.6.1Обработка новостных документов . . . . . . . . . . . . . . 133
4.6.2Автоматическая обработка и разметка отношений в
новостных текстах . . . . . . . . . . . . . . . . . . . . . . . 135
Выводы по главе 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
Общие выводы и заключение . . . . . . . . . . . . . . . . . . . . . . . 141
Список сокращений и условных обозначений . . . . . . . . . . . . . 142
Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
Приложения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Во введении обосновывается актуальность диссертационной работы, сформулированы цель и задачи представляемой работы, сформулирована научная новизна исследований, показана практическая значимость рабо ты.
Первая глава посвящена обзору различных задач и методов ана лиза тональности текстов. Рассматриваются методы глубокого обучения в смежных задачах. В исследованиях задача анализа тональности может ста виться как задача классификации, в качестве выходных данных которой предполагается набор классов тональности. При этом задача извлечения оценочных отношений исследовалась недостаточно: есть только небольшое число работ для английского языка, для русского языка исследований не было. Поэтому важным является исследование методов автоматического сбора обучающей коллекции. Таким образом подтверждается актуальность разработки методов и проведение исследований для русского языка.
Вторая глава посвящена исследованию методов машинного обуче ния для извлечения оценочных отношений из аналитических текстов.
Формальная постановка задачи. Источником анализа являет ся текстовая коллекция, состоящая из документов { } =1, где – грамматически организованная последовательность слов с передачей
мнения автора по отношению ко множеству упомянутых именованных сущ
ностей. Каждый документ представлен последовательностью символов:
= { 1, 2,…, | |}. Для каждого документа коллекции предостав
ляется список упомянутых именованных сущностей = [ 1 , . . . , | | ].
Именованная сущность ( ) – слово или словосочетание, указывающие
на объект реальности; представлена кортежем ⟨ , ⟩, где = [ , . . . , ]
– слово/словосочетание; – категория: личности (PER), организации
(ORG), места (LOC); геополитические места (GEO). Сущность может
иметь множество вариантов наименований (например: Россия – РФ ),
поэтому дополнительно вводится список синонимов , состоящий из
групп [ 1, . . . , | |], где произвольная группа представлена значения
ми сущностей: { 1,…, | |}. Каждое из значений групп списка является
уникальным в рамках всего списка ; пересечение любых двух различ
ных групп является пустым множеством. Под извлечением оценочных
отношений из подразумевается составление списка кортежей a =
{⟨ 1, , 2, , ⟩}|a| , где 1, – субъект, 2, – объект, – оценка, позитивная =1
(pos) либо негативная (neg). Например, в следующем тексте (именованные сущности подчеркнуты): «При этом Москва неоднократно подчеркивала, что ее активность на Балтике является ответом именно на действия НАТО и эскалацию враждебного подхода к России вблизи ее восточ ных границ . . .» результатом является список отношений: [(НАТО, Россия, neg), (Россия, НАТО, neg)].
Контексты с отношениями. Основное предположение наличия оценочного отношения между парой сущностей ⟨ 1, 2⟩ – относительно ко роткое расстояние между этими сущностями в тексте. Под контекстом понимается текстовый фрагмент, включающий две и более именованных сущностей. Контекст соответствует отношению, когда 1 и 2 (их синонимы в том числе) присутствуют в контексте. Таким образом, для каждого отношения можно выделить множество соответствующих контек стов. Под размеченным контекстом понимается контекст с выделенной парой «субъект-объект». Размеченный контекст рассматривается как оце ночный, если соответствующая пара присутствует в разметке коллекции. В противном случае размеченный контекст рассматривается как нейтраль ный (принадлежит дополнительному классу neu). Таким образом, процесс извлечения оценочных отношений на уровне контекстов может быть сведен к классификационной задаче. Такой процесс подразумевает отбор таких контекстов, которые не являются нейтральными.
Классические методы. Классификация контекстов может быть выполнена классическими методами машинного обучения: KNN, SVM, Na ̈ıve Bayes, Random Forest, Gradient Boosting. Признаки, используемые для классификации разделены на группы [5], характеризующие: (1) име нованные сущности; (2) контекст с отношением.
5
Модель извлечения оценочных отношений. Для решения за дачи разработана модель, состоящая из классификатора размеченных контекстов с блоком агрегации результатов нескольких контекстов в еди ную оценку. В качестве классификаторов рассматривается и исследуется применение сверточных и рекуррентных нейронных сетей, языковых мо делей семейства BERT. Общая архитектура классификатора включает: (1) кодировщик размеченного контекста, (2) классификационный слой.
Входной информацией для кодировщика на основе языковых моделей являются размеченные контексты. В случае нейронных сетей, размечен ные контексты предварительно конвертируются в вектора признаков для термов (атомарные элементы, выделенные из размеченного контекста, сле дующих типов: entities (вхождения именованных сущностей), tokens (знаки препинания, URL-ссылки, числа), frames (вхождения в сторонний лексикон), words (прочие подпоследовательности контекста, разделенные пробелами)) кон текста. Признаки термов контекста: (1) вектор основного представления терма из модели news2015 (размер: 1000); (2) вектор расстояния [Zeng и др., Distant supervision for relation extraction via piecewise convolutional neural networks, 2015] – расстояние в термах от рассматриваемого терма до участников отношения ⟨ 1 , 2 ⟩ (размер: 5 · 2 = 10); (3) вектор частей речи терма (размер: 5) (вычисляется для соответствующего слова токена, с помощью пакета Yandex Mystem; для токенов группы tokens вводится допол нительный тип UNKNOWN – значение части речи не определено). Общая длина вектора признаков ( ) равна 1015.
Кодировщик размеченного контекста выполняет преобразова ние входной последовательности (размеченного контекста) в векторное представление ∈ Rh длины h. В случае нейронных сетей исследуются кодировщики на основе следующих архитектур:
– Свёрточных типов [4] (CNN, PCNN [3]), в которых вектор (да лее ) представляет собой максимальную субдискретизацию (от англ. maxpooling) сверточных преобразований термов входной по следовательности;
– Рекуррентных типов [7] (LSTM, BiLSTM), где – последний эле мент выходной последовательности LSTM, и конкатенация пары последних векторов двух последовательностей в случае BiLSTM.
Также для таких архитектур исследуется внедрение механизма внимания. Механизм внимания представляет собой отдельную нейрон ную сеть, перед которой стоит задача определения значимости каждого элемента входной последовательности относительно каких-либо других элементов. Под взвешиванием элемента последовательности понимается составление его количественной оценки ∈ R. Преобразование ко личественной оценки в вероятностную ( ∈ [0,1]) осуществляется посредством операции softmax. Для входной последовательности векторов термов = { 1, . . . , } ( – размер контекста), сочетание механизма
внимания (a ∈ R ) с промежуточным результатом кодировщика (вход ные представления термов (CNN, PCNN), скрытые состояния термов (LSTM, BiLSTM)) контекста ′ ∈ R ×h можно представить в виде: = a · ′, где a = ′ ( ). Рассмотрим кодировщики контекстов с механизмами внимания относительно: (1) аспектов , где ⊂ , и (2) всего .
Механизм внимания на основе многослойного перцептрона [Huang и др., Attention-based convolutional neural network for semantic relation extraction, 2016]. Выберем произвольный аспект ∈ . Рассмотрим вектор ное представление -го терма (h ) как конкатенацию ∈ R с ∈ R , т.е. h = [ , ]. Количественная оценка релевантности ( ) для h вычисляется по формуле: = [tanh( ·h + )]+ , где ∈ Rh×2· и ∈ R1×h – матрицы весов и внимания модели соответственно; ∈ Rh, ∈ R – векторы смещения. Параметры ⟨ , , , ⟩ являются скрытыми состояниями механизма внимания a и изменяются в процессе обучения модели. Далее, оценка преобразуется в вероятностную с помощью операции softmax. Векторное представление контекста ˆ к некоторому ас пекту вычисляется по формуле: ˆ = ∑︀ =1 · . Таким образом, для каждого аспекта ∈ ( ∈ 1.. ) составим множество векторов { ˆ } =1. Результирующее векторное представление контекста есть конкатенация и =∑︀ =1 ˆ / .
Механизм внимания модели IAN [Ma Dehong и др., Interactive attention networks for aspect-level sentiment classification, 2017]. Вход коди ровщика представляет собой две раздельные последовательности и . Результатом применения модели LSTM к таким последовательностям яв ляются = [h 1,…,h ], = [h 1,…,h ], где h ,h ∈ Rh. Далее, для и вычисляются средние значения = ∑︀ =1 h / и = ∑︀ =1 h / . Количественная оценка последовательностей выполняется в направлени ях: (1) аспектов по отношению к контексту, и (2) контекста по отношению к аспектам. Вычисление весов производится по соответствующим форму лам (1) = tanh(h · · + ), и (2) = tanh(h · · + ) где , ∈ Rh×h и , ∈ R – скрытые состояния модели IAN. Далее, оцен ки и преобразуются в вероятностные и с помощью операции . Результирующий вектор контекста есть конкатенация векторов и , где = ∑︀ =1 ·h , = ∑︀ =1 ·h .
Самовнимание (Self-Attention). Используется кодировщик на основе двунаправленной LSTM. Результирующее контекстное представление та кого кодировщика ( = [h1 , . . . ,h ]) есть поэлементная конкатенация двух
последовательностей, в которой каждый -й элемент ( ∈ 1.. ) представ →− ←− →− ←−
лен как h = h ++h , где h и h элементы прямой и обратной LSTM последовательностей соответственно. Количественная оценка h ∈ Rh вы числяется по формуле [Peng Zhou и др., Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification, 2016]: = · ,
где = tanh(h ), ∈ Rh – вектор скрытых состояний механизма внима ния a, изменяемый в процессе обучения модели. Результирующий вектор представления контекста вычисляется по формуле: = h( · ).
Классификационный слой используется для преобразования ∈ Rh в вектор классов ∈ Rc, где c – число классов. Для выполнения такого преобразования используется полносвязный слой с параметрами ⟨ , ⟩ и функцией активации : = ( · + ), где ∈ Rc×h, ∈ Rc. В случае языковых моделей BERT, – усредненное значение выходных векторных представлений каждого токена.
Преобразование отношений на уровень документа. Для неко торой пары ⟨ 1, 2⟩ и соответствующего списка размеченных контекстов, результирующая оценка определяется как среднее значение среди меток контекста (усреднение методом голосования) [4].
Корпуса. Оценка моделей проводилась на русскоязычном корпусе аналитических текстов RuSentRel-1.0 [9]. Корпус предоставляет 73 боль ших аналитических текстов, размеченных с выделением порядка 2000 отношений среди них. Именованные сущности автоматически размечены методом CRF по классам [PER, ORG, LOC, GEO]. Из корпуса по каждой па ре сущностей были составлены множества контекстов. В 47-48% случаев отношения представлены одним контекстом.
Модели. Рассмотрено качество работы классических методов классификации: KNN, Na ̈ıve Bayes, Linear SVM, Random Forest и Gradient Boosting при использовании параметров по умолчанию и с пере бором таких параметров по предзаданной сетке [9]. Среди нейросетевых моделей исследовался следующий набор различных кодировщиков: CNN, PCNN; AttCNN , AttPCNN (модели с кодировщиками с механиз мом внимания «многослойный перцептрон»); LSTM, BiLSTM; IAN; Att-BLSTM (модель с механизмом внимания типа «Self-Attention»). Спи сок используемых языковых моделей включает вариации предобученных состояний модели BERT: mBERT [Devlin и др., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2019] (мульти языковая модель), RuBERT [Kuratov и др., Adaptation of deep bidirectional multilingual transformers for russian language, 2019] (дообученная вер сия mBERT на русскоязычных текстах энциклопедии «Википедия»), SentRuBERT (дообученная модель RuBERT посредством: (1) текстов корпуса SNLI [Bowman и др., A large annotated corpus for learning natural language inference, 2015] переведенных на русский язык, (2) русскоязычных текстов коллекции XNLI [Conneau и др., XNLI: Evaluating Cross-lingual Sentence Representations, 2018]). Модель BERT предполагает в качестве входной информации последовательность, опциально разделенную спе циальным символом [SEP] на две части: TextA и TextB. Варианты представления входной информации: (1) «без TextB»– последователь ность без разделения, (2) TextBQA – дополнение TextA вопросом в
TextB, (3) TextBNLI – дополнение TextA выводом отношения по кон тексту в TextB.
Оценка в рамках корпуса. Оценка качества моделей производи лась на основе метрик: (точность), (полнота), и -мера. Для оценки
моделей принимается показатель макро-усреднений над документами по оценочным классам: = 1 · ( + ) · 100. Оценка
1− 2 1− 1−
производится в рамках фиксированного тестового множества (да
1−
лее test) коллекции RuSentRel – 1 [9].
Среди классических методов, SVM и Na ̈ıve Bayes достигли 0.16 по F-мере; наилучший результат получен с помощью классификатора Random Forest ( 1 = 27.0) и Gradient Boosting ( 1 = 28.0). Предлага емый подход на основе нейронной сети PCNN значительно превосходит подходы с ручными признаками [9]; наилучший результат при 1 = 32.6. Наилучший результат среди моделей с механизмами внимания показы вают AttPCNN ( 1 = 32.6), IAN ( 1 = 32.2), Att-BLSTM ( 1 = 32.3) Для языковых моделей, наилучший показатель демонстрирует мо дель RuBERT («без TextB»), для которой 1 = 36.8 [1]. Результат согласий в разметке экспертами также достаточно низкий 1 = 55.0, но в то же время значительно превышает качество разметки автоматически ми методами. Следует отметить, что в смежной задаче [Eunsol Choi и др., Document-level sentiment inference with social, faction, and discourse context, 2016] авторы работали с документами на английском языке гораздо мень шего объема и сообщают о F-мере 0.36.
Третья глава посвящена исследованию опосредованного обучения моделей в задаче извлечения оценочных отношений. Приводится структура фреймовой базы знаний RuSentiFrames-2.0 [10]. Разработан метод автома тического извлечения оценочных отношений из новостей с использованием коллекции базы знаний в анализе новостных заголовков.
Формальная постановка задачи. Пусть имеется коллекция разме
ченных аналитических статей . Под размеченной аналитической статьей
понимается ⟨ , , a ⟩, где – текст аналитической статьи, – список
упомянутых именованных сущностей, a – список оценочных отношений.
Пусть имеется коллекция новостных документов = { ′ , . . . , ′ }, 1 | |
где | | ≫ | |. Под обучением модели машинного обучения понимается
итеративный процесс оптимизации параметров относительно эталонной
разметки {a }| | с целью минимизации непрерывной функции ошибки. =1
Под опосредованным обучением модели машинного обучения понимается итеративный процесс оптимизации параметров на основе объединения ли бо предобучения с применением алгоритма-посредника – функции, которая для произвольного документа ′ возвращает кортеж из размет ки именованных сущностей и оценочных отношений: ( ′ ) = ⟨ ′ , a ⟩; значение a в процессе опосредованного обучения рассматривается как множество эталонной разметки оценочных отношений документа ′.
9
Таблица 1. Пример описания фрейма «одобрить» в базе знаний RuSentiFrames-2.0
Слоты фрейма «одобрить»
roles polarity
effect state
Описание
A0: тот, кто одобряет A1: то, что одобряется A0→A1, pos
A1→A0, pos
A1, pos
A0, pos
A1, pos
Таблица 2. Количественная характеристика вхождений в RuSentiFrames-2.0
Тип лексической единицы Количество Вхождений фреймов 311 Глаголы 3 239 Существительные 986 Фразы 2 551 Другие 12 Уникальных вхождений 6 788 Всего вхождений 7 034
Таблица 3. Число вхождений отношений базы знаний RuSentiFrames-2.0 по классам
Значения слота «polarity» A0→A1
author→A0
author→A1
pos
2 558 170 92
neg
3 289 1 578 249
Необходимо разработать подход автоматической разметки оценочных отно шений в новостных документах ( ). Применение такого подхода в процессе обучения, ввиду значительного превосходства числа документов новостной коллекции над объемом коллекции , позволит существенно увеличить объем данных для моделей машинного обучения.
Фреймовая база знаний. RuSentiFrames описывает оценки и кон нотации, передаваемые предикатом в устной или номинальной форме. Структура фреймов включает в себя набор специфичных для предикатов ролей и набор характеристик для описания фреймов. Для обозначения ролей семантические аргументы отдельных глаголов нумеруются, начи ная с нуля (подход PropBank). Для конкретного глагола Arg0 – это, как правило, аргумент, демонстрирующий свойства прототипического агента (Agent) [Dowty и др., Thematic proto-roles and argument selection, 1991], в то время как Arg1 это тема (Theme). В основной части коллекции пред ставлены следующие слоты:
– roles – отношение автора текста к указанным участникам;
– polarity – положительная/отрицательная оценка между участни
ками отношений;
– effect – положительный/отрицательный эффект для участников;
– state – положительное/отрицательное психическое состояние участников, связанных с описанной ситуацией.
Пример формата описания фрейма «одобрить» приведен в таблице 1. Фреймы связаны также с семейством слов и выражений (лексических еди ниц), которые имеют одинаковые отношения. Лексические единицы могут быть связаны с оценочным фреймом следующими способами: отдельные слова, идиомы, конструкции глаголов и другие выражения, состоящие из нескольких слов. Для проведения разметки в методе опосредованного обу чения моделей используется только измерение отношения к теме (Theme), переданное прототипным агентом (Agent). В ресурсе RuSentiFrames-2.0 описано 311 фреймов, связанных с 7034 лексическими единицами, среди которых 6788 уникальных, из которых 48% – глаголы, 14% – существитель ные и оставшиеся 38% – словосочетания (см. таблицу 2). Число вхождений отношений по слоту «polarity» приведено в таблице 3.
Используемые ресурсы. Корпус NEWSLarge (8,8 млн. текстов) – состоит из русскоязычных статей и новостей крупных новостных ис точников, специализированных политических сайтов и российских сайтов информационных агентств.
Алгоритм. Подразумевает применение двух подходов обработки новостных текстов: на основе базы знаний RuSentiFrames, списка пар (статистики) на основе новостных заголовков. Диаграмма рабочего про цесса представлена на Рис. 1. В блоке «разбор текста» выполняется разметка термов групп words и tokens в заголовке и предложениях новости. Блок «разметки фреймов» выполняет поиск вхождений фрей мов базы знаний RuSentiFrames. Блок «разметки сущностей» использует предобученную модель BERTMult-OntoNotes (http://docs.deeppavlov.ai/en/0. 11.0/features/models/ner.html) для выделения сущностей типов множества ={GPE, ORG, PER}, где GPE = GEO. Модуль «группировки сущности» решает задачу кореференций именованных сущностей посредством исполь зования: (1) лемматизатора Yandex Mystem, (2) русскоязычного ресурса RuWordNet [Loukachevitch и др., Comparing Two Thesaurus Representations for Russian, 2018] для поиска синонимов существительных. Результатом являются: «коллекция синонимов» и «коллекция размеченных текстов».
Модуль «извлечения отношений» из коллекции размеченных текстов выполняет анализ всех новостных заголовков для составления «списка пар» (Рис. 1). Отношение , извлеченное из новостного заголовка, имеет формат = ⟨ , , , l⟩, где – индекс новости, и – индексы синони мичных групп начала и конца пары; l – назначаемый класс тональности. Отношение передается в список пар, если:
1. Участники и все именованные сущности между ними принадлежат ; и не являются синонимами; упомянута раньше ;
новостная коллекция
фреймовая
база знаний RuSentiFrames
извлечение отношений
список пар
пороговые значения для параметров: ⟨|∆q |, |Aq |⟩
заголовок
и предложения документов
фильтр пар
доверенные пары
фильтр отношений
отношения заголовка
заголовки текстов
пары
разбор текста
термы
разметка фреймов
RuWordNet
термы и фреймы
разметка сущностей
термы, фреймы, сущности
идентификаторы сущностей
заголовок
и предложения новости
вхождения фреймов
синонимы сущ.
группировка сущностей
редактирование списка
именованные сущности
коллекция размеченных текстов
коллекция
с размеченными отношениями
коллекция синонимов
Рис. 1.
Диаграмма рабочего процесса извлечения оценочных отношений из новостных текстов; прямоугольники – предзаданные (желтые) и порождаемые (зеленые) источники информации; кружки – обработчики данных; пунктирные стрелки – интерфейс пользователя
2. Для всех фреймов, входящих между и , определена поляр ность A0→A1 ∈ {pos, neg}; полярность фрейма инвертируется, если перед ним присутствует частица «не» (наиболее частый случай)
3. Отсутствуют предлоги «в» и «на» перед и (такие предлоги в большинстве случаев выражают отношение нахождения где-то; такие отношения не являются оценочными).
Класс тональности l ∈ {pos,neg} пары назначается следующим образом: pos (все фреймы внутри пары имеют pos оценку для A0→A1); neg (иначе). [Kuznetsova и др., Testing rules for a sentiment analysis system, 2013]. Таким образом, для некоторой пары = ⟨ , ⟩, имеем набор связанных отношений = { 1, 2, . . . | |}. Условная вероят ность принадлежности к классу вычисляется по формуле: ( | ) = |{⟨ , , ,l⟩|l = }|/| |. Имея список пар с условной вероятностью оце нок отношения и соответствующей частоты по каждой паре, в модуле «фильтр пар» (Рис. 1) выбираются доверенные пары ( на основе предза данных нижних пороговых значений для: (1) абсолютной разницы |∆ | = | ( |pos) – ( |neg)|; (2) общего числа пар | |. Оценка доверенной пары определяется знаком ∆ , т.е. pos (∆ > 0), либо neg (∆ < 0). Каждая па ра ( ) в множестве доверенных пар ′ представляется в формате триплета: ⟨ , ,∆ ⟩. Параметры | | и |∆ |, а также возможность редактирования коллекции синонимов являются частью человеко-машинного интерфейса (пунктирные стрелки Рис. 1). Человек-оператор также может вручную отобрать доверенные пары, и таким образом управлять процессом авто матической разметки коллекции с этапа «извлечения отношений».
Модуль «фильтр отношений» (Рис. 1) завершает процесс обработ ки, выполняя отбор оценочных отношений среди множества достоверных
пар. Пара ⟨ , ⟩ считается оценочным отношением, если соответствую щая пара индексов синонимичных групп ⟨ , ⟩ содержится в множестве доверенных пар ′ и оценка ⟨ , ⟩ совпадает с оценочной ориентацией до веренной пары. Дополнительно производится фильтрация предложений, которые содержат хотя бы одну оценочную пару сущностей из заголовка.
Разметка нейтральных отношений (опционально) в заголовке и предложениях новости. Пара ⟨ 1, 2⟩ считается нейтральной, если:
– сущность 1 упомянута раньше 2 и имеет тип из множества ; – сущность 2 имеет тип LOC и не находится в списке стран/столиц; – участники 1 и 2 не принадлежат одной синонимичной группе, а
также отношения ⟨ 1, 2⟩ и ⟨ 2, 1⟩ не являются оценочными. Результатом выполнения модуля фильтрации отношений является «коллекция размеченных отношений» (Рис. 1). Коллекция RuAttitudes-2.0 версии «2017-Large» [1] – результат применения такого рабочего процесса (версии 2.0) к корпусу NEWSLarge с дополнительной разметкой нейтраль
ных отношений.
Корпуса. Оценка производится при обучении на корпусах RuSentRel
и RuAttitudes-2.0 с размеченными нейтральными отношениями. Набор ис пользуемых корпусов зависит от режима обучения модели.
Формат проведения опосредованного обучения. Опосредован ное обучение выполняется в следующих форматах: (1) предварительное обучение с последующим дообучением (сверточные и рекуррентные ней ронные сети, BERT), и (2) совместное обучение (сверточные и рекуррент ные нейронные сети).
Оценка и анализ результатов. Оценка моделей проводится в рам ках корпуса RuSentRel для экспериментов: (1) two-scale – необходимо определить оценки заведомо известных пар (классы: pos, neg); (2) three scale – необходимо извлечь оценочные отношения из документа (классы: pos, neg, neu).
Результат по метрике фиксируется в следующих форма 1−
тах: (1) 1 – усредненный показатель в рамках 3-кратной 1−
кросс-валидационной проверки (Разбиения проведены с точки зрения со хранения одинакового числа предложений в каждом из них.); (2) 1 – показатель 1− на test множестве. Прирост качества при использо вании опосредованного обучения – отношение результатов, полученных при опосредованном обучении ( 1 ) к результатам моделей, для кото рых применялось обучение с учителем ( 1 ) вычисляется по формуле: ∆( 1) = ( 1 / 1 − 1) · 100. В таблице 4 приводятся результаты по мо делям: (1) сверточных и рекуррентных нейронных сетей, (2) языковых моделей BERT; также приводится статистика прироста качества (∆( 1)) при использовании опосредованного обучения.
Сверточные и рекуррентные нейронные сети. В зависимости от фор матов применения коллекции RuAttitudes в обучении, при дообучении
Таблица 4. Результаты применения опосредованного обучения для: (1) моделей с
кодировщиками на основе сверточных и рекуррентных нейронных сетей, моделей с механизмом внимания (объединенное обучение) (2) моделей BERT (« » – формат TextB предобучения) с дообучением; наилучший
Модель
CNN CNN PCNN PCNN LSTM LSTM BiLSTM BiLSTM
AttCNN AttCNN AttPCNN AttPCNN IAN
RuAttitudes-2.0 2017-Large
—
2017-Large
— 2017-Large — 2017-Large —
2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large —
2017-Large — 2017-Large — 2017-Large —
2017-Large — 2017-Large — 2017-Large — 2017-Large —
1 1 1 1 70.0 74.3 32.8 39.6 63.6 65.9 28.7 31.4 69.5 70.5 31.6 39.7 64.4 63.3 29.6 32.5 68.0 75.4 31.6 39.5 61.9 65.3 27.9 31.6 71.2 68.4 32.0 38.8 62.3 71.2 28.6 32.4
66.8 72.7 30.9 39.9 65.0 66.2 27.6 29.7 70.2 67.8 32.2 39.9 64.3 63.3 29.9 32.6 69.1 72.6 30.7 36.7 60.8 63.5 30.8 32.2 66.2 71.2 31.0 37.3 65.7 68.2 27.5 32.3
результат по каждой модели выделен жирным шрифтом
Тип коллекции two-scale three-scale
IAN
Att-BLSTM Att-BLSTM Среднее-Δ( 1) (прирост) Среднее
mBERT
mBERT
mBERT
mBERT
mBERT
mBERT
8.7% 8.9%
63.5 65.9 68.9 67.7 67.0 68.9 69.6 65.2 66.5 65.4 69.4 68.2 67.8 58.4
70.0 69.8 67.8 66.2 69.6 68.2 69.5 66.2 71.0 68.6 68.9 66.4
10.6% 23.4%
28.8 31.8 30.5 31.1 26.9 30.0 30.1 35.5 28.6 33.8 33.6 36.0 29.2 37.0
35.6 35.4 36.8 37.6 34.8 37.0 32.0 35.3 36.8 39.9 29.4 39.6
(NLI + «без TextB »)
(«без
(NLI + TextBQA ) (TextBQA )
(NLI + TextBNLI ) (TextBNLI )
TextB »)
RuBERT (NLI + «без TextB») RuBERT («без TextB») RuBERT (NLI + TextBQA ) RuBERT (TextBQA)
RuBERT (NLI + TextBNLI ) RuBERT (TextBNLI)
SentRuBERT (NLI + «без TextB») SentRuBERT («без TextB») SentRuBERT (NLI + TextBQA ) SentRuBERT (TextBQA) SentRuBERT (NLI + TextBNLI ) SentRuBERT (TextBNLI) Среднее-Δ( 1) (прирост)
Среднее
37.9 39.8 34.0 35.2 38.4 41.9 34.3 38.9 39.0 38.0 33.4 32.7
70.0 69.8
69.3 65.5
69.6 64.2
70.2 67.1
70.2 67.7
69.8 67.6
1.8% 3.7%
68.5 65.7 31.6 35.6
13.5% 10%
моделей прирост качества варьируется в диапазоне 3-4% и 1.5-3% для two scale и three-scale экспериментов соответственно. При совместном обу чении, показатели прироста увеличиваются в 2 раза (two-scale, прирост 7%) и в 3 и более раза (three-scale, прирост 11% при кросс-валидаци онном разбиении и 23% при фиксированном). Языковые модели. Влияние опосредованного обучения оказывает прирост в 2-5% в (two-scale), 9-13% (three-scale). Преимущество в использовании русскоязычно-ориентиро ванных моделей перед mBERT наблюдается в three-scale эксперименте. Так, при использовании RuBERT прирост качества составил от 10% по
1 и 6-9% по метрике 1 . Применение SentRuBERT улучшает пока затели RuBERT на 6% в опосредованном обучении. SentRuBERT по качеству разметки приближается к нейронным сетям при объединенном формате обучения, задавая при этом более высокие результаты в рам ках кросс-валидационного тестирования (35.6-39.0), что говорит о более стабильном результате нежели при использовании сверточных и рекур рентных нейронных сетей.
Анализ влияния опосредованного обучения. Источником кон текстов являются данные множества test (контексты, наибольшее расстоя ние в термах между участниками которых не превышает значения 10 [7; 8]). Для каждого контекста анализ проводится по вхождениям фреймов (frames), вхождениям оценочного лексикона RuSentiLex (sentiment).
Для моделей сверточных и рекуррентных нейронных сетей. Анали зируется разница между оценочными и нейтральными отношениями на основе плотности распределения веса группы ( ) для: нейтральных ( n, отмеченные neu) и оценочных ( s, отмеченные pos либо neg) контекстов. Под весом группы термов входного контекста понимается сумма весов термов контекста, принадлежащих . Для определения разницы между s и n применяется статистика на основе теста Колмогорова-Смирнова. Наи большую разницу по всем группам демонстрирует модель Att-BLSTM [8].
Для языковых моделей в анализе участвуют: mBERT, SentRuBERT, и SentRuBERT-NLI (дообученная версия SentRuBERT с применением опосредованного обучения на основе коллекции RuAttitudes-2.0). Среди входных контекстов множества test рассматриваются только такие, ко торые были извлечены дообученной моделью SentRuBERT-NLI . В работе [1] приводится оценка усредненных значений весов внимания по входным контекстам для токенов (п. 3,4 – только контексты, содержащие термы соответствующих групп): (1) класса [CLS], границ последователь ностей [SEP], (2) участников отношений (E /E ), (3) групп frames и внимание к ним от прочих токенов контекста; (4) группы sentiment и внимание к ним от прочих токенов контекста. По результатам следует отметить высокие показатели внимания к токену класса [CLS] на ранних слоях до 31% (mBERT) и выше в случае остальных моделей. При пе реходе от mBERT к SentRuBERT и SentRuBERT-NLI наблюдается увеличение внимания к [SEP] до 29% (слои с 6 по 10), E /E до 12%. Внимание по отношению к термам групп frames и sentiment остальных токенов, в среднем составляет 4-5% и увеличивается на слоях 11-12 до 7-10%; последний показатель вдвое превышает аналогичные показатели модели mBERT.
В четвертой главе приводится описание архитектуры программно го комплекса AREkit для извлечения оценочных отношений из документов, а также временная оценка обучения моделей, созданных на основе такого комплекса.
Разработанный программный комплекс AREkit (https://github.com/ nicolay-r/AREkit/tree/0.20.5-rc) предоставляет возможности: (1) подготов ки и обработки текстовой информации (выделение контекстов с парами упомянутых именованных сущностей) (2) проведения экспериментов с мо делями машинного обучения в задаче извлечения оценочных отношений между парой упомянутых в тексте сущностей. Программный комплекс со стоит из: (1) набора инструментов для работы с отношениями документа (ядро), (2) модуля запуска экспериментов на основе моделей, (3) модуля реализации моделей на основе библиотеки Tensorflow.
Оценка производительности проводилась на сервере с двумя процес сорами Intel Xeon CPU E5-2670 v2 2.50Ггц, 80 Гб ОЗУ (DDR-3), двумя видеоускорителями Nvidia GeForce GTX 1080 Ti. Обучение моделей вы полнялось под ОС Ubuntu 18.0.4 в контейнерах Docker версии 19.03.5. Среди нейронных сетей наилучшие показатели скорости обучения де монстрируют модели с кодировщиком на основе сверточных нейронных сетей. Добавление механизма внимания на основе перцептрона (AttCNN , AttPCNN ) увеличивает время обучения примерно в 10 раз относительно PCNN. Время обучения рекуррентных нейронных сетей увеличивается в 2 раза (LSTM), и в 3-4 раза (BiLSTM) при сравнении с PCNN. Добав ление механизма самовнимания (Att-BLSTM) практически не сказалось на времени обучения модели BiLSTM, что обусловлено вычислительно более простой архитектурой механизма внимания среди прочих [1]. Для языковых моделей во всех форматах обучения на адаптацию русскоязыч ных моделей требуется меньше эпох при одинаковых настройках обучения. Так, замена mBERT на RuBERT или SentRuBERT сокращает время обучения в 3.5 раза [1].
Автоматический анализ тональности, т.е. поиск отношений (позитивных
или негативных) некоторых лиц относительно содержания текста или каких
то его аспектов, является одним из наиболее востребованных приложений
автоматической обработки текстов за последние годы. Значимость такой за
дачи во многом связана с возникновением и развитием социальных сетей,
рекомендационных онлайн сервисов, содержащих огромное количество мнений
пользователей по различным вопросам.
Подходы по извлечению тональности из текста зависят от типа анализи
руемого текста. Наиболее часто методы автоматического анализа тональности
изучаются на основе отзывов пользователей по отношению к товарам и сер
висам. Подобного рода тексты в основном посвящены обсуждению одной
сущности (фильма, книги, ресторана), а мнение передается одним челове
ком – автором отзыва [1—4]. Другим популярным жанром текстов для анализа
тональности являются короткие сообщения в социальных сетях, в частности
сети Twitter [5—7]. Тексты таких сообщений могут требовать очень точного
анализа, но передаваемое мнение также чаще всего относится к одному источ
нику и высказываются по отношению к одной сущности ввиду ограниченной
длины текста сообщения.
Одним из самых сложных жанров документов для анализа тональности
являются новостные и аналитические статьи, в которых обсуждается ситуация
в некоторой области, например, в политике или экономике [8]. В тексте таких
статей мнения передаются различными субъектами, включая отношение одного
или нескольких авторов, а также мнение цитируемых источников. Такие тексты
могут также описывать тональность отношений упомянутых сущностей (напри
мер, государств или политиков) между собой. При этом тональность отношений
между сущностями может не соответствовать тональности отношения к этим
сущностям автора текста.
Например, в контексте «США обвиняет Россию и Китай в игре с де
номинацией валют» автор высказывает мнение, в котором можно выделить
страны-сущности, среди которых «США» проявляет негативное отношение
«России» и «Китаю», в то время как две последние сущности нейтральны по от
ношению друг к другу в рамках рассматриваемого контекста. При этом мнение
автора явным образом не выражено.
Кроме того, новостные и аналитические тексты обычно содержат боль
шое количество именованных сущностей, и лишь небольшое число среди них
является субъектом либо объектом тональности.
Таким образом, правильная идентификация тональности отношений меж
ду сущностями, упоминаемыми в тексте, имеет существенное значение для
анализа тональности текстов. Кроме того, извлечение оценочных отношений
представляет собой отдельную ценность для различных аналитических иссле
дований.
Актуальность темы. Анализ тональности является одной из наиболее
востребованных задач в автоматической обработке текстов, которая состоит
в определении отношения (позитивного или негативного) некоторого лица от
носительно содержания текста или каких-то его аспектов. На практике анализ
тональности подразделяется на множество различных подзадач, таких как опре
деление общей тональности текста или предложения, тональность автора по
отношению к упомянутым сущностям и другие.
Одной из мало исследованных подзадач анализа тональности является
извлечение тональности отношений между сущностями, упомянутыми в тексте
(оценочные отношения). В новостных и аналитических текстах тональность оце
ночных отношений сложным образом коррелирует с другими тональностями,
например, с тональностью отношения автора текста к обсуждаемой тематике.
Таким образом, извлечение оценочных отношений является как подвидом за
дачи анализа тональности, так и задачи извлечения отношений. Актуальными
на настоящий момент методами в решении таких задач являются модели на
основе различных методов машинного обучения, включая классические мето
ды машинного обучения, нейронные сети сверточного и рекуррентного типов, а
также нейронные сети с вниманием, в том числе языковые модели типа BERT.
Основными ограничениями в организации процесса обучения таких методов яв
ляются: общий недостаток разметки и сложность ее ручного выполнения для
составления обучающего корпуса.
Среди отечественных и зарубежных ученых, занимающихся исследовани
ем задачи анализа тональности и применением методов машинного обучения в
такой области, наиболее известными являются: Е. Котельников, О. Кольцова,
P. Turney, D. Zeng, Y. Choi, J. Devlin и др.
Актуальность исследования заключается в том, что на настоящий момент
нет универсальных методик автоматической разметки оценочных отношений,
которые бы позволили увеличить объем обучающих данных. Предложенный
подход по автоматической разметке данных и проведения опосредованного
обучения (от англ. Distant Supervision) на их основе, позволяет повысить эф
фективность моделей нейронных сетей.
Объектом исследования являются комбинированные подходы, включаю
щие базу знаний и нейросетевую модель для извлечения оценочных отношений
из текстов.
Предметом исследования является структура и состав базы знаний для
анализа тональности текстов на русском языке.
Целью диссертационного исследования является разработка методов из
влечения оценочных отношений между именованными сущностями из текстов
средств массовой информации с использованием русскоязычной базы знаний.
Для достижения поставленной цели были решены следующие задачи:
1. Разработать базу знаний для описания структуры тональностей слов
предикатов;
2. Реализовать методы машинного обучения для извлечения оценочных
отношений между именованными сущностями из текстов новостных и
аналитических статей;
3. Реализовать модель и методы порождения автоматически размеченных
оценочных отношений на основе лексико-семантических ресурсов;
4. Реализовать методы извлечения оценочных отношений на основе под
хода опосредованного обучения (от англ. Distant Supervision) и ком
бинированной обучающей выборки, включающей как ручную, так и
автоматическую разметку;
5. Создать программные средства для обработки новостных и аналити
ческих текстов, которые на основе текста статьи порождают список
оценочных отношений между упомянутыми именованными сущностя
ми.
Научная новизна
– Предложена структура фреймовой базы знаний RuSentiFrames для
описания тональностей, ассоциирующихся со словами и выражениями
русского языка, включая тональность отношений между участниками
ситуации, отношение автора к участникам ситуации, позитивные и нега
тивные эффекты, связанные с ситуацией. Такая база знаний описывает
значительно более сложную структуру тональностей, ассоциированных
с словом, в отличие от обычных списков оценочных слов с оценками
тональностей;
– Впервые для русского языка поставлена задача и выполнено исследова
ние методов извлечения тональности отношений между именованными
сущностями, упомянутыми в текстах СМИ;
– Для обучения моделей извлечения оценочных отношений предложен
новый метод автоматического порождения обучающей коллекции на
основе оценочных фреймов нового лексикона RuSentiFrames и исполь
зования структуры новостных текстов. Применение опосредованного
обучения с использованием RuAttitudes-2.0 повысило качество языко
вых моделей BERT на 10-13% по метрике F1, и на 25% при сравнении
с наилучшими результатами остальных моделей на основе оценочных
фреймов нового лексикона RuSentiFrames и структуры новостных тек
стов;
Первая глава посвящена обзору различных задач и методов анализа то
нальности текстов. Рассматриваются методы глубокого обучения в смежных
задачах.
Во второй главе приводится постановка задачи извлечения оценочных
отношений между упомянутыми именованными сущностями на уровне докумен
та. В экспериментах, извлечение оценочных отношений рассматривается как
задача машинного обучения. Используется корпус русскоязычных аналитиче
ских статей RuSentRel с ручной разметкой оценочных отношений на уровне
документов. В качестве базовых подходов, приводятся эксперименты с класси
ческими методами машинного обучения (Naı̈ve Bayes, SVM, Random Forest).
Для сравнения приведены и реализованы архитектуры: (1) сверточных нейрон
ных сетей, адаптированные под извлечение оценочных отношений, (2) вариации
таких архитектур с модулем механизма внимания, и (3) языковые модели се
мейства BERT.
В третьей главе представлены подходы к применению опосредованного
обучения (англ. Distant Supervision) для извлечения оценочных отношений меж
ду именованными сущностями в тексте. Ставится задача разработки алгоритма
автоматической аннотации коллекции новостных документов с целью увеличе
ния обучающей выборки моделей машинного обучения. Основой проведения
оценки в алгоритме стал двухэтапный анализ заголовков на основе коллекции
фреймов RuSentiFrames: (1) для составления списка пар; (2) для извлечения
оценочных отношений с помощью созданного списка и выделенного в нем оце
ночно-достоверных пар. Результаты проведенных экспериментов показывают,
что модели обученные с использованием построенной коллекции превосходят
по качеству модели, для которых применялось только обучение с учителем
(англ. Supervised Learning).
Четвертая глава посвящена архитектурным особенностям программной
реализации базовых инструментов, используемых в задаче извлечения оценоч
ных отношений. Приводятся инструкции по добавлению внешних коллекций и
источников информации, моделей нейронных сетей с реализацией на основе биб
лиотеки Tensorflow. С точки зрения оценки производительности программных
реализаций моделей машинного обучения, проводится сравнительный анализ
скорости обучения нейронных сетей и языковых моделей как в случае обуче
ния с учителем, так и при использовани иопосредованного обучения.
В заключении перечислены основные результаты проделанной работы.
Практическая значимость. Разработаны и исследованы модели из
влечения оценочных отношений, а также методы автоматической обработки
внешних новостных источников информации. Впервые создана и опубликована
большая база контекстов RuAttitudes-2.0 (252 тыс. примеров) с автоматической
разметкой оценочных отношений, что может быть полезным для задач таргети
рованного анализа тональности текстов СМИ. Создан программный комплекс
AREkit для выполнения автоматической разметки коллекции новостей, а также
обучения моделей на основе нейросетевых механизмов для извлечения отно
шений между сущностями в текстах СМИ с возможностью интерактивного
человека-машинного управления.
Методология и методы исследования. В работе применяются методы
обработки и анализа текстовой информации, методы классификации размечен
ной информации, методы объектно-ориентированного программирования для
построения инструмента и проведения работы над поставленной задачей.
Основные положения, выносимые на защиту:
1. Предложена структура фреймовой базы знаний RuSentiFrames для
описания тональностей, ассоциирующихся со словами и выражениями
русского языка, включая тональность отношений между участниками
ситуации, отношение автора к участникам ситуации, позитивные и нега
тивные эффекты, связанные с ситуацией;
2. Предложен и реализован новый метод автоматического порождения
обучающей коллекции для классификации оценочных отношений
по двум и трем классам на основе словаря оценочных фреймов
RuSentiFrames;
3. Программный комплекс AREkit для создания автоматически разме
ченной обучающей коллекции для извлечения оценочных отношений,
с программным интерфейсом для задания настроек пользователем, а
также обучения методов на основе нейронных сетей;
Соответствие научной специальности. Содержание работы соответ
ствует паспорту научной специальности 05.13.11 «Математическое и программ
ное обеспечение вычислительных машин, комплексов и компьютерных сетей»
(технические науки): п.4 «Системы управления базами данных и знаний», п.7
«Человеко-машинные интерфейсы; модели, методы, алгоритмы и программные
средства машинной графики, визуализации, обработки изображений, систем
виртуальной реальности, мультимедийного общения». Сопоставление приведе
но в Таблице 1.
Апробация работы. Основные результаты работы докладывались на:
Международная Конференция «Диалог» (Россия, Москва, РГГУ, 2018) [9];
20-ая Международная Конференция Data Analytics and Management in Data
Intensive Domains (Россия, Москва, МГУ, 2018) [10]; 21-ая Международная Кон
ференция Text-Speech-Dialog (Чехия, Брно, 2020) [11]; 12-ая Международная
Конференция Recent Advances in Natural Language Processing (Болгария, Варна,
2020) [12]; 25-ая Международная Конференция Natural Language & Information
Systems (Германия, Саарбрюккен, 2020) [13]; 10-ая Международная Конферен
ция Web Intelligence, Mining and Semantics (Франция, Биаритц, 2020) [14].
Личный вклад. Автором проведено исследование задачи извлечения
оценочных отношений с выполнением основного объема теоретических и экс
периментальных исследований, изложенных в тексте диссертационной работы.
Разработана программная платформа для исследования и проведения экспе
риментов в предметной области на основе созданных методов. Исследование
задачи извлечения оценочных отношений с применением разработанных мето
дов рассмотрено в работах [10—18]. Лукашевич Н.В. принадлежит постановка
задачи, а также практические рекомендации по исследованию предметной об
Таблица 1.
Сопоставление направлению и результаты исследований, предусмотренных
специальностью 05.13.11
Направление Результат работы
4. Системы управления база Впервые для русского языка поставлена
ми данных и знаний задача и выполнено исследование методов
извлечения тональности отношений между
именованными сущностями, упомянутыми в
текстах СМИ
7. Человеко-машинные ин Предложен и реализован новый метод автома
терфейсы; модели, методы, тического порождения обучающей коллекции
алгоритмы и программные для классификации оценочных отношений по
средства машинной графики, двум и трем классам на основе словаря оценоч
визуализации, обработ ных фреймов RuSentiFrames; человек-опера
ки изображений, систем тор может вручную управлять параметрами
виртуальной реальности, отбора оценочных отношений, и таким об
мультимедийного общения разом управлять процессом автоматической
разметки
Помогаем с подготовкой сопроводительных документов
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!