Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Глава 1. Методы машинного обучения в задачах анализа
тональности . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1 Применение машинного обучения в задачах анализа
тональности текстов . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.1 Признаки в задачах анализа тональности . . . . . . . . . . 16
1.2 Модели векторного представления документов . . . . . . . . . . . 16
1.3 Классификаторы на основе векторных представлений документов 17
1.4 Методы глубокого обучения в задачах анализа тональности . . . 19
1.4.1 Векторные представления токенов документа и признаков 22
1.4.2 Сверточные нейронные сети . . . . . . . . . . . . . . . . . 24
1.4.3 Рекуррентные нейронные сети . . . . . . . . . . . . . . . . 26
1.4.4 Модуль с механизмом внимания для моделей на основе
нейронных сетей . . . . . . . . . . . . . . . . . . . . . . . . 29
1.4.5 Языковые модели для извлечения отношений . . . . . . . 31
1.5 Методы автоматической разметки данных для увеличения
объема обучающих коллекций . . . . . . . . . . . . . . . . . . . . 34
1.6 Подходы к извлечению оценочных отношений . . . . . . . . . . . 34
1.7 Методы оценки моделей анализа тональности . . . . . . . . . . . 38
1.7.1 Полнота, точность, 1-мера . . . . . . . . . . . . . . . . . 38
1.7.2 Усреднения результатов . . . . . . . . . . . . . . . . . . . . 39
Выводы по главе 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Глава 2. Извлечение оценочных отношений . . . . . . . . . . . . . . 42
2.1 Формальная постановка задачи . . . . . . . . . . . . . . . . . . . . 42
2.2 Контекстное представление отношений . . . . . . . . . . . . . . . 44
2.3 Классификаторы на основе ручных признаков обработки
естественного языка . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.4 Классификатор на основе нейронных сетей . . . . . . . . . . . . . 46
2.4.1 Векторное представление контекстов отношений . . . . . . 46
2.4.2 Архитектура модели сверточной нейронной сети PCNN . 46
Стр.

2.4.3 Архитектура модели AttCNN с механизмом внимания
на основе многослойного перцептрона . . . . . . . . . . . . 49
2.4.4 Архитектура модели IAN с механизмом кросс-внимания . 51
2.4.5 Архитектура модели Att-BLSTM с механизмом
внимания Self-Attention . . . . . . . . . . . . . . . . . 52
2.5 Работа с моделями на основе контекстного представления
отношений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.5.1 Предсказание класса тональности . . . . . . . . . . . . . . 53
2.5.2 Обучение нейронной сети . . . . . . . . . . . . . . . . . . . 54
2.5.3 Вычисление оценки отношения на уровне документа . . . 55
2.6 Эксперименты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.6.1 Описание корпуса с размеченными оценочными
отношениями в русскоязычных аналитических статьях
RuSentRel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.6.2 Разметка контекста . . . . . . . . . . . . . . . . . . . . . . 58
2.6.3 Составление векторов для термов контекста нейронных
сетей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.6.4 Оценка качества моделей . . . . . . . . . . . . . . . . . . . 61
2.6.5 Результаты . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Выводы по главе 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Глава 3. Методы опосредованного обучения в задаче
извлечения оценочных отношений . . . . . . . . . . . . . . 67
3.1 Формальная постановка задачи . . . . . . . . . . . . . . . . . . . . 67
3.2 Используемые ресурсы . . . . . . . . . . . . . . . . . . . . . . . . 68
3.2.1 Фреймовая база знаний RuSentiFrames . . . . . . . . . . . 68
3.2.2 Новостные коллекции . . . . . . . . . . . . . . . . . . . . . 70
3.3 Подход автоматической разметки оценочных отношений в
новостных документах с использованием лексикона RuSentiFrames 71
3.3.1 Обработка текста и распознавание именованных сущностей 72
3.3.2 Разметка на основе предварительно заданного списка
оценочных отношений . . . . . . . . . . . . . . . . . . . . . 72
3.3.3 Разметка с использованием коллекции фреймов . . . . . . 73
3.3.4 Фильтрация размеченных отношений . . . . . . . . . . . . 74
Стр.

3.4 Улучшение подхода автоматизации в извлечении оценочных
отношений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.4.1 Автоматическое построение вспомогательных ресурсов . . 78
3.4.2 Автоматическая разметка отношений и анализ результатов 82
3.5 Эксперименты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.5.1 Оценка качества и настройки обучения моделей . . . . . . 85
3.5.2 Подготовка данных . . . . . . . . . . . . . . . . . . . . . . 87
3.5.3 Результаты . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.5.4 Разбор контекста . . . . . . . . . . . . . . . . . . . . . . . . 94
3.5.5 Анализ оценочных фреймов и слов по частям речи в
результатах моделей . . . . . . . . . . . . . . . . . . . . . . 94
3.5.6 Анализ влияния обучения на распределения весов
механизма внимания в моделях нейронных сетей . . . . . 97
3.5.7 Анализ влияния предварительного обучения на
распределение весов механизма внимания в языковых
моделях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Выводы по главе 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

Глава 4. Архитектура программного комплекса для
организации экспериментов с извлечением оценочных
отношений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.1 Возможности разработанного набора инструментов AREkit . . . . 112
4.2 Обработка и представления новостей . . . . . . . . . . . . . . . . 112
4.2.1 Архитектура представления документа . . . . . . . . . . . 112
4.2.2 Архитектура отношений между упоминаемыми
сущностями в рамках документа и контекстов . . . . . . . 115
4.2.3 Оценка качества разметки . . . . . . . . . . . . . . . . . . 117
4.3 Организация эксперимента фреймворка AREkit . . . . . . . . . . 119
4.3.1 Разметка документов нейтральными отношениями . . . . 122
4.3.2 Сериализация данных . . . . . . . . . . . . . . . . . . . . . 122
4.4 Модуль нейронных сетей для извлечения оценочных отношений . 126
4.5 Эксперименты и оценка производительности . . . . . . . . . . . . 128
4.5.1 Обучение сверточных и рекуррентных нейронных сетей . 128
4.5.2 Обучение языковых моделей сторонними библиотеками . . 130
Стр.

4.6 Возможности модуля автоматической разметки оценочных
отношений в новостных документах . . . . . . . . . . . . . . . . . 132
4.6.1Обработка новостных документов . . . . . . . . . . . . . . 133
4.6.2Автоматическая обработка и разметка отношений в
новостных текстах . . . . . . . . . . . . . . . . . . . . . . . 135
Выводы по главе 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

Общие выводы и заключение . . . . . . . . . . . . . . . . . . . . . . . 141

Список сокращений и условных обозначений . . . . . . . . . . . . . 142

Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

Приложения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

Во введении обосновывается актуальность диссертационной работы, сформулированы цель и задачи представляемой работы, сформулирована научная новизна исследований, показана практическая значимость рабо­ ты.
Первая глава посвящена обзору различных задач и методов ана­ лиза тональности текстов. Рассматриваются методы глубокого обучения в смежных задачах. В исследованиях задача анализа тональности может ста­ виться как задача классификации, в качестве выходных данных которой предполагается набор классов тональности. При этом задача извлечения оценочных отношений исследовалась недостаточно: есть только небольшое число работ для английского языка, для русского языка исследований не было. Поэтому важным является исследование методов автоматического сбора обучающей коллекции. Таким образом подтверждается актуальность разработки методов и проведение исследований для русского языка.
Вторая глава посвящена исследованию методов машинного обуче­ ния для извлечения оценочных отношений из аналитических текстов.
Формальная постановка задачи. Источником анализа являет­ ся текстовая коллекция, состоящая из документов { } =1, где – грамматически организованная последовательность слов с передачей
мнения автора по отношению ко множеству упомянутых именованных сущ­
ностей. Каждый документ представлен последовательностью символов:
= { 1, 2,…, | |}. Для каждого документа коллекции предостав­
ляется список упомянутых именованных сущностей = [ 1 , . . . , | | ].
Именованная сущность ( ) – слово или словосочетание, указывающие
на объект реальности; представлена кортежем ⟨ , ⟩, где = [ , . . . , ]
– слово/словосочетание; – категория: личности (PER), организации
(ORG), места (LOC); геополитические места (GEO). Сущность может
иметь множество вариантов наименований (например: Россия – РФ ),
поэтому дополнительно вводится список синонимов , состоящий из
групп [ 1, . . . , | |], где произвольная группа представлена значения­
ми сущностей: { 1,…, | |}. Каждое из значений групп списка является
уникальным в рамках всего списка ; пересечение любых двух различ­
ных групп является пустым множеством. Под извлечением оценочных
отношений из подразумевается составление списка кортежей a =
{⟨ 1, , 2, , ⟩}|a| , где 1, – субъект, 2, – объект, – оценка, позитивная =1
(pos) либо негативная (neg). Например, в следующем тексте (именованные сущности подчеркнуты): «При этом Москва неоднократно подчеркивала, что ее активность на Балтике является ответом именно на действия НАТО и эскалацию враждебного подхода к России вблизи ее восточ­ ных границ . . .» результатом является список отношений: [(НАТО, Россия, neg), (Россия, НАТО, neg)].
Контексты с отношениями. Основное предположение наличия оценочного отношения между парой сущностей ⟨ 1, 2⟩ – относительно ко­ роткое расстояние между этими сущностями в тексте. Под контекстом понимается текстовый фрагмент, включающий две и более именованных сущностей. Контекст соответствует отношению, когда 1 и 2 (их синонимы в том числе) присутствуют в контексте. Таким образом, для каждого отношения можно выделить множество соответствующих контек­ стов. Под размеченным контекстом понимается контекст с выделенной парой «субъект-объект». Размеченный контекст рассматривается как оце­ ночный, если соответствующая пара присутствует в разметке коллекции. В противном случае размеченный контекст рассматривается как нейтраль­ ный (принадлежит дополнительному классу neu). Таким образом, процесс извлечения оценочных отношений на уровне контекстов может быть сведен к классификационной задаче. Такой процесс подразумевает отбор таких контекстов, которые не являются нейтральными.
Классические методы. Классификация контекстов может быть выполнена классическими методами машинного обучения: KNN, SVM, Na ̈ıve Bayes, Random Forest, Gradient Boosting. Признаки, используемые для классификации разделены на группы [5], характеризующие: (1) име­ нованные сущности; (2) контекст с отношением.
5

Модель извлечения оценочных отношений. Для решения за­ дачи разработана модель, состоящая из классификатора размеченных контекстов с блоком агрегации результатов нескольких контекстов в еди­ ную оценку. В качестве классификаторов рассматривается и исследуется применение сверточных и рекуррентных нейронных сетей, языковых мо­ делей семейства BERT. Общая архитектура классификатора включает: (1) кодировщик размеченного контекста, (2) классификационный слой.
Входной информацией для кодировщика на основе языковых моделей являются размеченные контексты. В случае нейронных сетей, размечен­ ные контексты предварительно конвертируются в вектора признаков для термов (атомарные элементы, выделенные из размеченного контекста, сле­ дующих типов: entities (вхождения именованных сущностей), tokens (знаки препинания, URL-ссылки, числа), frames (вхождения в сторонний лексикон), words (прочие подпоследовательности контекста, разделенные пробелами)) кон­ текста. Признаки термов контекста: (1) вектор основного представления терма из модели news2015 (размер: 1000); (2) вектор расстояния [Zeng и др., Distant supervision for relation extraction via piecewise convolutional neural networks, 2015] – расстояние в термах от рассматриваемого терма до участников отношения ⟨ 1 , 2 ⟩ (размер: 5 · 2 = 10); (3) вектор частей речи терма (размер: 5) (вычисляется для соответствующего слова токена, с помощью пакета Yandex Mystem; для токенов группы tokens вводится допол­ нительный тип UNKNOWN – значение части речи не определено). Общая длина вектора признаков ( ) равна 1015.
Кодировщик размеченного контекста выполняет преобразова­ ние входной последовательности (размеченного контекста) в векторное представление ∈ Rh длины h. В случае нейронных сетей исследуются кодировщики на основе следующих архитектур:
– Свёрточных типов [4] (CNN, PCNN [3]), в которых вектор (да­ лее ) представляет собой максимальную субдискретизацию (от англ. maxpooling) сверточных преобразований термов входной по­ следовательности;
– Рекуррентных типов [7] (LSTM, BiLSTM), где – последний эле­ мент выходной последовательности LSTM, и конкатенация пары последних векторов двух последовательностей в случае BiLSTM.
Также для таких архитектур исследуется внедрение механизма внимания. Механизм внимания представляет собой отдельную нейрон­ ную сеть, перед которой стоит задача определения значимости каждого элемента входной последовательности относительно каких-либо других элементов. Под взвешиванием элемента последовательности понимается составление его количественной оценки ∈ R. Преобразование ко­ личественной оценки в вероятностную ( ∈ [0,1]) осуществляется посредством операции softmax. Для входной последовательности векторов термов = { 1, . . . , } ( – размер контекста), сочетание механизма
внимания (a ∈ R ) с промежуточным результатом кодировщика (вход­ ные представления термов (CNN, PCNN), скрытые состояния термов (LSTM, BiLSTM)) контекста ′ ∈ R ×h можно представить в виде: = a · ′, где a = ′ ( ). Рассмотрим кодировщики контекстов с механизмами внимания относительно: (1) аспектов , где ⊂ , и (2) всего .
Механизм внимания на основе многослойного перцептрона [Huang и др., Attention-based convolutional neural network for semantic relation extraction, 2016]. Выберем произвольный аспект ∈ . Рассмотрим вектор­ ное представление -го терма (h ) как конкатенацию ∈ R с ∈ R , т.е. h = [ , ]. Количественная оценка релевантности ( ) для h вычисляется по формуле: = [tanh( ·h + )]+ , где ∈ Rh×2· и ∈ R1×h – матрицы весов и внимания модели соответственно; ∈ Rh, ∈ R – векторы смещения. Параметры ⟨ , , , ⟩ являются скрытыми состояниями механизма внимания a и изменяются в процессе обучения модели. Далее, оценка преобразуется в вероятностную с помощью операции softmax. Векторное представление контекста ˆ к некоторому ас­ пекту вычисляется по формуле: ˆ = ∑︀ =1 · . Таким образом, для каждого аспекта ∈ ( ∈ 1.. ) составим множество векторов { ˆ } =1. Результирующее векторное представление контекста есть конкатенация и =∑︀ =1 ˆ / .
Механизм внимания модели IAN [Ma Dehong и др., Interactive attention networks for aspect-level sentiment classification, 2017]. Вход коди­ ровщика представляет собой две раздельные последовательности и . Результатом применения модели LSTM к таким последовательностям яв­ ляются = [h 1,…,h ], = [h 1,…,h ], где h ,h ∈ Rh. Далее, для и вычисляются средние значения = ∑︀ =1 h / и = ∑︀ =1 h / . Количественная оценка последовательностей выполняется в направлени­ ях: (1) аспектов по отношению к контексту, и (2) контекста по отношению к аспектам. Вычисление весов производится по соответствующим форму­ лам (1) = tanh(h · · + ), и (2) = tanh(h · · + ) где , ∈ Rh×h и , ∈ R – скрытые состояния модели IAN. Далее, оцен­ ки и преобразуются в вероятностные и с помощью операции . Результирующий вектор контекста есть конкатенация векторов и , где = ∑︀ =1 ·h , = ∑︀ =1 ·h .
Самовнимание (Self-Attention). Используется кодировщик на основе двунаправленной LSTM. Результирующее контекстное представление та­ кого кодировщика ( = [h1 , . . . ,h ]) есть поэлементная конкатенация двух
последовательностей, в которой каждый -й элемент ( ∈ 1.. ) представ­ →− ←− →− ←−
лен как h = h ++h , где h и h элементы прямой и обратной LSTM последовательностей соответственно. Количественная оценка h ∈ Rh вы­ числяется по формуле [Peng Zhou и др., Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification, 2016]: = · ,
где = tanh(h ), ∈ Rh – вектор скрытых состояний механизма внима­ ния a, изменяемый в процессе обучения модели. Результирующий вектор представления контекста вычисляется по формуле: = h( · ).
Классификационный слой используется для преобразования ∈ Rh в вектор классов ∈ Rc, где c – число классов. Для выполнения такого преобразования используется полносвязный слой с параметрами ⟨ , ⟩ и функцией активации : = ( · + ), где ∈ Rc×h, ∈ Rc. В случае языковых моделей BERT, – усредненное значение выходных векторных представлений каждого токена.
Преобразование отношений на уровень документа. Для неко­ торой пары ⟨ 1, 2⟩ и соответствующего списка размеченных контекстов, результирующая оценка определяется как среднее значение среди меток контекста (усреднение методом голосования) [4].
Корпуса. Оценка моделей проводилась на русскоязычном корпусе аналитических текстов RuSentRel-1.0 [9]. Корпус предоставляет 73 боль­ ших аналитических текстов, размеченных с выделением порядка 2000 отношений среди них. Именованные сущности автоматически размечены методом CRF по классам [PER, ORG, LOC, GEO]. Из корпуса по каждой па­ ре сущностей были составлены множества контекстов. В 47-48% случаев отношения представлены одним контекстом.
Модели. Рассмотрено качество работы классических методов классификации: KNN, Na ̈ıve Bayes, Linear SVM, Random Forest и Gradient Boosting при использовании параметров по умолчанию и с пере­ бором таких параметров по предзаданной сетке [9]. Среди нейросетевых моделей исследовался следующий набор различных кодировщиков: CNN, PCNN; AttCNN , AttPCNN (модели с кодировщиками с механиз­ мом внимания «многослойный перцептрон»); LSTM, BiLSTM; IAN; Att-BLSTM (модель с механизмом внимания типа «Self-Attention»). Спи­ сок используемых языковых моделей включает вариации предобученных состояний модели BERT: mBERT [Devlin и др., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2019] (мульти­ языковая модель), RuBERT [Kuratov и др., Adaptation of deep bidirectional multilingual transformers for russian language, 2019] (дообученная вер­ сия mBERT на русскоязычных текстах энциклопедии «Википедия»), SentRuBERT (дообученная модель RuBERT посредством: (1) текстов корпуса SNLI [Bowman и др., A large annotated corpus for learning natural language inference, 2015] переведенных на русский язык, (2) русскоязычных текстов коллекции XNLI [Conneau и др., XNLI: Evaluating Cross-lingual Sentence Representations, 2018]). Модель BERT предполагает в качестве входной информации последовательность, опциально разделенную спе­ циальным символом [SEP] на две части: TextA и TextB. Варианты представления входной информации: (1) «без TextB»– последователь­ ность без разделения, (2) TextBQA – дополнение TextA вопросом в
TextB, (3) TextBNLI – дополнение TextA выводом отношения по кон­ тексту в TextB.
Оценка в рамках корпуса. Оценка качества моделей производи­ лась на основе метрик: (точность), (полнота), и -мера. Для оценки
моделей принимается показатель макро-усреднений над документами по оценочным классам: = 1 · ( + ) · 100. Оценка
1− 2 1− 1−
производится в рамках фиксированного тестового множества (да­
1−
лее test) коллекции RuSentRel – 1 [9].
Среди классических методов, SVM и Na ̈ıve Bayes достигли 0.16 по F-мере; наилучший результат получен с помощью классификатора Random Forest ( 1 = 27.0) и Gradient Boosting ( 1 = 28.0). Предлага­ емый подход на основе нейронной сети PCNN значительно превосходит подходы с ручными признаками [9]; наилучший результат при 1 = 32.6. Наилучший результат среди моделей с механизмами внимания показы­ вают AttPCNN ( 1 = 32.6), IAN ( 1 = 32.2), Att-BLSTM ( 1 = 32.3) Для языковых моделей, наилучший показатель демонстрирует мо­ дель RuBERT («без TextB»), для которой 1 = 36.8 [1]. Результат согласий в разметке экспертами также достаточно низкий 1 = 55.0, но в то же время значительно превышает качество разметки автоматически­ ми методами. Следует отметить, что в смежной задаче [Eunsol Choi и др., Document-level sentiment inference with social, faction, and discourse context, 2016] авторы работали с документами на английском языке гораздо мень­ шего объема и сообщают о F-мере 0.36.
Третья глава посвящена исследованию опосредованного обучения моделей в задаче извлечения оценочных отношений. Приводится структура фреймовой базы знаний RuSentiFrames-2.0 [10]. Разработан метод автома­ тического извлечения оценочных отношений из новостей с использованием коллекции базы знаний в анализе новостных заголовков.
Формальная постановка задачи. Пусть имеется коллекция разме­
ченных аналитических статей . Под размеченной аналитической статьей
понимается ⟨ , , a ⟩, где – текст аналитической статьи, – список
упомянутых именованных сущностей, a – список оценочных отношений.
Пусть имеется коллекция новостных документов = { ′ , . . . , ′ }, 1 | |
где | | ≫ | |. Под обучением модели машинного обучения понимается
итеративный процесс оптимизации параметров относительно эталонной
разметки {a }| | с целью минимизации непрерывной функции ошибки. =1
Под опосредованным обучением модели машинного обучения понимается итеративный процесс оптимизации параметров на основе объединения ли­ бо предобучения с применением алгоритма-посредника – функции, которая для произвольного документа ′ возвращает кортеж из размет­ ки именованных сущностей и оценочных отношений: ( ′ ) = ⟨ ′ , a ⟩; значение a в процессе опосредованного обучения рассматривается как множество эталонной разметки оценочных отношений документа ′.
9

Таблица 1. Пример описания фрейма «одобрить» в базе знаний RuSentiFrames-2.0
Слоты фрейма «одобрить»
roles polarity
effect state
Описание
A0: тот, кто одобряет A1: то, что одобряется A0→A1, pos
A1→A0, pos
A1, pos
A0, pos
A1, pos
Таблица 2. Количественная характеристика вхождений в RuSentiFrames-2.0
Тип лексической единицы Количество Вхождений фреймов 311 Глаголы 3 239 Существительные 986 Фразы 2 551 Другие 12 Уникальных вхождений 6 788 Всего вхождений 7 034
Таблица 3. Число вхождений отношений базы знаний RuSentiFrames-2.0 по классам
Значения слота «polarity» A0→A1
author→A0
author→A1
pos
2 558 170 92
neg
3 289 1 578 249
Необходимо разработать подход автоматической разметки оценочных отно­ шений в новостных документах ( ). Применение такого подхода в процессе обучения, ввиду значительного превосходства числа документов новостной коллекции над объемом коллекции , позволит существенно увеличить объем данных для моделей машинного обучения.
Фреймовая база знаний. RuSentiFrames описывает оценки и кон­ нотации, передаваемые предикатом в устной или номинальной форме. Структура фреймов включает в себя набор специфичных для предикатов ролей и набор характеристик для описания фреймов. Для обозначения ролей семантические аргументы отдельных глаголов нумеруются, начи­ ная с нуля (подход PropBank). Для конкретного глагола Arg0 – это, как правило, аргумент, демонстрирующий свойства прототипического агента (Agent) [Dowty и др., Thematic proto-roles and argument selection, 1991], в то время как Arg1 это тема (Theme). В основной части коллекции пред­ ставлены следующие слоты:
– roles – отношение автора текста к указанным участникам;
– polarity – положительная/отрицательная оценка между участни­
ками отношений;
– effect – положительный/отрицательный эффект для участников;
– state – положительное/отрицательное психическое состояние участников, связанных с описанной ситуацией.
Пример формата описания фрейма «одобрить» приведен в таблице 1. Фреймы связаны также с семейством слов и выражений (лексических еди­ ниц), которые имеют одинаковые отношения. Лексические единицы могут быть связаны с оценочным фреймом следующими способами: отдельные слова, идиомы, конструкции глаголов и другие выражения, состоящие из нескольких слов. Для проведения разметки в методе опосредованного обу­ чения моделей используется только измерение отношения к теме (Theme), переданное прототипным агентом (Agent). В ресурсе RuSentiFrames-2.0 описано 311 фреймов, связанных с 7034 лексическими единицами, среди которых 6788 уникальных, из которых 48% – глаголы, 14% – существитель­ ные и оставшиеся 38% – словосочетания (см. таблицу 2). Число вхождений отношений по слоту «polarity» приведено в таблице 3.
Используемые ресурсы. Корпус NEWSLarge (8,8 млн. текстов) – состоит из русскоязычных статей и новостей крупных новостных ис­ точников, специализированных политических сайтов и российских сайтов информационных агентств.
Алгоритм. Подразумевает применение двух подходов обработки новостных текстов: на основе базы знаний RuSentiFrames, списка пар (статистики) на основе новостных заголовков. Диаграмма рабочего про­ цесса представлена на Рис. 1. В блоке «разбор текста» выполняется разметка термов групп words и tokens в заголовке и предложениях новости. Блок «разметки фреймов» выполняет поиск вхождений фрей­ мов базы знаний RuSentiFrames. Блок «разметки сущностей» использует предобученную модель BERTMult-OntoNotes (http://docs.deeppavlov.ai/en/0. 11.0/features/models/ner.html) для выделения сущностей типов множества ={GPE, ORG, PER}, где GPE = GEO. Модуль «группировки сущности» решает задачу кореференций именованных сущностей посредством исполь­ зования: (1) лемматизатора Yandex Mystem, (2) русскоязычного ресурса RuWordNet [Loukachevitch и др., Comparing Two Thesaurus Representations for Russian, 2018] для поиска синонимов существительных. Результатом являются: «коллекция синонимов» и «коллекция размеченных текстов».
Модуль «извлечения отношений» из коллекции размеченных текстов выполняет анализ всех новостных заголовков для составления «списка пар» (Рис. 1). Отношение , извлеченное из новостного заголовка, имеет формат = ⟨ , , , l⟩, где – индекс новости, и – индексы синони­ мичных групп начала и конца пары; l – назначаемый класс тональности. Отношение передается в список пар, если:
1. Участники и все именованные сущности между ними принадлежат ; и не являются синонимами; упомянута раньше ;
новостная коллекция
фреймовая
база знаний RuSentiFrames
извлечение отношений
список пар
пороговые значения для параметров: ⟨|∆q |, |Aq |⟩
заголовок
и предложения документов
фильтр пар
доверенные пары
фильтр отношений
отношения заголовка
заголовки текстов
пары
разбор текста
термы
разметка фреймов
RuWordNet
термы и фреймы
разметка сущностей
термы, фреймы, сущности
идентификаторы сущностей
заголовок
и предложения новости
вхождения фреймов
синонимы сущ.
группировка сущностей
редактирование списка
именованные сущности
коллекция размеченных текстов
коллекция
с размеченными отношениями
коллекция синонимов
Рис. 1.
Диаграмма рабочего процесса извлечения оценочных отношений из новостных текстов; прямоугольники – предзаданные (желтые) и порождаемые (зеленые) источники информации; кружки – обработчики данных; пунктирные стрелки – интерфейс пользователя
2. Для всех фреймов, входящих между и , определена поляр­ ность A0→A1 ∈ {pos, neg}; полярность фрейма инвертируется, если перед ним присутствует частица «не» (наиболее частый случай)
3. Отсутствуют предлоги «в» и «на» перед и (такие предлоги в большинстве случаев выражают отношение нахождения где-то; такие отношения не являются оценочными).
Класс тональности l ∈ {pos,neg} пары назначается следующим образом: pos (все фреймы внутри пары имеют pos оценку для A0→A1); neg (иначе). [Kuznetsova и др., Testing rules for a sentiment analysis system, 2013]. Таким образом, для некоторой пары = ⟨ , ⟩, имеем набор связанных отношений = { 1, 2, . . . | |}. Условная вероят­ ность принадлежности к классу вычисляется по формуле: ( | ) = |{⟨ , , ,l⟩|l = }|/| |. Имея список пар с условной вероятностью оце­ нок отношения и соответствующей частоты по каждой паре, в модуле «фильтр пар» (Рис. 1) выбираются доверенные пары ( на основе предза­ данных нижних пороговых значений для: (1) абсолютной разницы |∆ | = | ( |pos) – ( |neg)|; (2) общего числа пар | |. Оценка доверенной пары определяется знаком ∆ , т.е. pos (∆ > 0), либо neg (∆ < 0). Каждая па­ ра ( ) в множестве доверенных пар ′ представляется в формате триплета: ⟨ , ,∆ ⟩. Параметры | | и |∆ |, а также возможность редактирования коллекции синонимов являются частью человеко-машинного интерфейса (пунктирные стрелки Рис. 1). Человек-оператор также может вручную отобрать доверенные пары, и таким образом управлять процессом авто­ матической разметки коллекции с этапа «извлечения отношений». Модуль «фильтр отношений» (Рис. 1) завершает процесс обработ­ ки, выполняя отбор оценочных отношений среди множества достоверных пар. Пара ⟨ , ⟩ считается оценочным отношением, если соответствую­ щая пара индексов синонимичных групп ⟨ , ⟩ содержится в множестве доверенных пар ′ и оценка ⟨ , ⟩ совпадает с оценочной ориентацией до­ веренной пары. Дополнительно производится фильтрация предложений, которые содержат хотя бы одну оценочную пару сущностей из заголовка. Разметка нейтральных отношений (опционально) в заголовке и предложениях новости. Пара ⟨ 1, 2⟩ считается нейтральной, если: – сущность 1 упомянута раньше 2 и имеет тип из множества ; – сущность 2 имеет тип LOC и не находится в списке стран/столиц; – участники 1 и 2 не принадлежат одной синонимичной группе, а также отношения ⟨ 1, 2⟩ и ⟨ 2, 1⟩ не являются оценочными. Результатом выполнения модуля фильтрации отношений является «коллекция размеченных отношений» (Рис. 1). Коллекция RuAttitudes-2.0 версии «2017-Large» [1] – результат применения такого рабочего процесса (версии 2.0) к корпусу NEWSLarge с дополнительной разметкой нейтраль­ ных отношений. Корпуса. Оценка производится при обучении на корпусах RuSentRel и RuAttitudes-2.0 с размеченными нейтральными отношениями. Набор ис­ пользуемых корпусов зависит от режима обучения модели. Формат проведения опосредованного обучения. Опосредован­ ное обучение выполняется в следующих форматах: (1) предварительное обучение с последующим дообучением (сверточные и рекуррентные ней­ ронные сети, BERT), и (2) совместное обучение (сверточные и рекуррент­ ные нейронные сети). Оценка и анализ результатов. Оценка моделей проводится в рам­ ках корпуса RuSentRel для экспериментов: (1) two-scale – необходимо определить оценки заведомо известных пар (классы: pos, neg); (2) three­ scale – необходимо извлечь оценочные отношения из документа (классы: pos, neg, neu). Результат по метрике фиксируется в следующих форма­ 1− тах: (1) 1 – усредненный показатель в рамках 3-кратной 1− кросс-валидационной проверки (Разбиения проведены с точки зрения со­ хранения одинакового числа предложений в каждом из них.); (2) 1 – показатель 1− на test множестве. Прирост качества при использо­ вании опосредованного обучения – отношение результатов, полученных при опосредованном обучении ( 1 ) к результатам моделей, для кото­ рых применялось обучение с учителем ( 1 ) вычисляется по формуле: ∆( 1) = ( 1 / 1 − 1) · 100. В таблице 4 приводятся результаты по мо­ делям: (1) сверточных и рекуррентных нейронных сетей, (2) языковых моделей BERT; также приводится статистика прироста качества (∆( 1)) при использовании опосредованного обучения. Сверточные и рекуррентные нейронные сети. В зависимости от фор­ матов применения коллекции RuAttitudes в обучении, при дообучении Таблица 4. Результаты применения опосредованного обучения для: (1) моделей с кодировщиками на основе сверточных и рекуррентных нейронных сетей, моделей с механизмом внимания (объединенное обучение) (2) моделей BERT (« » – формат TextB предобучения) с дообучением; наилучший Модель CNN CNN PCNN PCNN LSTM LSTM BiLSTM BiLSTM AttCNN AttCNN AttPCNN AttPCNN IAN RuAttitudes-2.0 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 1 1 1 1 70.0 74.3 32.8 39.6 63.6 65.9 28.7 31.4 69.5 70.5 31.6 39.7 64.4 63.3 29.6 32.5 68.0 75.4 31.6 39.5 61.9 65.3 27.9 31.6 71.2 68.4 32.0 38.8 62.3 71.2 28.6 32.4 66.8 72.7 30.9 39.9 65.0 66.2 27.6 29.7 70.2 67.8 32.2 39.9 64.3 63.3 29.9 32.6 69.1 72.6 30.7 36.7 60.8 63.5 30.8 32.2 66.2 71.2 31.0 37.3 65.7 68.2 27.5 32.3 результат по каждой модели выделен жирным шрифтом Тип коллекции two-scale three-scale IAN Att-BLSTM Att-BLSTM Среднее-Δ( 1) (прирост) Среднее mBERT mBERT mBERT mBERT mBERT mBERT 8.7% 8.9% 63.5 65.9 68.9 67.7 67.0 68.9 69.6 65.2 66.5 65.4 69.4 68.2 67.8 58.4 70.0 69.8 67.8 66.2 69.6 68.2 69.5 66.2 71.0 68.6 68.9 66.4 10.6% 23.4% 28.8 31.8 30.5 31.1 26.9 30.0 30.1 35.5 28.6 33.8 33.6 36.0 29.2 37.0 35.6 35.4 36.8 37.6 34.8 37.0 32.0 35.3 36.8 39.9 29.4 39.6 (NLI + «без TextB ») («без (NLI + TextBQA ) (TextBQA ) (NLI + TextBNLI ) (TextBNLI ) TextB ») RuBERT (NLI + «без TextB») RuBERT («без TextB») RuBERT (NLI + TextBQA ) RuBERT (TextBQA) RuBERT (NLI + TextBNLI ) RuBERT (TextBNLI) SentRuBERT (NLI + «без TextB») SentRuBERT («без TextB») SentRuBERT (NLI + TextBQA ) SentRuBERT (TextBQA) SentRuBERT (NLI + TextBNLI ) SentRuBERT (TextBNLI) Среднее-Δ( 1) (прирост) Среднее 37.9 39.8 34.0 35.2 38.4 41.9 34.3 38.9 39.0 38.0 33.4 32.7 70.0 69.8 69.3 65.5 69.6 64.2 70.2 67.1 70.2 67.7 69.8 67.6 1.8% 3.7% 68.5 65.7 31.6 35.6 13.5% 10% моделей прирост качества варьируется в диапазоне 3-4% и 1.5-3% для two­ scale и three-scale экспериментов соответственно. При совместном обу­ чении, показатели прироста увеличиваются в 2 раза (two-scale, прирост 7%) и в 3 и более раза (three-scale, прирост 11% при кросс-валидаци­ онном разбиении и 23% при фиксированном). Языковые модели. Влияние опосредованного обучения оказывает прирост в 2-5% в (two-scale), 9-13% (three-scale). Преимущество в использовании русскоязычно-ориентиро­ ванных моделей перед mBERT наблюдается в three-scale эксперименте. Так, при использовании RuBERT прирост качества составил от 10% по 1 и 6-9% по метрике 1 . Применение SentRuBERT улучшает пока­ затели RuBERT на 6% в опосредованном обучении. SentRuBERT по качеству разметки приближается к нейронным сетям при объединенном формате обучения, задавая при этом более высокие результаты в рам­ ках кросс-валидационного тестирования (35.6-39.0), что говорит о более стабильном результате нежели при использовании сверточных и рекур­ рентных нейронных сетей. Анализ влияния опосредованного обучения. Источником кон­ текстов являются данные множества test (контексты, наибольшее расстоя­ ние в термах между участниками которых не превышает значения 10 [7; 8]). Для каждого контекста анализ проводится по вхождениям фреймов (frames), вхождениям оценочного лексикона RuSentiLex (sentiment). Для моделей сверточных и рекуррентных нейронных сетей. Анали­ зируется разница между оценочными и нейтральными отношениями на основе плотности распределения веса группы ( ) для: нейтральных ( n, отмеченные neu) и оценочных ( s, отмеченные pos либо neg) контекстов. Под весом группы термов входного контекста понимается сумма весов термов контекста, принадлежащих . Для определения разницы между s и n применяется статистика на основе теста Колмогорова-Смирнова. Наи­ большую разницу по всем группам демонстрирует модель Att-BLSTM [8]. Для языковых моделей в анализе участвуют: mBERT, SentRuBERT, и SentRuBERT-NLI (дообученная версия SentRuBERT с применением опосредованного обучения на основе коллекции RuAttitudes-2.0). Среди входных контекстов множества test рассматриваются только такие, ко­ торые были извлечены дообученной моделью SentRuBERT-NLI . В работе [1] приводится оценка усредненных значений весов внимания по входным контекстам для токенов (п. 3,4 – только контексты, содержащие термы соответствующих групп): (1) класса [CLS], границ последователь­ ностей [SEP], (2) участников отношений (E /E ), (3) групп frames и внимание к ним от прочих токенов контекста; (4) группы sentiment и внимание к ним от прочих токенов контекста. По результатам следует отметить высокие показатели внимания к токену класса [CLS] на ранних слоях до 31% (mBERT) и выше в случае остальных моделей. При пе­ реходе от mBERT к SentRuBERT и SentRuBERT-NLI наблюдается увеличение внимания к [SEP] до 29% (слои с 6 по 10), E /E до 12%. Внимание по отношению к термам групп frames и sentiment остальных токенов, в среднем составляет 4-5% и увеличивается на слоях 11-12 до 7-10%; последний показатель вдвое превышает аналогичные показатели модели mBERT. В четвертой главе приводится описание архитектуры программно­ го комплекса AREkit для извлечения оценочных отношений из документов, а также временная оценка обучения моделей, созданных на основе такого комплекса. Разработанный программный комплекс AREkit (https://github.com/ nicolay-r/AREkit/tree/0.20.5-rc) предоставляет возможности: (1) подготов­ ки и обработки текстовой информации (выделение контекстов с парами упомянутых именованных сущностей) (2) проведения экспериментов с мо­ делями машинного обучения в задаче извлечения оценочных отношений между парой упомянутых в тексте сущностей. Программный комплекс со­ стоит из: (1) набора инструментов для работы с отношениями документа (ядро), (2) модуля запуска экспериментов на основе моделей, (3) модуля реализации моделей на основе библиотеки Tensorflow. Оценка производительности проводилась на сервере с двумя процес­ сорами Intel Xeon CPU E5-2670 v2 2.50Ггц, 80 Гб ОЗУ (DDR-3), двумя видеоускорителями Nvidia GeForce GTX 1080 Ti. Обучение моделей вы­ полнялось под ОС Ubuntu 18.0.4 в контейнерах Docker версии 19.03.5. Среди нейронных сетей наилучшие показатели скорости обучения де­ монстрируют модели с кодировщиком на основе сверточных нейронных сетей. Добавление механизма внимания на основе перцептрона (AttCNN , AttPCNN ) увеличивает время обучения примерно в 10 раз относительно PCNN. Время обучения рекуррентных нейронных сетей увеличивается в 2 раза (LSTM), и в 3-4 раза (BiLSTM) при сравнении с PCNN. Добав­ ление механизма самовнимания (Att-BLSTM) практически не сказалось на времени обучения модели BiLSTM, что обусловлено вычислительно более простой архитектурой механизма внимания среди прочих [1]. Для языковых моделей во всех форматах обучения на адаптацию русскоязыч­ ных моделей требуется меньше эпох при одинаковых настройках обучения. Так, замена mBERT на RuBERT или SentRuBERT сокращает время обучения в 3.5 раза [1].

Автоматический анализ тональности, т.е. поиск отношений (позитивных
или негативных) некоторых лиц относительно содержания текста или каких­
то его аспектов, является одним из наиболее востребованных приложений
автоматической обработки текстов за последние годы. Значимость такой за­
дачи во многом связана с возникновением и развитием социальных сетей,
рекомендационных онлайн сервисов, содержащих огромное количество мнений
пользователей по различным вопросам.
Подходы по извлечению тональности из текста зависят от типа анализи­
руемого текста. Наиболее часто методы автоматического анализа тональности
изучаются на основе отзывов пользователей по отношению к товарам и сер­
висам. Подобного рода тексты в основном посвящены обсуждению одной
сущности (фильма, книги, ресторана), а мнение передается одним челове­
ком – автором отзыва [1—4]. Другим популярным жанром текстов для анализа
тональности являются короткие сообщения в социальных сетях, в частности
сети Twitter [5—7]. Тексты таких сообщений могут требовать очень точного
анализа, но передаваемое мнение также чаще всего относится к одному источ­
нику и высказываются по отношению к одной сущности ввиду ограниченной
длины текста сообщения.
Одним из самых сложных жанров документов для анализа тональности
являются новостные и аналитические статьи, в которых обсуждается ситуация
в некоторой области, например, в политике или экономике [8]. В тексте таких
статей мнения передаются различными субъектами, включая отношение одного
или нескольких авторов, а также мнение цитируемых источников. Такие тексты
могут также описывать тональность отношений упомянутых сущностей (напри­
мер, государств или политиков) между собой. При этом тональность отношений
между сущностями может не соответствовать тональности отношения к этим
сущностям автора текста.
Например, в контексте «США обвиняет Россию и Китай в игре с де­
номинацией валют» автор высказывает мнение, в котором можно выделить
страны-сущности, среди которых «США» проявляет негативное отношение
«России» и «Китаю», в то время как две последние сущности нейтральны по от­
ношению друг к другу в рамках рассматриваемого контекста. При этом мнение
автора явным образом не выражено.
Кроме того, новостные и аналитические тексты обычно содержат боль­
шое количество именованных сущностей, и лишь небольшое число среди них
является субъектом либо объектом тональности.
Таким образом, правильная идентификация тональности отношений меж­
ду сущностями, упоминаемыми в тексте, имеет существенное значение для
анализа тональности текстов. Кроме того, извлечение оценочных отношений
представляет собой отдельную ценность для различных аналитических иссле­
дований.
Актуальность темы. Анализ тональности является одной из наиболее
востребованных задач в автоматической обработке текстов, которая состоит
в определении отношения (позитивного или негативного) некоторого лица от­
носительно содержания текста или каких-то его аспектов. На практике анализ
тональности подразделяется на множество различных подзадач, таких как опре­
деление общей тональности текста или предложения, тональность автора по
отношению к упомянутым сущностям и другие.
Одной из мало исследованных подзадач анализа тональности является
извлечение тональности отношений между сущностями, упомянутыми в тексте
(оценочные отношения). В новостных и аналитических текстах тональность оце­
ночных отношений сложным образом коррелирует с другими тональностями,
например, с тональностью отношения автора текста к обсуждаемой тематике.
Таким образом, извлечение оценочных отношений является как подвидом за­
дачи анализа тональности, так и задачи извлечения отношений. Актуальными
на настоящий момент методами в решении таких задач являются модели на
основе различных методов машинного обучения, включая классические мето­
ды машинного обучения, нейронные сети сверточного и рекуррентного типов, а
также нейронные сети с вниманием, в том числе языковые модели типа BERT.
Основными ограничениями в организации процесса обучения таких методов яв­
ляются: общий недостаток разметки и сложность ее ручного выполнения для
составления обучающего корпуса.
Среди отечественных и зарубежных ученых, занимающихся исследовани­
ем задачи анализа тональности и применением методов машинного обучения в
такой области, наиболее известными являются: Е. Котельников, О. Кольцова,
P. Turney, D. Zeng, Y. Choi, J. Devlin и др.
Актуальность исследования заключается в том, что на настоящий момент
нет универсальных методик автоматической разметки оценочных отношений,
которые бы позволили увеличить объем обучающих данных. Предложенный
подход по автоматической разметке данных и проведения опосредованного
обучения (от англ. Distant Supervision) на их основе, позволяет повысить эф­
фективность моделей нейронных сетей.
Объектом исследования являются комбинированные подходы, включаю­
щие базу знаний и нейросетевую модель для извлечения оценочных отношений
из текстов.
Предметом исследования является структура и состав базы знаний для
анализа тональности текстов на русском языке.
Целью диссертационного исследования является разработка методов из­
влечения оценочных отношений между именованными сущностями из текстов
средств массовой информации с использованием русскоязычной базы знаний.
Для достижения поставленной цели были решены следующие задачи:
1. Разработать базу знаний для описания структуры тональностей слов­
предикатов;
2. Реализовать методы машинного обучения для извлечения оценочных
отношений между именованными сущностями из текстов новостных и
аналитических статей;
3. Реализовать модель и методы порождения автоматически размеченных
оценочных отношений на основе лексико-семантических ресурсов;
4. Реализовать методы извлечения оценочных отношений на основе под­
хода опосредованного обучения (от англ. Distant Supervision) и ком­
бинированной обучающей выборки, включающей как ручную, так и
автоматическую разметку;
5. Создать программные средства для обработки новостных и аналити­
ческих текстов, которые на основе текста статьи порождают список
оценочных отношений между упомянутыми именованными сущностя­
ми.
Научная новизна
– Предложена структура фреймовой базы знаний RuSentiFrames для
описания тональностей, ассоциирующихся со словами и выражениями
русского языка, включая тональность отношений между участниками
ситуации, отношение автора к участникам ситуации, позитивные и нега­
тивные эффекты, связанные с ситуацией. Такая база знаний описывает
значительно более сложную структуру тональностей, ассоциированных
с словом, в отличие от обычных списков оценочных слов с оценками
тональностей;
– Впервые для русского языка поставлена задача и выполнено исследова­
ние методов извлечения тональности отношений между именованными
сущностями, упомянутыми в текстах СМИ;
– Для обучения моделей извлечения оценочных отношений предложен
новый метод автоматического порождения обучающей коллекции на
основе оценочных фреймов нового лексикона RuSentiFrames и исполь­
зования структуры новостных текстов. Применение опосредованного
обучения с использованием RuAttitudes-2.0 повысило качество языко­
вых моделей BERT на 10-13% по метрике F1, и на 25% при сравнении
с наилучшими результатами остальных моделей на основе оценочных
фреймов нового лексикона RuSentiFrames и структуры новостных тек­
стов;
Первая глава посвящена обзору различных задач и методов анализа то­
нальности текстов. Рассматриваются методы глубокого обучения в смежных
задачах.
Во второй главе приводится постановка задачи извлечения оценочных
отношений между упомянутыми именованными сущностями на уровне докумен­
та. В экспериментах, извлечение оценочных отношений рассматривается как
задача машинного обучения. Используется корпус русскоязычных аналитиче­
ских статей RuSentRel с ручной разметкой оценочных отношений на уровне
документов. В качестве базовых подходов, приводятся эксперименты с класси­
ческими методами машинного обучения (Naı̈ve Bayes, SVM, Random Forest).
Для сравнения приведены и реализованы архитектуры: (1) сверточных нейрон­
ных сетей, адаптированные под извлечение оценочных отношений, (2) вариации
таких архитектур с модулем механизма внимания, и (3) языковые модели се­
мейства BERT.
В третьей главе представлены подходы к применению опосредованного
обучения (англ. Distant Supervision) для извлечения оценочных отношений меж­
ду именованными сущностями в тексте. Ставится задача разработки алгоритма
автоматической аннотации коллекции новостных документов с целью увеличе­
ния обучающей выборки моделей машинного обучения. Основой проведения
оценки в алгоритме стал двухэтапный анализ заголовков на основе коллекции
фреймов RuSentiFrames: (1) для составления списка пар; (2) для извлечения
оценочных отношений с помощью созданного списка и выделенного в нем оце­
ночно-достоверных пар. Результаты проведенных экспериментов показывают,
что модели обученные с использованием построенной коллекции превосходят
по качеству модели, для которых применялось только обучение с учителем
(англ. Supervised Learning).
Четвертая глава посвящена архитектурным особенностям программной
реализации базовых инструментов, используемых в задаче извлечения оценоч­
ных отношений. Приводятся инструкции по добавлению внешних коллекций и
источников информации, моделей нейронных сетей с реализацией на основе биб­
лиотеки Tensorflow. С точки зрения оценки производительности программных
реализаций моделей машинного обучения, проводится сравнительный анализ
скорости обучения нейронных сетей и языковых моделей как в случае обуче­
ния с учителем, так и при использовани иопосредованного обучения.
В заключении перечислены основные результаты проделанной работы.
Практическая значимость. Разработаны и исследованы модели из­
влечения оценочных отношений, а также методы автоматической обработки
внешних новостных источников информации. Впервые создана и опубликована
большая база контекстов RuAttitudes-2.0 (252 тыс. примеров) с автоматической
разметкой оценочных отношений, что может быть полезным для задач таргети­
рованного анализа тональности текстов СМИ. Создан программный комплекс
AREkit для выполнения автоматической разметки коллекции новостей, а также
обучения моделей на основе нейросетевых механизмов для извлечения отно­
шений между сущностями в текстах СМИ с возможностью интерактивного
человека-машинного управления.
Методология и методы исследования. В работе применяются методы
обработки и анализа текстовой информации, методы классификации размечен­
ной информации, методы объектно-ориентированного программирования для
построения инструмента и проведения работы над поставленной задачей.
Основные положения, выносимые на защиту:
1. Предложена структура фреймовой базы знаний RuSentiFrames для
описания тональностей, ассоциирующихся со словами и выражениями
русского языка, включая тональность отношений между участниками
ситуации, отношение автора к участникам ситуации, позитивные и нега­
тивные эффекты, связанные с ситуацией;
2. Предложен и реализован новый метод автоматического порождения
обучающей коллекции для классификации оценочных отношений
по двум и трем классам на основе словаря оценочных фреймов
RuSentiFrames;
3. Программный комплекс AREkit для создания автоматически разме­
ченной обучающей коллекции для извлечения оценочных отношений,
с программным интерфейсом для задания настроек пользователем, а
также обучения методов на основе нейронных сетей;
Соответствие научной специальности. Содержание работы соответ­
ствует паспорту научной специальности 05.13.11 «Математическое и программ­
ное обеспечение вычислительных машин, комплексов и компьютерных сетей»
(технические науки): п.4 «Системы управления базами данных и знаний», п.7
«Человеко-машинные интерфейсы; модели, методы, алгоритмы и программные
средства машинной графики, визуализации, обработки изображений, систем
виртуальной реальности, мультимедийного общения». Сопоставление приведе­
но в Таблице 1.
Апробация работы. Основные результаты работы докладывались на:
Международная Конференция «Диалог» (Россия, Москва, РГГУ, 2018) [9];
20-ая Международная Конференция Data Analytics and Management in Data
Intensive Domains (Россия, Москва, МГУ, 2018) [10]; 21-ая Международная Кон­
ференция Text-Speech-Dialog (Чехия, Брно, 2020) [11]; 12-ая Международная
Конференция Recent Advances in Natural Language Processing (Болгария, Варна,
2020) [12]; 25-ая Международная Конференция Natural Language & Information
Systems (Германия, Саарбрюккен, 2020) [13]; 10-ая Международная Конферен­
ция Web Intelligence, Mining and Semantics (Франция, Биаритц, 2020) [14].
Личный вклад. Автором проведено исследование задачи извлечения
оценочных отношений с выполнением основного объема теоретических и экс­
периментальных исследований, изложенных в тексте диссертационной работы.
Разработана программная платформа для исследования и проведения экспе­
риментов в предметной области на основе созданных методов. Исследование
задачи извлечения оценочных отношений с применением разработанных мето­
дов рассмотрено в работах [10—18]. Лукашевич Н.В. принадлежит постановка
задачи, а также практические рекомендации по исследованию предметной об­
Таблица 1.
Сопоставление направлению и результаты исследований, предусмотренных
специальностью 05.13.11
Направление Результат работы
4. Системы управления база­ Впервые для русского языка поставлена
ми данных и знаний задача и выполнено исследование методов
извлечения тональности отношений между
именованными сущностями, упомянутыми в
текстах СМИ
7. Человеко-машинные ин­ Предложен и реализован новый метод автома­
терфейсы; модели, методы, тического порождения обучающей коллекции
алгоритмы и программные для классификации оценочных отношений по
средства машинной графики, двум и трем классам на основе словаря оценоч­
визуализации, обработ­ ных фреймов RuSentiFrames; человек-опера­
ки изображений, систем тор может вручную управлять параметрами
виртуальной реальности, отбора оценочных отношений, и таким об­
мультимедийного общения разом управлять процессом автоматической
разметки

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Читать

    Помогаем с подготовкой сопроводительных документов

    Совместно разработаем индивидуальный план и выберем тему работы Подробнее
    Помощь в подготовке к кандидатскому экзамену и допуске к нему Подробнее
    Поможем в написании научных статей для публикации в журналах ВАК Подробнее
    Структурируем работу и напишем автореферат Подробнее

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Глеб С. преподаватель, кандидат наук, доцент
    5 (158 отзывов)
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной с... Читать все
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной специальности 12.00.14 административное право, административный процесс.
    #Кандидатские #Магистерские
    216 Выполненных работ
    Шагали Е. УрГЭУ 2007, Экономика, преподаватель
    4.4 (59 отзывов)
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и... Читать все
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и диссертаций, Есть любимые темы - они дешевле обойдутся, ибо в радость)
    #Кандидатские #Магистерские
    76 Выполненных работ
    Татьяна Б.
    4.6 (92 отзыва)
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские ди... Читать все
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские диссертации, курсовые работы средний балл - 4,5). Всегда на связи!
    #Кандидатские #Магистерские
    138 Выполненных работ
    Анна В. Инжэкон, студент, кандидат наук
    5 (21 отзыв)
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссе... Читать все
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссертаций. Работала в маркетинге. Практикующий бизнес-консультант.
    #Кандидатские #Магистерские
    31 Выполненная работа
    Дарья С. Томский государственный университет 2010, Юридический, в...
    4.8 (13 отзывов)
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссерт... Читать все
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссертационное исследование, которое сейчас находится на рассмотрении в совете.
    #Кандидатские #Магистерские
    18 Выполненных работ
    Антон П. преподаватель, доцент
    4.8 (1033 отзыва)
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публик... Читать все
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публикуюсь, имею высокий индекс цитирования. Спикер.
    #Кандидатские #Магистерские
    1386 Выполненных работ
    Ольга Б. кандидат наук, доцент
    4.8 (373 отзыва)
    Работаю на сайте четвертый год. Действующий преподаватель вуза. Основные направления: микробиология, биология и медицина. Написано несколько кандидатских, магистерских... Читать все
    Работаю на сайте четвертый год. Действующий преподаватель вуза. Основные направления: микробиология, биология и медицина. Написано несколько кандидатских, магистерских диссертаций, дипломных и курсовых работ. Слежу за новинками в медицине.
    #Кандидатские #Магистерские
    566 Выполненных работ
    Елена С. Таганрогский институт управления и экономики Таганрогский...
    4.4 (93 отзыва)
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на напис... Читать все
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на написании курсовых и дипломных работ, а также диссертационных исследований.
    #Кандидатские #Магистерские
    158 Выполненных работ
    Виктор В. Смоленская государственная медицинская академия 1997, Леч...
    4.7 (46 отзывов)
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выв... Читать все
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выводы).Пишу статьи в РИНЦ, ВАК.Оформление патентов от идеи до регистрации.
    #Кандидатские #Магистерские
    100 Выполненных работ

    Последние выполненные заказы

    Другие учебные работы по предмету

    Метод и алгоритмы назначения заданий в распределенной информационной системе Интернета вещей
    📅 2022год
    🏢 ФГБОУ ВО «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)»