Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Глава 1. Методы машинного обучения в задачах анализа
14
/> 15
16
. . . . . . . . . . . 16
документов 17
тональности . . . 19
и признаков 22
24
26
на основе
29
31
/> 34
34
38
38
39
40

Глава 2. Извлечение оценочных отношений . . . . . . . . . . . . . . 42
2.1 Формальная постановка задачи . . . . . . . . . . . . . . . . . . . . 42
2.2 Контекстное представление отношений . . . . . . . . . . . . . . . 44
2.3 Классификаторы на основе ручных признаков обработки
естественного языка . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.4 Классификатор на основе нейронных сетей . . . . . . . . . . . . . 46
2.4.1 Векторное представление контекстов отношений . . . . . . 46
2.4.2 Архитектура модели сверточной нейронной сети PCNN . 46
Стр.

2.4.3 Архитектура модели AttCNN с механизмом внимания
на основе многослойного перцептрона . . . . . . . . . . . . 49
2.4.4 Архитектура модели IAN с механизмом кросс-внимания . 51
2.4.5 Архитектура модели Att-BLSTM с механизмом
внимания Self-Attention . . . . . . . . . . . . . . . . . 52
2.5 Работа с моделями на основе контекстного представления
отношений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.5.1 Предсказание класса тональности . . . . . . . . . . . . . . 53
2.5.2 Обучение нейронной сети . . . . . . . . . . . . . . . . . . . 54
2.5.3 Вычисление оценки отношения на уровне документа . . . 55
2.6 Эксперименты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.6.1 Описание корпуса с размеченными оценочными
отношениями в русскоязычных аналитических статьях
RuSentRel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.6.2 Разметка контекста . . . . . . . . . . . . . . . . . . . . . . 58
2.6.3 Составление векторов для термов контекста нейронных
сетей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.6.4 Оценка качества моделей . . . . . . . . . . . . . . . . . . . 61
2.6.5 Результаты . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Выводы по главе 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Глава 3. Методы опосредованного обучения в задаче
извлечения оценочных отношений . . . . . . . . . . . . . . 67
3.1 Формальная постановка задачи . . . . . . . . . . . . . . . . . . . . 67
3.2 Используемые ресурсы . . . . . . . . . . . . . . . . . . . . . . . . 68
3.2.1 Фреймовая база знаний RuSentiFrames . . . . . . . . . . . 68
3.2.2 Новостные коллекции . . . . . . . . . . . . . . . . . . . . . 70
3.3 Подход автоматической разметки оценочных отношений в
новостных документах с использованием лексикона RuSentiFrames 71
3.3.1 Обработка текста и распознавание именованных сущностей 72
3.3.2 Разметка на основе предварительно заданного списка
оценочных отношений . . . . . . . . . . . . . . . . . . . . . 72
3.3.3 Разметка с использованием коллекции фреймов . . . . . . 73
3.3.4 Фильтрация размеченных отношений . . . . . . . . . . . . 74
Стр.

3.4 Улучшение подхода автоматизации в извлечении оценочных
отношений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.4.1 Автоматическое построение вспомогательных ресурсов . . 78
3.4.2 Автоматическая разметка отношений и анализ результатов 82
3.5 Эксперименты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.5.1 Оценка качества и настройки обучения моделей . . . . . . 85
3.5.2 Подготовка данных . . . . . . . . . . . . . . . . . . . . . . 87
3.5.3 Результаты . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.5.4 Разбор контекста . . . . . . . . . . . . . . . . . . . . . . . . 94
3.5.5 Анализ оценочных фреймов и слов по частям речи в
результатах моделей . . . . . . . . . . . . . . . . . . . . . . 94
3.5.6 Анализ влияния обучения на распределения весов
механизма внимания в моделях нейронных сетей . . . . . 97
3.5.7 Анализ влияния предварительного обучения на
распределение весов механизма внимания в языковых
моделях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Выводы по главе 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

Глава 4. Архитектура программного комплекса для
организации экспериментов с извлечением оценочных
отношений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.1 Возможности разработанного набора инструментов AREkit . . . . 112
4.2 Обработка и представления новостей . . . . . . . . . . . . . . . . 112
4.2.1 Архитектура представления документа . . . . . . . . . . . 112
4.2.2 Архитектура отношений между упоминаемыми
сущностями в рамках документа и контекстов . . . . . . . 115
4.2.3 Оценка качества разметки . . . . . . . . . . . . . . . . . . 117
4.3 Организация эксперимента фреймворка AREkit . . . . . . . . . . 119
4.3.1 Разметка документов нейтральными отношениями . . . . 122
4.3.2 Сериализация данных . . . . . . . . . . . . . . . . . . . . . 122
4.4 Модуль нейронных сетей для извлечения оценочных отношений . 126
4.5 Эксперименты и оценка производительности . . . . . . . . . . . . 128
4.5.1 Обучение сверточных и рекуррентных нейронных сетей . 128
4.5.2 Обучение языковых моделей сторонними библиотеками . . 130
Стр.

4.6 Возможности модуля автоматической разметки оценочных
отношений в новостных документах . . . . . . . . . . . . . . . . . 132
4.6.1Обработка новостных документов . . . . . . . . . . . . . . 133
4.6.2Автоматическая обработка и разметка отношений в
новостных текстах . . . . . . . . . . . . . . . . . . . . . . . 135
Выводы по главе 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

Общие выводы и заключение . . . . . . . . . . . . . . . . . . . . . . . 141

Список сокращений и условных обозначений . . . . . . . . . . . . . 142

Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

Приложения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

Во введении обосновывается актуальность диссертационной работы, сформулированы цель и задачи представляемой работы, сформулирована научная новизна исследований, показана практическая значимость рабо ты.
Первая глава посвящена обзору различных задач и методов ана лиза тональности текстов. Рассматриваются методы глубокого обучения в смежных задачах. В исследованиях задача анализа тональности может ста виться как задача классификации, в качестве выходных данных которой предполагается набор классов тональности. При этом задача извлечения оценочных отношений исследовалась недостаточно: есть только небольшое число работ для английского языка, для русского языка исследований не было. Поэтому важным является исследование методов автоматического сбора обучающей коллекции. Таким образом подтверждается актуальность разработки методов и проведение исследований для русского языка.
Вторая глава посвящена исследованию методов машинного обуче ния для извлечения оценочных отношений из аналитических текстов.
Формальная постановка задачи. Источником анализа являет ся текстовая коллекция, состоящая из документов { } =1, где – грамматически организованная последовательность слов с передачей
мнения автора по отношению ко множеству упомянутых именованных сущ
ностей. Каждый документ представлен последовательностью символов:
= { 1, 2,…, | |}. Для каждого документа коллекции предостав
ляется список упомянутых именованных сущностей = [ 1 , . . . , | | ].
Именованная сущность ( ) – слово или словосочетание, указывающие
на объект реальности; представлена кортежем ⟨ , ⟩, где = [ , . . . , ]
– слово/словосочетание; – категория: личности (PER), организации
(ORG), места (LOC); геополитические места (GEO). Сущность может
иметь множество вариантов наименований (например: Россия – РФ ),
поэтому дополнительно вводится список синонимов , состоящий из
групп [ 1, . . . , | |], где произвольная группа представлена значения
ми сущностей: { 1,…, | |}. Каждое из значений групп списка является
уникальным в рамках всего списка ; пересечение любых двух различ
ных групп является пустым множеством. Под извлечением оценочных
отношений из подразумевается составление списка кортежей a =
{⟨ 1, , 2, , ⟩}|a| , где 1, – субъект, 2, – объект, – оценка, позитивная =1
(pos) либо негативная (neg). Например, в следующем тексте (именованные сущности подчеркнуты): «При этом Москва неоднократно подчеркивала, что ее активность на Балтике является ответом именно на действия НАТО и эскалацию враждебного подхода к России вблизи ее восточ ных границ . . .» результатом является список отношений: [(НАТО, Россия, neg), (Россия, НАТО, neg)].
Контексты с отношениями. Основное предположение наличия оценочного отношения между парой сущностей ⟨ 1, 2⟩ – относительно ко роткое расстояние между этими сущностями в тексте. Под контекстом понимается текстовый фрагмент, включающий две и более именованных сущностей. Контекст соответствует отношению, когда 1 и 2 (их синонимы в том числе) присутствуют в контексте. Таким образом, для каждого отношения можно выделить множество соответствующих контек стов. Под размеченным контекстом понимается контекст с выделенной парой «субъект-объект». Размеченный контекст рассматривается как оце ночный, если соответствующая пара присутствует в разметке коллекции. В противном случае размеченный контекст рассматривается как нейтраль ный (принадлежит дополнительному классу neu). Таким образом, процесс извлечения оценочных отношений на уровне контекстов может быть сведен к классификационной задаче. Такой процесс подразумевает отбор таких контекстов, которые не являются нейтральными.
Классические методы. Классификация контекстов может быть выполнена классическими методами машинного обучения: KNN, SVM, Na ̈ıve Bayes, Random Forest, Gradient Boosting. Признаки, используемые для классификации разделены на группы [5], характеризующие: (1) име нованные сущности; (2) контекст с отношением.
5

Модель извлечения оценочных отношений. Для решения за дачи разработана модель, состоящая из классификатора размеченных контекстов с блоком агрегации результатов нескольких контекстов в еди ную оценку. В качестве классификаторов рассматривается и исследуется применение сверточных и рекуррентных нейронных сетей, языковых мо делей семейства BERT. Общая архитектура классификатора включает: (1) кодировщик размеченного контекста, (2) классификационный слой.
Входной информацией для кодировщика на основе языковых моделей являются размеченные контексты. В случае нейронных сетей, размечен ные контексты предварительно конвертируются в вектора признаков для термов (атомарные элементы, выделенные из размеченного контекста, сле дующих типов: entities (вхождения именованных сущностей), tokens (знаки препинания, URL-ссылки, числа), frames (вхождения в сторонний лексикон), words (прочие подпоследовательности контекста, разделенные пробелами)) кон текста. Признаки термов контекста: (1) вектор основного представления терма из модели news2015 (размер: 1000); (2) вектор расстояния [Zeng и др., Distant supervision for relation extraction via piecewise convolutional neural networks, 2015] – расстояние в термах от рассматриваемого терма до участников отношения ⟨ 1 , 2 ⟩ (размер: 5 · 2 = 10); (3) вектор частей речи терма (размер: 5) (вычисляется для соответствующего слова токена, с помощью пакета Yandex Mystem; для токенов группы tokens вводится допол нительный тип UNKNOWN – значение части речи не определено). Общая длина вектора признаков ( ) равна 1015.
Кодировщик размеченного контекста выполняет преобразова ние входной последовательности (размеченного контекста) в векторное представление ∈ Rh длины h. В случае нейронных сетей исследуются кодировщики на основе следующих архитектур:
– Свёрточных типов [4] (CNN, PCNN [3]), в которых вектор (да лее ) представляет собой максимальную субдискретизацию (от англ. maxpooling) сверточных преобразований термов входной по следовательности;
– Рекуррентных типов [7] (LSTM, BiLSTM), где – последний эле мент выходной последовательности LSTM, и конкатенация пары последних векторов двух последовательностей в случае BiLSTM.
Также для таких архитектур исследуется внедрение механизма внимания. Механизм внимания представляет собой отдельную нейрон ную сеть, перед которой стоит задача определения значимости каждого элемента входной последовательности относительно каких-либо других элементов. Под взвешиванием элемента последовательности понимается составление его количественной оценки ∈ R. Преобразование ко личественной оценки в вероятностную ( ∈ [0,1]) осуществляется посредством операции softmax. Для входной последовательности векторов термов = { 1, . . . , } ( – размер контекста), сочетание механизма
внимания (a ∈ R ) с промежуточным результатом кодировщика (вход ные представления термов (CNN, PCNN), скрытые состояния термов (LSTM, BiLSTM)) контекста ′ ∈ R ×h можно представить в виде: = a · ′, где a = ′ ( ). Рассмотрим кодировщики контекстов с механизмами внимания относительно: (1) аспектов , где ⊂ , и (2) всего .
Механизм внимания на основе многослойного перцептрона [Huang и др., Attention-based convolutional neural network for semantic relation extraction, 2016]. Выберем произвольный аспект ∈ . Рассмотрим вектор ное представление -го терма (h ) как конкатенацию ∈ R с ∈ R , т.е. h = [ , ]. Количественная оценка релевантности ( ) для h вычисляется по формуле: = [tanh( ·h + )]+ , где ∈ Rh×2· и ∈ R1×h – матрицы весов и внимания модели соответственно; ∈ Rh, ∈ R – векторы смещения. Параметры ⟨ , , , ⟩ являются скрытыми состояниями механизма внимания a и изменяются в процессе обучения модели. Далее, оценка преобразуется в вероятностную с помощью операции softmax. Векторное представление контекста ˆ к некоторому ас пекту вычисляется по формуле: ˆ = ∑︀ =1 · . Таким образом, для каждого аспекта ∈ ( ∈ 1.. ) составим множество векторов { ˆ } =1. Результирующее векторное представление контекста есть конкатенация и =∑︀ =1 ˆ / .
Механизм внимания модели IAN [Ma Dehong и др., Interactive attention networks for aspect-level sentiment classification, 2017]. Вход коди ровщика представляет собой две раздельные последовательности и . Результатом применения модели LSTM к таким последовательностям яв ляются = [h 1,…,h ], = [h 1,…,h ], где h ,h ∈ Rh. Далее, для и вычисляются средние значения = ∑︀ =1 h / и = ∑︀ =1 h / . Количественная оценка последовательностей выполняется в направлени ях: (1) аспектов по отношению к контексту, и (2) контекста по отношению к аспектам. Вычисление весов производится по соответствующим форму лам (1) = tanh(h · · + ), и (2) = tanh(h · · + ) где , ∈ Rh×h и , ∈ R – скрытые состояния модели IAN. Далее, оцен ки и преобразуются в вероятностные и с помощью операции . Результирующий вектор контекста есть конкатенация векторов и , где = ∑︀ =1 ·h , = ∑︀ =1 ·h .
Самовнимание (Self-Attention). Используется кодировщик на основе двунаправленной LSTM. Результирующее контекстное представление та кого кодировщика ( = [h1 , . . . ,h ]) есть поэлементная конкатенация двух
последовательностей, в которой каждый -й элемент ( ∈ 1.. ) представ →− ←− →− ←−
лен как h = h ++h , где h и h элементы прямой и обратной LSTM последовательностей соответственно. Количественная оценка h ∈ Rh вы числяется по формуле [Peng Zhou и др., Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification, 2016]: = · ,
где = tanh(h ), ∈ Rh – вектор скрытых состояний механизма внима ния a, изменяемый в процессе обучения модели. Результирующий вектор представления контекста вычисляется по формуле: = h( · ).
Классификационный слой используется для преобразования ∈ Rh в вектор классов ∈ Rc, где c – число классов. Для выполнения такого преобразования используется полносвязный слой с параметрами ⟨ , ⟩ и функцией активации : = ( · + ), где ∈ Rc×h, ∈ Rc. В случае языковых моделей BERT, – усредненное значение выходных векторных представлений каждого токена.
Преобразование отношений на уровень документа. Для неко торой пары ⟨ 1, 2⟩ и соответствующего списка размеченных контекстов, результирующая оценка определяется как среднее значение среди меток контекста (усреднение методом голосования) [4].
Корпуса. Оценка моделей проводилась на русскоязычном корпусе аналитических текстов RuSentRel-1.0 [9]. Корпус предоставляет 73 боль ших аналитических текстов, размеченных с выделением порядка 2000 отношений среди них. Именованные сущности автоматически размечены методом CRF по классам [PER, ORG, LOC, GEO]. Из корпуса по каждой па ре сущностей были составлены множества контекстов. В 47-48% случаев отношения представлены одним контекстом.
Модели. Рассмотрено качество работы классических методов классификации: KNN, Na ̈ıve Bayes, Linear SVM, Random Forest и Gradient Boosting при использовании параметров по умолчанию и с пере бором таких параметров по предзаданной сетке [9]. Среди нейросетевых моделей исследовался следующий набор различных кодировщиков: CNN, PCNN; AttCNN , AttPCNN (модели с кодировщиками с механиз мом внимания «многослойный перцептрон»); LSTM, BiLSTM; IAN; Att-BLSTM (модель с механизмом внимания типа «Self-Attention»). Спи сок используемых языковых моделей включает вариации предобученных состояний модели BERT: mBERT [Devlin и др., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2019] (мульти языковая модель), RuBERT [Kuratov и др., Adaptation of deep bidirectional multilingual transformers for russian language, 2019] (дообученная вер сия mBERT на русскоязычных текстах энциклопедии «Википедия»), SentRuBERT (дообученная модель RuBERT посредством: (1) текстов корпуса SNLI [Bowman и др., A large annotated corpus for learning natural language inference, 2015] переведенных на русский язык, (2) русскоязычных текстов коллекции XNLI [Conneau и др., XNLI: Evaluating Cross-lingual Sentence Representations, 2018]). Модель BERT предполагает в качестве входной информации последовательность, опциально разделенную спе циальным символом [SEP] на две части: TextA и TextB. Варианты представления входной информации: (1) «без TextB»– последователь ность без разделения, (2) TextBQA – дополнение TextA вопросом в
TextB, (3) TextBNLI – дополнение TextA выводом отношения по кон тексту в TextB.
Оценка в рамках корпуса. Оценка качества моделей производи лась на основе метрик: (точность), (полнота), и -мера. Для оценки
моделей принимается показатель макро-усреднений над документами по оценочным классам: = 1 · ( + ) · 100. Оценка
1− 2 1− 1−
производится в рамках фиксированного тестового множества (да
1−
лее test) коллекции RuSentRel – 1 [9].
Среди классических методов, SVM и Na ̈ıve Bayes достигли 0.16 по F-мере; наилучший результат получен с помощью классификатора Random Forest ( 1 = 27.0) и Gradient Boosting ( 1 = 28.0). Предлага емый подход на основе нейронной сети PCNN значительно превосходит подходы с ручными признаками [9]; наилучший результат при 1 = 32.6. Наилучший результат среди моделей с механизмами внимания показы вают AttPCNN ( 1 = 32.6), IAN ( 1 = 32.2), Att-BLSTM ( 1 = 32.3) Для языковых моделей, наилучший показатель демонстрирует мо дель RuBERT («без TextB»), для которой 1 = 36.8 [1]. Результат согласий в разметке экспертами также достаточно низкий 1 = 55.0, но в то же время значительно превышает качество разметки автоматически ми методами. Следует отметить, что в смежной задаче [Eunsol Choi и др., Document-level sentiment inference with social, faction, and discourse context, 2016] авторы работали с документами на английском языке гораздо мень шего объема и сообщают о F-мере 0.36.
Третья глава посвящена исследованию опосредованного обучения моделей в задаче извлечения оценочных отношений. Приводится структура фреймовой базы знаний RuSentiFrames-2.0 [10]. Разработан метод автома тического извлечения оценочных отношений из новостей с использованием коллекции базы знаний в анализе новостных заголовков.
Формальная постановка задачи. Пусть имеется коллекция разме
ченных аналитических статей . Под размеченной аналитической статьей
понимается ⟨ , , a ⟩, где – текст аналитической статьи, – список
упомянутых именованных сущностей, a – список оценочных отношений.
Пусть имеется коллекция новостных документов = { ′ , . . . , ′ }, 1 | |
где | | ≫ | |. Под обучением модели машинного обучения понимается
итеративный процесс оптимизации параметров относительно эталонной
разметки {a }| | с целью минимизации непрерывной функции ошибки. =1
Под опосредованным обучением модели машинного обучения понимается итеративный процесс оптимизации параметров на основе объединения ли бо предобучения с применением алгоритма-посредника – функции, которая для произвольного документа ′ возвращает кортеж из размет ки именованных сущностей и оценочных отношений: ( ′ ) = ⟨ ′ , a ⟩; значение a в процессе опосредованного обучения рассматривается как множество эталонной разметки оценочных отношений документа ′.
9

Таблица 1. Пример описания фрейма «одобрить» в базе знаний RuSentiFrames-2.0
Слоты фрейма «одобрить»
roles polarity
effect state
Описание
A0: тот, кто одобряет A1: то, что одобряется A0→A1, pos
A1→A0, pos
A1, pos
A0, pos
A1, pos
Таблица 2. Количественная характеристика вхождений в RuSentiFrames-2.0
Тип лексической единицы Количество Вхождений фреймов 311 Глаголы 3 239 Существительные 986 Фразы 2 551 Другие 12 Уникальных вхождений 6 788 Всего вхождений 7 034
Таблица 3. Число вхождений отношений базы знаний RuSentiFrames-2.0 по классам
Значения слота «polarity» A0→A1
author→A0
author→A1
pos
2 558 170 92
neg
3 289 1 578 249
Необходимо разработать подход автоматической разметки оценочных отно шений в новостных документах ( ). Применение такого подхода в процессе обучения, ввиду значительного превосходства числа документов новостной коллекции над объемом коллекции , позволит существенно увеличить объем данных для моделей машинного обучения.
Фреймовая база знаний. RuSentiFrames описывает оценки и кон нотации, передаваемые предикатом в устной или номинальной форме. Структура фреймов включает в себя набор специфичных для предикатов ролей и набор характеристик для описания фреймов. Для обозначения ролей семантические аргументы отдельных глаголов нумеруются, начи ная с нуля (подход PropBank). Для конкретного глагола Arg0 – это, как правило, аргумент, демонстрирующий свойства прототипического агента (Agent) [Dowty и др., Thematic proto-roles and argument selection, 1991], в то время как Arg1 это тема (Theme). В основной части коллекции пред ставлены следующие слоты:
– roles – отношение автора текста к указанным участникам;
– polarity – положительная/отрицательная оценка между участни
ками отношений;
– effect – положительный/отрицательный эффект для участников;
– state – положительное/отрицательное психическое состояние участников, связанных с описанной ситуацией.
Пример формата описания фрейма «одобрить» приведен в таблице 1. Фреймы связаны также с семейством слов и выражений (лексических еди ниц), которые имеют одинаковые отношения. Лексические единицы могут быть связаны с оценочным фреймом следующими способами: отдельные слова, идиомы, конструкции глаголов и другие выражения, состоящие из нескольких слов. Для проведения разметки в методе опосредованного обу чения моделей используется только измерение отношения к теме (Theme), переданное прототипным агентом (Agent). В ресурсе RuSentiFrames-2.0 описано 311 фреймов, связанных с 7034 лексическими единицами, среди которых 6788 уникальных, из которых 48% – глаголы, 14% – существитель ные и оставшиеся 38% – словосочетания (см. таблицу 2). Число вхождений отношений по слоту «polarity» приведено в таблице 3.
Используемые ресурсы. Корпус NEWSLarge (8,8 млн. текстов) – состоит из русскоязычных статей и новостей крупных новостных ис точников, специализированных политических сайтов и российских сайтов информационных агентств.
Алгоритм. Подразумевает применение двух подходов обработки новостных текстов: на основе базы знаний RuSentiFrames, списка пар (статистики) на основе новостных заголовков. Диаграмма рабочего про цесса представлена на Рис. 1. В блоке «разбор текста» выполняется разметка термов групп words и tokens в заголовке и предложениях новости. Блок «разметки фреймов» выполняет поиск вхождений фрей мов базы знаний RuSentiFrames. Блок «разметки сущностей» использует предобученную модель BERTMult-OntoNotes (http://docs.deeppavlov.ai/en/0. 11.0/features/models/ner.html) для выделения сущностей типов множества ={GPE, ORG, PER}, где GPE = GEO. Модуль «группировки сущности» решает задачу кореференций именованных сущностей посредством исполь зования: (1) лемматизатора Yandex Mystem, (2) русскоязычного ресурса RuWordNet [Loukachevitch и др., Comparing Two Thesaurus Representations for Russian, 2018] для поиска синонимов существительных. Результатом являются: «коллекция синонимов» и «коллекция размеченных текстов».
Модуль «извлечения отношений» из коллекции размеченных текстов выполняет анализ всех новостных заголовков для составления «списка пар» (Рис. 1). Отношение , извлеченное из новостного заголовка, имеет формат = ⟨ , , , l⟩, где – индекс новости, и – индексы синони мичных групп начала и конца пары; l – назначаемый класс тональности. Отношение передается в список пар, если:
1. Участники и все именованные сущности между ними принадлежат ; и не являются синонимами; упомянута раньше ;
новостная коллекция
фреймовая
база знаний RuSentiFrames
извлечение отношений
список пар
пороговые значения для параметров: ⟨|∆q |, |Aq |⟩
заголовок
и предложения документов
фильтр пар
доверенные пары
фильтр отношений
отношения заголовка
заголовки текстов
пары
разбор текста
термы
разметка фреймов
RuWordNet
термы и фреймы
разметка сущностей
термы, фреймы, сущности
идентификаторы сущностей
заголовок
и предложения новости
вхождения фреймов
синонимы сущ.
группировка сущностей
редактирование списка
именованные сущности
коллекция размеченных текстов
коллекция
с размеченными отношениями
коллекция синонимов
Рис. 1.
Диаграмма рабочего процесса извлечения оценочных отношений из новостных текстов; прямоугольники – предзаданные (желтые) и порождаемые (зеленые) источники информации; кружки – обработчики данных; пунктирные стрелки – интерфейс пользователя
2. Для всех фреймов, входящих между и , определена поляр ность A0→A1 ∈ {pos, neg}; полярность фрейма инвертируется, если перед ним присутствует частица «не» (наиболее частый случай)
3. Отсутствуют предлоги «в» и «на» перед и (такие предлоги в большинстве случаев выражают отношение нахождения где-то; такие отношения не являются оценочными).
Класс тональности l ∈ {pos,neg} пары назначается следующим образом: pos (все фреймы внутри пары имеют pos оценку для A0→A1); neg (иначе). [Kuznetsova и др., Testing rules for a sentiment analysis system, 2013]. Таким образом, для некоторой пары = ⟨ , ⟩, имеем набор связанных отношений = { 1, 2, . . . | |}. Условная вероят ность принадлежности к классу вычисляется по формуле: ( | ) = |{⟨ , , ,l⟩|l = }|/| |. Имея список пар с условной вероятностью оце нок отношения и соответствующей частоты по каждой паре, в модуле «фильтр пар» (Рис. 1) выбираются доверенные пары ( на основе предза данных нижних пороговых значений для: (1) абсолютной разницы |∆ | = | ( |pos) – ( |neg)|; (2) общего числа пар | |. Оценка доверенной пары определяется знаком ∆ , т.е. pos (∆ > 0), либо neg (∆ < 0). Каждая па ра ( ) в множестве доверенных пар ′ представляется в формате триплета: ⟨ , ,∆ ⟩. Параметры | | и |∆ |, а также возможность редактирования коллекции синонимов являются частью человеко-машинного интерфейса (пунктирные стрелки Рис. 1). Человек-оператор также может вручную отобрать доверенные пары, и таким образом управлять процессом авто матической разметки коллекции с этапа «извлечения отношений». Модуль «фильтр отношений» (Рис. 1) завершает процесс обработ ки, выполняя отбор оценочных отношений среди множества достоверных пар. Пара ⟨ , ⟩ считается оценочным отношением, если соответствую щая пара индексов синонимичных групп ⟨ , ⟩ содержится в множестве доверенных пар ′ и оценка ⟨ , ⟩ совпадает с оценочной ориентацией до веренной пары. Дополнительно производится фильтрация предложений, которые содержат хотя бы одну оценочную пару сущностей из заголовка. Разметка нейтральных отношений (опционально) в заголовке и предложениях новости. Пара ⟨ 1, 2⟩ считается нейтральной, если: – сущность 1 упомянута раньше 2 и имеет тип из множества ; – сущность 2 имеет тип LOC и не находится в списке стран/столиц; – участники 1 и 2 не принадлежат одной синонимичной группе, а также отношения ⟨ 1, 2⟩ и ⟨ 2, 1⟩ не являются оценочными. Результатом выполнения модуля фильтрации отношений является «коллекция размеченных отношений» (Рис. 1). Коллекция RuAttitudes-2.0 версии «2017-Large» [1] – результат применения такого рабочего процесса (версии 2.0) к корпусу NEWSLarge с дополнительной разметкой нейтраль ных отношений. Корпуса. Оценка производится при обучении на корпусах RuSentRel и RuAttitudes-2.0 с размеченными нейтральными отношениями. Набор ис пользуемых корпусов зависит от режима обучения модели. Формат проведения опосредованного обучения. Опосредован ное обучение выполняется в следующих форматах: (1) предварительное обучение с последующим дообучением (сверточные и рекуррентные ней ронные сети, BERT), и (2) совместное обучение (сверточные и рекуррент ные нейронные сети). Оценка и анализ результатов. Оценка моделей проводится в рам ках корпуса RuSentRel для экспериментов: (1) two-scale – необходимо определить оценки заведомо известных пар (классы: pos, neg); (2) three scale – необходимо извлечь оценочные отношения из документа (классы: pos, neg, neu). Результат по метрике фиксируется в следующих форма 1− тах: (1) 1 – усредненный показатель в рамках 3-кратной 1− кросс-валидационной проверки (Разбиения проведены с точки зрения со хранения одинакового числа предложений в каждом из них.); (2) 1 – показатель 1− на test множестве. Прирост качества при использо вании опосредованного обучения – отношение результатов, полученных при опосредованном обучении ( 1 ) к результатам моделей, для кото рых применялось обучение с учителем ( 1 ) вычисляется по формуле: ∆( 1) = ( 1 / 1 − 1) · 100. В таблице 4 приводятся результаты по мо делям: (1) сверточных и рекуррентных нейронных сетей, (2) языковых моделей BERT; также приводится статистика прироста качества (∆( 1)) при использовании опосредованного обучения. Сверточные и рекуррентные нейронные сети. В зависимости от фор матов применения коллекции RuAttitudes в обучении, при дообучении Таблица 4. Результаты применения опосредованного обучения для: (1) моделей с кодировщиками на основе сверточных и рекуррентных нейронных сетей, моделей с механизмом внимания (объединенное обучение) (2) моделей BERT (« » – формат TextB предобучения) с дообучением; наилучший Модель CNN CNN PCNN PCNN LSTM LSTM BiLSTM BiLSTM AttCNN AttCNN AttPCNN AttPCNN IAN RuAttitudes-2.0 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 2017-Large — 1 1 1 1 70.0 74.3 32.8 39.6 63.6 65.9 28.7 31.4 69.5 70.5 31.6 39.7 64.4 63.3 29.6 32.5 68.0 75.4 31.6 39.5 61.9 65.3 27.9 31.6 71.2 68.4 32.0 38.8 62.3 71.2 28.6 32.4 66.8 72.7 30.9 39.9 65.0 66.2 27.6 29.7 70.2 67.8 32.2 39.9 64.3 63.3 29.9 32.6 69.1 72.6 30.7 36.7 60.8 63.5 30.8 32.2 66.2 71.2 31.0 37.3 65.7 68.2 27.5 32.3 результат по каждой модели выделен жирным шрифтом Тип коллекции two-scale three-scale IAN Att-BLSTM Att-BLSTM Среднее-Δ( 1) (прирост) Среднее mBERT mBERT mBERT mBERT mBERT mBERT 8.7% 8.9% 63.5 65.9 68.9 67.7 67.0 68.9 69.6 65.2 66.5 65.4 69.4 68.2 67.8 58.4 70.0 69.8 67.8 66.2 69.6 68.2 69.5 66.2 71.0 68.6 68.9 66.4 10.6% 23.4% 28.8 31.8 30.5 31.1 26.9 30.0 30.1 35.5 28.6 33.8 33.6 36.0 29.2 37.0 35.6 35.4 36.8 37.6 34.8 37.0 32.0 35.3 36.8 39.9 29.4 39.6 (NLI + «без TextB ») («без (NLI + TextBQA ) (TextBQA ) (NLI + TextBNLI ) (TextBNLI ) TextB ») RuBERT (NLI + «без TextB») RuBERT («без TextB») RuBERT (NLI + TextBQA ) RuBERT (TextBQA) RuBERT (NLI + TextBNLI ) RuBERT (TextBNLI) SentRuBERT (NLI + «без TextB») SentRuBERT («без TextB») SentRuBERT (NLI + TextBQA ) SentRuBERT (TextBQA) SentRuBERT (NLI + TextBNLI ) SentRuBERT (TextBNLI) Среднее-Δ( 1) (прирост) Среднее 37.9 39.8 34.0 35.2 38.4 41.9 34.3 38.9 39.0 38.0 33.4 32.7 70.0 69.8 69.3 65.5 69.6 64.2 70.2 67.1 70.2 67.7 69.8 67.6 1.8% 3.7% 68.5 65.7 31.6 35.6 13.5% 10% моделей прирост качества варьируется в диапазоне 3-4% и 1.5-3% для two scale и three-scale экспериментов соответственно. При совместном обу чении, показатели прироста увеличиваются в 2 раза (two-scale, прирост 7%) и в 3 и более раза (three-scale, прирост 11% при кросс-валидаци онном разбиении и 23% при фиксированном). Языковые модели. Влияние опосредованного обучения оказывает прирост в 2-5% в (two-scale), 9-13% (three-scale). Преимущество в использовании русскоязычно-ориентиро ванных моделей перед mBERT наблюдается в three-scale эксперименте. Так, при использовании RuBERT прирост качества составил от 10% по 1 и 6-9% по метрике 1 . Применение SentRuBERT улучшает пока затели RuBERT на 6% в опосредованном обучении. SentRuBERT по качеству разметки приближается к нейронным сетям при объединенном формате обучения, задавая при этом более высокие результаты в рам ках кросс-валидационного тестирования (35.6-39.0), что говорит о более стабильном результате нежели при использовании сверточных и рекур рентных нейронных сетей. Анализ влияния опосредованного обучения. Источником кон текстов являются данные множества test (контексты, наибольшее расстоя ние в термах между участниками которых не превышает значения 10 [7; 8]). Для каждого контекста анализ проводится по вхождениям фреймов (frames), вхождениям оценочного лексикона RuSentiLex (sentiment). Для моделей сверточных и рекуррентных нейронных сетей. Анали зируется разница между оценочными и нейтральными отношениями на основе плотности распределения веса группы ( ) для: нейтральных ( n, отмеченные neu) и оценочных ( s, отмеченные pos либо neg) контекстов. Под весом группы термов входного контекста понимается сумма весов термов контекста, принадлежащих . Для определения разницы между s и n применяется статистика на основе теста Колмогорова-Смирнова. Наи большую разницу по всем группам демонстрирует модель Att-BLSTM [8]. Для языковых моделей в анализе участвуют: mBERT, SentRuBERT, и SentRuBERT-NLI (дообученная версия SentRuBERT с применением опосредованного обучения на основе коллекции RuAttitudes-2.0). Среди входных контекстов множества test рассматриваются только такие, ко торые были извлечены дообученной моделью SentRuBERT-NLI . В работе [1] приводится оценка усредненных значений весов внимания по входным контекстам для токенов (п. 3,4 – только контексты, содержащие термы соответствующих групп): (1) класса [CLS], границ последователь ностей [SEP], (2) участников отношений (E /E ), (3) групп frames и внимание к ним от прочих токенов контекста; (4) группы sentiment и внимание к ним от прочих токенов контекста. По результатам следует отметить высокие показатели внимания к токену класса [CLS] на ранних слоях до 31% (mBERT) и выше в случае остальных моделей. При пе реходе от mBERT к SentRuBERT и SentRuBERT-NLI наблюдается увеличение внимания к [SEP] до 29% (слои с 6 по 10), E /E до 12%. Внимание по отношению к термам групп frames и sentiment остальных токенов, в среднем составляет 4-5% и увеличивается на слоях 11-12 до 7-10%; последний показатель вдвое превышает аналогичные показатели модели mBERT. В четвертой главе приводится описание архитектуры программно го комплекса AREkit для извлечения оценочных отношений из документов, а также временная оценка обучения моделей, созданных на основе такого комплекса. Разработанный программный комплекс AREkit (https://github.com/ nicolay-r/AREkit/tree/0.20.5-rc) предоставляет возможности: (1) подготов ки и обработки текстовой информации (выделение контекстов с парами упомянутых именованных сущностей) (2) проведения экспериментов с мо делями машинного обучения в задаче извлечения оценочных отношений между парой упомянутых в тексте сущностей. Программный комплекс со стоит из: (1) набора инструментов для работы с отношениями документа (ядро), (2) модуля запуска экспериментов на основе моделей, (3) модуля реализации моделей на основе библиотеки Tensorflow. Оценка производительности проводилась на сервере с двумя процес сорами Intel Xeon CPU E5-2670 v2 2.50Ггц, 80 Гб ОЗУ (DDR-3), двумя видеоускорителями Nvidia GeForce GTX 1080 Ti. Обучение моделей вы полнялось под ОС Ubuntu 18.0.4 в контейнерах Docker версии 19.03.5. Среди нейронных сетей наилучшие показатели скорости обучения де монстрируют модели с кодировщиком на основе сверточных нейронных сетей. Добавление механизма внимания на основе перцептрона (AttCNN , AttPCNN ) увеличивает время обучения примерно в 10 раз относительно PCNN. Время обучения рекуррентных нейронных сетей увеличивается в 2 раза (LSTM), и в 3-4 раза (BiLSTM) при сравнении с PCNN. Добав ление механизма самовнимания (Att-BLSTM) практически не сказалось на времени обучения модели BiLSTM, что обусловлено вычислительно более простой архитектурой механизма внимания среди прочих [1]. Для языковых моделей во всех форматах обучения на адаптацию русскоязыч ных моделей требуется меньше эпох при одинаковых настройках обучения. Так, замена mBERT на RuBERT или SentRuBERT сокращает время обучения в 3.5 раза [1].

Автоматический анализ тональности, т.е. поиск отношений (позитивных
или негативных) некоторых лиц относительно содержания текста или каких
то его аспектов, является одним из наиболее востребованных приложений
автоматической обработки текстов за последние годы. Значимость такой за
дачи во многом связана с возникновением и развитием социальных сетей,
рекомендационных онлайн сервисов, содержащих огромное количество мнений
пользователей по различным вопросам.
Подходы по извлечению тональности из текста зависят от типа анализи
руемого текста. Наиболее часто методы автоматического анализа тональности
изучаются на основе отзывов пользователей по отношению к товарам и сер
висам. Подобного рода тексты в основном посвящены обсуждению одной
сущности (фильма, книги, ресторана), а мнение передается одним челове
ком – автором отзыва [1—4]. Другим популярным жанром текстов для анализа
тональности являются короткие сообщения в социальных сетях, в частности
сети Twitter [5—7]. Тексты таких сообщений могут требовать очень точного
анализа, но передаваемое мнение также чаще всего относится к одному источ
нику и высказываются по отношению к одной сущности ввиду ограниченной
длины текста сообщения.
Одним из самых сложных жанров документов для анализа тональности
являются новостные и аналитические статьи, в которых обсуждается ситуация
в некоторой области, например, в политике или экономике [8]. В тексте таких
статей мнения передаются различными субъектами, включая отношение одного
или нескольких авторов, а также мнение цитируемых источников. Такие тексты
могут также описывать тональность отношений упомянутых сущностей (напри
мер, государств или политиков) между собой. При этом тональность отношений
между сущностями может не соответствовать тональности отношения к этим
сущностям автора текста.
Например, в контексте «США обвиняет Россию и Китай в игре с де
номинацией валют» автор высказывает мнение, в котором можно выделить
страны-сущности, среди которых «США» проявляет негативное отношение
«России» и «Китаю», в то время как две последние сущности нейтральны по от
ношению друг к другу в рамках рассматриваемого контекста. При этом мнение
автора явным образом не выражено.
Кроме того, новостные и аналитические тексты обычно содержат боль
шое количество именованных сущностей, и лишь небольшое число среди них
является субъектом либо объектом тональности.
Таким образом, правильная идентификация тональности отношений меж
ду сущностями, упоминаемыми в тексте, имеет существенное значение для
анализа тональности текстов. Кроме того, извлечение оценочных отношений
представляет собой отдельную ценность для различных аналитических иссле
дований.
Актуальность темы. Анализ тональности является одной из наиболее
востребованных задач в автоматической обработке текстов, которая состоит
в определении отношения (позитивного или негативного) некоторого лица от
носительно содержания текста или каких-то его аспектов. На практике анализ
тональности подразделяется на множество различных подзадач, таких как опре
деление общей тональности текста или предложения, тональность автора по
отношению к упомянутым сущностям и другие.
Одной из мало исследованных подзадач анализа тональности является
извлечение тональности отношений между сущностями, упомянутыми в тексте
(оценочные отношения). В новостных и аналитических текстах тональность оце
ночных отношений сложным образом коррелирует с другими тональностями,
например, с тональностью отношения автора текста к обсуждаемой тематике.
Таким образом, извлечение оценочных отношений является как подвидом за
дачи анализа тональности, так и задачи извлечения отношений. Актуальными
на настоящий момент методами в решении таких задач являются модели на
основе различных методов машинного обучения, включая классические мето
ды машинного обучения, нейронные сети сверточного и рекуррентного типов, а
также нейронные сети с вниманием, в том числе языковые модели типа BERT.
Основными ограничениями в организации процесса обучения таких методов яв
ляются: общий недостаток разметки и сложность ее ручного выполнения для
составления обучающего корпуса.
Среди отечественных и зарубежных ученых, занимающихся исследовани
ем задачи анализа тональности и применением методов машинного обучения в
такой области, наиболее известными являются: Е. Котельников, О. Кольцова,
P. Turney, D. Zeng, Y. Choi, J. Devlin и др.
Актуальность исследования заключается в том, что на настоящий момент
нет универсальных методик автоматической разметки оценочных отношений,
которые бы позволили увеличить объем обучающих данных. Предложенный
подход по автоматической разметке данных и проведения опосредованного
обучения (от англ. Distant Supervision) на их основе, позволяет повысить эф
фективность моделей нейронных сетей.
Объектом исследования являются комбинированные подходы, включаю
щие базу знаний и нейросетевую модель для извлечения оценочных отношений
из текстов.
Предметом исследования является структура и состав базы знаний для
анализа тональности текстов на русском языке.
Целью диссертационного исследования является разработка методов из
влечения оценочных отношений между именованными сущностями из текстов
средств массовой информации с использованием русскоязычной базы знаний.
Для достижения поставленной цели были решены следующие задачи:
1. Разработать базу знаний для описания структуры тональностей слов
предикатов;
2. Реализовать методы машинного обучения для извлечения оценочных
отношений между именованными сущностями из текстов новостных и
аналитических статей;
3. Реализовать модель и методы порождения автоматически размеченных
оценочных отношений на основе лексико-семантических ресурсов;
4. Реализовать методы извлечения оценочных отношений на основе под
хода опосредованного обучения (от англ. Distant Supervision) и ком
бинированной обучающей выборки, включающей как ручную, так и
автоматическую разметку;
5. Создать программные средства для обработки новостных и аналити
ческих текстов, которые на основе текста статьи порождают список
оценочных отношений между упомянутыми именованными сущностя
ми.
Научная новизна
– Предложена структура фреймовой базы знаний RuSentiFrames для
описания тональностей, ассоциирующихся со словами и выражениями
русского языка, включая тональность отношений между участниками
ситуации, отношение автора к участникам ситуации, позитивные и нега
тивные эффекты, связанные с ситуацией. Такая база знаний описывает
значительно более сложную структуру тональностей, ассоциированных
с словом, в отличие от обычных списков оценочных слов с оценками
тональностей;
– Впервые для русского языка поставлена задача и выполнено исследова
ние методов извлечения тональности отношений между именованными
сущностями, упомянутыми в текстах СМИ;
– Для обучения моделей извлечения оценочных отношений предложен
новый метод автоматического порождения обучающей коллекции на
основе оценочных фреймов нового лексикона RuSentiFrames и исполь
зования структуры новостных текстов. Применение опосредованного
обучения с использованием RuAttitudes-2.0 повысило качество языко
вых моделей BERT на 10-13% по метрике F1, и на 25% при сравнении
с наилучшими результатами остальных моделей на основе оценочных
фреймов нового лексикона RuSentiFrames и структуры новостных тек
стов;
Первая глава посвящена обзору различных задач и методов анализа то
нальности текстов. Рассматриваются методы глубокого обучения в смежных
задачах.
Во второй главе приводится постановка задачи извлечения оценочных
отношений между упомянутыми именованными сущностями на уровне докумен
та. В экспериментах, извлечение оценочных отношений рассматривается как
задача машинного обучения. Используется корпус русскоязычных аналитиче
ских статей RuSentRel с ручной разметкой оценочных отношений на уровне
документов. В качестве базовых подходов, приводятся эксперименты с класси
ческими методами машинного обучения (Naı̈ve Bayes, SVM, Random Forest).
Для сравнения приведены и реализованы архитектуры: (1) сверточных нейрон
ных сетей, адаптированные под извлечение оценочных отношений, (2) вариации
таких архитектур с модулем механизма внимания, и (3) языковые модели се
мейства BERT.
В третьей главе представлены подходы к применению опосредованного
обучения (англ. Distant Supervision) для извлечения оценочных отношений меж
ду именованными сущностями в тексте. Ставится задача разработки алгоритма
автоматической аннотации коллекции новостных документов с целью увеличе
ния обучающей выборки моделей машинного обучения. Основой проведения
оценки в алгоритме стал двухэтапный анализ заголовков на основе коллекции
фреймов RuSentiFrames: (1) для составления списка пар; (2) для извлечения
оценочных отношений с помощью созданного списка и выделенного в нем оце
ночно-достоверных пар. Результаты проведенных экспериментов показывают,
что модели обученные с использованием построенной коллекции превосходят
по качеству модели, для которых применялось только обучение с учителем
(англ. Supervised Learning).
Четвертая глава посвящена архитектурным особенностям программной
реализации базовых инструментов, используемых в задаче извлечения оценоч
ных отношений. Приводятся инструкции по добавлению внешних коллекций и
источников информации, моделей нейронных сетей с реализацией на основе биб
лиотеки Tensorflow. С точки зрения оценки производительности программных
реализаций моделей машинного обучения, проводится сравнительный анализ
скорости обучения нейронных сетей и языковых моделей как в случае обуче
ния с учителем, так и при использовани иопосредованного обучения.
В заключении перечислены основные результаты проделанной работы.
Практическая значимость. Разработаны и исследованы модели из
влечения оценочных отношений, а также методы автоматической обработки
внешних новостных источников информации. Впервые создана и опубликована
большая база контекстов RuAttitudes-2.0 (252 тыс. примеров) с автоматической
разметкой оценочных отношений, что может быть полезным для задач таргети
рованного анализа тональности текстов СМИ. Создан программный комплекс
AREkit для выполнения автоматической разметки коллекции новостей, а также
обучения моделей на основе нейросетевых механизмов для извлечения отно
шений между сущностями в текстах СМИ с возможностью интерактивного
человека-машинного управления.
Методология и методы исследования. В работе применяются методы
обработки и анализа текстовой информации, методы классификации размечен
ной информации, методы объектно-ориентированного программирования для
построения инструмента и проведения работы над поставленной задачей.
Основные положения, выносимые на защиту:
1. Предложена структура фреймовой базы знаний RuSentiFrames для
описания тональностей, ассоциирующихся со словами и выражениями
русского языка, включая тональность отношений между участниками
ситуации, отношение автора к участникам ситуации, позитивные и нега
тивные эффекты, связанные с ситуацией;
2. Предложен и реализован новый метод автоматического порождения
обучающей коллекции для классификации оценочных отношений
по двум и трем классам на основе словаря оценочных фреймов
RuSentiFrames;
3. Программный комплекс AREkit для создания автоматически разме
ченной обучающей коллекции для извлечения оценочных отношений,
с программным интерфейсом для задания настроек пользователем, а
также обучения методов на основе нейронных сетей;
Соответствие научной специальности. Содержание работы соответ
ствует паспорту научной специальности 05.13.11 «Математическое и программ
ное обеспечение вычислительных машин, комплексов и компьютерных сетей»
(технические науки): п.4 «Системы управления базами данных и знаний», п.7
«Человеко-машинные интерфейсы; модели, методы, алгоритмы и программные
средства машинной графики, визуализации, обработки изображений, систем
виртуальной реальности, мультимедийного общения». Сопоставление приведе
но в Таблице 1.
Апробация работы. Основные результаты работы докладывались на:
Международная Конференция «Диалог» (Россия, Москва, РГГУ, 2018) [9];
20-ая Международная Конференция Data Analytics and Management in Data
Intensive Domains (Россия, Москва, МГУ, 2018) [10]; 21-ая Международная Кон
ференция Text-Speech-Dialog (Чехия, Брно, 2020) [11]; 12-ая Международная
Конференция Recent Advances in Natural Language Processing (Болгария, Варна,
2020) [12]; 25-ая Международная Конференция Natural Language & Information
Systems (Германия, Саарбрюккен, 2020) [13]; 10-ая Международная Конферен
ция Web Intelligence, Mining and Semantics (Франция, Биаритц, 2020) [14].
Личный вклад. Автором проведено исследование задачи извлечения
оценочных отношений с выполнением основного объема теоретических и экс
периментальных исследований, изложенных в тексте диссертационной работы.
Разработана программная платформа для исследования и проведения экспе
риментов в предметной области на основе созданных методов. Исследование
задачи извлечения оценочных отношений с применением разработанных мето
дов рассмотрено в работах [10—18]. Лукашевич Н.В. принадлежит постановка
задачи, а также практические рекомендации по исследованию предметной об
Таблица 1.
Сопоставление направлению и результаты исследований, предусмотренных
специальностью 05.13.11
Направление Результат работы
4. Системы управления база Впервые для русского языка поставлена
ми данных и знаний задача и выполнено исследование методов
извлечения тональности отношений между
именованными сущностями, упомянутыми в
текстах СМИ
7. Человеко-машинные ин Предложен и реализован новый метод автома
терфейсы; модели, методы, тического порождения обучающей коллекции
алгоритмы и программные для классификации оценочных отношений по
средства машинной графики, двум и трем классам на основе словаря оценоч
визуализации, обработ ных фреймов RuSentiFrames; человек-опера
ки изображений, систем тор может вручную управлять параметрами
виртуальной реальности, отбора оценочных отношений, и таким об
мультимедийного общения разом управлять процессом автоматической
разметки

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Читать

Помогаем с подготовкой сопроводительных документов

Совместно разработаем индивидуальный план и выберем тему работы Подробнее

Помощь в подготовке к кандидатскому экзамену и допуске к нему Подробнее

Поможем в написании научных статей для публикации в журналах ВАК Подробнее

Структурируем работу и напишем автореферат Подробнее

Хочешь уникальную работу?

Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

Большой опыт работы. Кандидаты химических, биологических, технических, экономических, юридических, философских наук. Участие в НИОКР, Только актуальная литература (пос... Читать все

#Кандидатские #Магистерские

551 Выполненная работа

Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все

Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.

#Кандидатские #Магистерские

33 Выполненных работы

Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно... Читать все

Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно занимаюсь английским языком, уровень владения - Upper-Intermediate.

#Кандидатские #Магистерские

39 Выполненных работ

Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальн... Читать все

Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальных уравнений. Умею быстро и четко выполнять сложные вычислительные работ

#Кандидатские #Магистерские

117 Выполненных работ

Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполня... Читать все

Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполняю уже 30 лет.

#Кандидатские #Магистерские

2271 Выполненная работа

Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все

Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.

#Кандидатские #Магистерские

224 Выполненных работы

Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на... Читать все

Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на продолжение диссертационной работы... Всегда готов помочь! ;)

#Кандидатские #Магистерские

164 Выполненных работы

Помогаю студентам с решением задач по ТОЭ и физике на протяжении 9 лет. Пишу диссертацию на соискание степени кандидата технических наук, имею опыт годовой стажировки ... Читать все

Помогаю студентам с решением задач по ТОЭ и физике на протяжении 9 лет. Пишу диссертацию на соискание степени кандидата технических наук, имею опыт годовой стажировки в одном из крупнейших университетов Германии.

#Кандидатские #Магистерские

9 Выполненных работ

Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал стать... Читать все

#Кандидатские #Магистерские

19 Выполненных работ