Оглавление
Введение ………………………………………………………………………………………………..4
Глава 1. Задача извлечения именованных сущностей и отношений между ними, обзор методов и подходов …………………………………………………………………………………..11
1.1. Извлечение именованных сущностей……………………………………………………….11 1.1.1. Описание задачи………………………………………………………………………..11 1.1.2. Методы и подходы к решению задачи извлечения именованных сущностей………12 1.1.3. Методы и подходы к решению задачи извлечения научных терминов……………..15
1.2. Извлечение и классификация семантических отношений …………………………………17 1.2.1. Описание задачи извлечения и классификации отношений …………………………17 1.2.2. Методы и подходы к решению задачи ………………………………………………..18
1.3 Задача одновременного извлечения именованных сущностей и отношений……………..21 1.3.1 Описание задачи…………………………………………………………………………21 1.3.2 Методы и подходы к решению задачи …………………………………………………22
1.4. Задача связывания сущностей ………………………………………………………………24 1.4.1. Описание задачи связывания сущностей……………………………………………..24 1.4.2. Методы и подходы к решению задачи связывания сущностей………………………24
Глава 2. Корпуса для решения поставленных задач ……………………………………………27
2.1 Существующие размеченные корпуса ………………………………………………………27 2.2. Создание корпуса RuSERRC…………………………………………………………………28 2.2.1. Состав корпуса …………………………………………………………………………28 2.2.2. Описание разметки научных терминов……………………………………………….29 2.2.3. Описание разметки отношений между научными терминами ………………………32 2.2.4 Описание разметки связывания сущностей……………………………………………37 2.3 Выводы…………………………………………………………………………………………39
Глава 3. Извлечение научных терминов ………………………………………………………….41
3.1 Формальная постановка задачи ………………………………………………………………41
3.2 Описание методов …………………………………………………………………………….41 3.2.1 Метод на основе словаря ……………………………………………………………….41 3.2.2 Метод RAKE …………………………………………………………………………….44 3.2.3 Метод на основе машинного обучения ……………………………………………….45 3.2.4 Метод на основе слабо контролируемого обучения (weak supervision)……………..47
3.3 Описание результатов …………………………………………………………………………50 3.3.1 Метрики …………………………………………………………………………………50 3.3.2 Результаты……………………………………………………………………………….51
3.4 Применение модели к текстам другой области знаний …………………………………….54
3.5 Выводы ………………………………………………………………………………………..57
Глава 4. Извлечение и классификация отношений между научными терминами………….58
4.1 Формальная постановка задачи ………………………………………………………………58
4.2 Классификация отношений …………………………………………………………………..58
4.3 Извлечение отношений……………………………………………………………………….60
4.3.1 Использование модели классификации отношений ………………………………….61 4.3.2 Подход, основанный на лексических шаблонах………………………………………61 4.3.3 Подход, основанный на zero-shot learning …………………………………………….62 4.3.4 Ансамбль решений………………………………………………………………………62
4.4 Описание результатов …………………………………………………………………………63 4.4.1 Метрики …………………………………………………………………………………63 4.4.2 Результаты……………………………………………………………………………….64
4.4.2.1 Результаты для задачи классификации отношений …………………………….64
4.4.2.2 Результаты для задачи извлечения отношений………………………………….65
4.5 Выводы…………………………………………………………………………………………68
Глава 5. Автоматическое связывание сущностей ……………………………………………….69
5.1 Формальная постановка задачи ………………………………………………………………69 5.2. Описание алгоритма …………………………………………………………………………69 5.3 Описание результатов …………………………………………………………………………71
5.3.1 Метрики …………………………………………………………………………………71
5.3.2 Результаты……………………………………………………………………………….73 5.4 Выводы…………………………………………………………………………………………73
Заключение ……………………………………………………………………………………………75 Список сокращений и условных обозначений……………………………………………………77 Список литературы………………………………………………………………………………….79 Приложение 1. Пример разметки корпуса ……………………………………………………….91 Приложение 2. Фрагмент матрицы переходов …………………………………………………..97 Приложение 3. Лексико-синтаксические шаблоны для извлечения отношений ……………99 Приложение 4. Метрики извлечения отношений по сущностям …………………………….102 Приложение 5. Схема работы системы извлечения информации ……………………………105 Приложение 6. Грамоты …………………………………………………………………………..106 Приложение 7. Акты о внедрении ……………………………………………………………….108 Приложение 8. Свидетельство о регистрации программы для ЭВМ ……………………….112

Во введении обосновывается актуальность исследований, проводимых в рамках
данной диссертационной работы, приводится обзор научной литературы по изучаемой
проблеме, формулируется цель, ставятся задачи работы, излагается научная новизна
и практическая значимость представляемой работы.
В первой главе формулируются задачи извлечения сущностей, отношений между
ними, а также связывания сущностей с внешней базой знаний. Приводится обзор
существующих работ для каждой из этих задач. Целью данной главы является анализ
достоинств и недостатков подходов к каждой из обозначенных задач.
Во второй главе проводится анализ существующих размеченных наборов данных
для задачи извлечения сущностей, отношений между ними, а также связывания
сущностей с внешней базой знаний. Описывается процедура разметки корпуса для
поставленных задач: приводится подробная инструкция разметки, процесс, а также
анализ полученного корпуса.
В рамках данной работы, вручную были размечены 80 аннотаций научных статей
по теме “Информационные технологии”.
Всего в 80 размеченных текстах содержатся 11 157 токенов и 2 047 терминов.
Средняя длина термина – 2.43 слова. Самый длинный термин состоит из 11 токенов.
Процент согласия аннотаторов в задаче выделения сущностей составил 51.77%, что
показывает высокую степень субъективности при нахождении слов и фраз,
являющихся терминами, а также при определении точных границ сущностей.
Отношениямеждусущностямивыделялисьтолько вграницах одного
предложения, ограничения на количество отношений, в которые может вступать одна
сущность, не накладывались. Всего в размеченной части корпуса было выделено 604
отношений между сущностями, из них CAUSE – 19, COMPARE – 9, ISA – 95, PARTOF
– 90, SYNONYMS – 22, TOOL – 38, USAGE – 331. Больше половины составляют
отношения использования (54.8%), на втором месте таксономические отношения
(15.7%).
Для разметки данных для задачи связывания сущностей с внешней базой знаний
использовалась информация также и о вложенных терминах. В качестве внешней базы
знаний была выбрана база Викиданные. Всего в корпусе выделено 3386 терминов
(с учётом вложенных сущностей), 1337 из которых удалось связать с сущностями
в Викиданных. Средняя длина связанной сущности – 1,55 токен, минимальная
длина – 1 токен, максимальная – 8 токенов.
В третьей главе дано формальное описание задачи извлечения научных
терминов. Описаны алгоритмы, которые были реализованы в рамках данной
работы: словарный подход, статистический подход, а также подходы, основанные
на использовании алгоритмов глубокого обучения. Предложены метрики для оценки
качества реализованных подходов, а также проведён анализ полученных результатов.
Назовем токеном xi – слово или знак препинания в тексте. Рассмотрим
последовательностьвсехтокенов{
= 0, 1, …, }имножествометок

= { – , – , }, где – – метка для токена, который занимает
первую позицию в термине, – – метка для токена, который занимает вторую
и последующие позиции в термине, – метка для токена, который не входит в состав
термина.
Требуетсяпостроитьклассификатор,которыйпроизвольнойвходной
последовательности токенов ставит в соответствие последовательность меток, т.е.
φ: → .
В качестве базового алгоритма был реализован метод на основе словаря. Его
идея состоит в том, чтобы собрать конечный словарь фраз, которые являются
терминами, а затем искать их во входном тексте. Как правило, метод такого типа
обладает высокой точностью, но низкой полнотой, т.к. учесть разнообразие всех форм
терминов, а также появление новых, невозможно. В рамках работы был собран словарь
из 17252 терминов.
Также были проведены эксперименты с инструментом RAKE, основанном
на статистическом подходе. Rapid automatic keyword extraction (RAKE) – алгоритм,
предназначенный для автоматического извлечения ключевых слов [Rose S. et al., 2010].
Сначала применяется список стоп-слов и разделителей для выделения многословных
терминов. После чего используется статистическая информация: для каждого слова из
ключевых фраз-кандидатов оценивается частота, с которой оно встречается, и
количество связей между этим словом и остальными. На основании этих двух величин
вычисляется вес ключевой фразы, и все фразы сортируются по весам, наиболее
вероятные ключевые фразы получают максимальный вес. Этот алгоритм хорошо
применим к динамическим корпусам документов и к абсолютно новым доменам, при
этом не зависит от языкаи его особенностей.
Затем была проведена серия экспериментов с использованием методов
машинного обучения. Сложность проведения экспериментов с использованием
различных алгоритмов машинного обучения заключается в отсутствии размеченных
данных. Эта проблема была решена следующим образом. Были взяты 1118 полных
текстовнаучныхстатей (включая,аннотацию и основную часть),которые
предварительно были очищены от формул, таблиц, схем и пр., и автоматически
разметили тексты терминами из словаря, описанного в предыдущем разделе. Таким
образом, у нас получился размеченный набор данных, общим объёмом 1992498 токенов
и содержащий 177050 терминов.
Была поставлена гипотеза, что обобщающая способность модели позволит
находить термины в аннотациях текстов, где, предположительно, концентрация
терминов выше, в то время как, модель была обучена на полных текстах статей,
в которых концентрация терминов ниже. Также, таким способом, будут находиться
термины в текстах, которые отсутствовали в исходном словаре.
Были проведены эксперименты с посимвольной нейронной сетью, а также
предложилиитеративныйметоднаосновеслабоконтролируемогообучения
к извлечению терминов (Bert-LSTM и BertForTokenClassification). Идея предложенного
подхода заключается в том, чтобы обучить модель на небольшом количестве
размеченных данных, а затем разметить полученной моделью некоторое количество
новых текстов, добавить их к обучающему множеству и обучить вторую модель.
Для более точного определения границ терминов, были реализованы несколько
эвристик, которые учитывали части речи слов, входящих в состав термина,
и ближайших к термину, а также некоторые другие грамматические характеристики.
Всеподходысравнивалисьдругсдругомпоосновнымметрикам
информационного поиска – точность, полнота, F-мера. Для большей информативности
учитывалось также, была ли найдена сущность полностью или только частично – из-за
того, что определение границ термина является субъективной задачей, это разделение
видится важным. Полученные значения для всех подходов представлены в Таблице 1.

Таблица 1. Полученные результаты для задачи извлечения терминов

Полное совпадениеЧастичное совпадение
Метод
ТочностьПолнотаF1ТочностьПолнотаF1

Словарный подход0.250.170.200.820.340.48

RAKE0.360.280.320.620.630.63

RAKE0.440.350.390.650.570.61
оптимизированный

Нейронная сеть0.190.130.150.820.280.42

Bert-LSTM+
эвристики+0.390.310.350.780.780.77
словарный подход

BertForTokenClassif
ication + эвристики0.400.310.350.770.770.77
+словарный
подход
Полученные результаты показали, что статистический подход с определёнными
улучшениями даёт лучшие значения метрик при определении чётких границ терминов,
в то время как модели, полученные на основе слабо контролируемого обучения,
показывают значительно более высокие результаты, чем остальные методы, и являются
достаточными для применения подхода для решения практических задач.
Также стоит отметить, что все эксперименты проводились на текстах из области
информационных технологий, но реализованные алгоритмы могут быть применимы
и расширены для других областей при наличии только неразмеченных текстов
и начального словаря терминов.
В четвёртой главе дано формальное описание задачи извлечения отношений
между научными терминами. Решена задача классификации отношений в постановке
zero-shot learning. Реализованы алгоритмы для задачи извлечения отношений:
с использованием лексико-синтаксических шаблонов, с использованием модели для
классификации отношений, алгоритмы zero-shot learning с различными подходами
к сэмплированию данных, а также ансамбль указанных решений.
Пусть дано предложение = { 0, 1, …, } ( ≤ ), где – токены. Для его

элементовопределенаоперациясцепления(конкатенации):
= +1 … + (0 ≤ , ≤ ; ≥ 0), )

Такое назовём сущностью.

Рассмотримпарусущностей( , )для ≠ ,имножествометок

= { , , , _ , , , , }.
Требуется построить классификатор, который паре ( , ) сопоставляет метку из ,

т.е. : ( , ) → .

Все отношения, кроме SYNONYMS и NONE, являются асимметричными, т.е. для
остальныхотношенийвыполняетсяусловие:
∀ ∈ { , } ( ⇒ ￢ ).

Для извлечения информации о семантических отношениях была применена
техника zero-shot learning, идея которой заключается в следующем. Сначала
межъязыковую модель дообучают на данных того языка, которые представлены
в достаточном количестве, а затем применяют эту модель к данным малоресурсного
языка без дообучения. В качестве данных для обучения был использован размеченный
корпус на английском языке SciERC.
Анализ результатов показал, что данный метод хорошо работает для задачи
классификации отношений – для заданной пары сущности известно, что они связаны
отношением, и нужно определить тип этого отношения. Модель, которая не видела
примеров нарусском языке, тем не менее,показываетхорошее качество
классификации.
Задача извлечения отношений подразумевает ещё определение того, связана
ли пара сущностей отношением или нет. В качестве базовых алгоритмов был
реализован подход с вручную созданными лексико-синтаксическими шаблонами,
а также использование модели, обученной для задачи классификации отношений,
но отсутствие отношения между сущностями определялось по порогу.
Затем были проведены эксперименты не только с различными моделями,
но также исследовали влияние сэмплирования на качество алгоритма. Очевидно, что
примеров пар сущностей, которые не связаны отношениями, гораздо больше, чем тех,
которые связаны – отсюда возникает дисбаланс классов, который влияет на работу
моделей.Были поставлены эксперименты с двумя способами сэмплирования
обучающих данных для сглаживания этого дисбаланса .
Объединение двух подходов: применение лексико-синтаксических шаблонов
и использование модели в постановке zero-shot learning – позволило повысить качество
данной задачи.
В целом, задача извлечения отношений видится сложной и нуждается
в дальнейшем исследовании, что подтверждают полученные метрики (Таблица 2),
а также анализ результатов работ других исследователей.

Таблица 2. Полученные результаты для задачи извлечения отношений

ПодходF1-microF1-macro

Для оценки качества используются все типы отношений

Лексико-синтаксические шаблоны0.880.23

Для оценки качества используются отношения из SciERC

Использование модели классификации (порог=0.8)0.650.21

Zero-shot learning0.850.23

Ансамбль: лексико-синтаксические шаблоны и
0.860.27
zero-shot learning
В пятой главе дано формальное описание задачи автоматического связывания
сущностей с внешней базой знаний, а также приведен алгоритм, основанный
на эвристическом и статистическом подходе.
Назовём множество сущностей и множество свойств. База
знаний состоит из множества троек вида < >, где
и являются элементами множества , а – элементом
множества .
Назовём токеном xi – слово или знак препинания в тексте. Рассмотрим
{}
последовательность токенов = 1, 2, …, . Сущностью будет называться

подпоследовательность таких токенов, которая представляет собой термин. Тогда
мощность множества , которое содержит в себе сущности Ent, всегда меньше либо
равна мощности множества , включая значение 0.
Задача автоматического связывания сущности состоит в построении такой
функции F, которая бы для каждой сущности из множества ставила бы в соответствие
элемент из множества либо ɛ, где ɛ – отсутствие сущности в заданной базе
знаний:
: −> ⋃ ɛ.
В данной работе в качестве базы знаний используется база знаний Викиданные.
В качестве входных данных алгоритму подается последовательность или
единичный токен, соответствующий термину. Далее выполняются два основных
шага: создание массива кандидатов для связывания и нахождение наиболее подходящей
сущности в полученном множестве кандидатов.
Все сущности – входные и в базе знаний – проходят лемматизацию с помощью
MyStem. Это нужно для более точного поиска совпадений, т.к. русский язык отличается
богатой морфологией и большим количеством словоформ.
На этапе создания массива кандидатов ищется построчное совпадение входной
сущности с сущностями в базе знаний. Кроме того, для более полного формирования
этого списка ищутся не только полное название входной сущности, а также униграммы,
биграммы и триграммы, полученные из её названия.
Этап нахождения релевантной сущности из базы знаний рассматривался как
задачу ранжирования. Чтобы учитывать не только название сущности, но и её контекст,
использовалась дополнительная информация:
1. Для входного упоминания – название сущности, 5 токенов до неё и 5 токенов
после неё (без учёта границ предложений);
2. Для сущности из Викиданных – название сущности, её синонимы и описание.
Каждая сущность (входную и из полученного множества кандидатов) была
представлена в виде вектора , который был получен по формуле:

∑
= =0

, где

– векторное представление для i-ого токена сущности,

– количество токенов в сущности.
Векторные представления были получены с использованием предобученной
модели Fasttext.
Затем полученные для каждого вектора сущности из базы знаний было
рассчитано косинусное расстояние между ним и вектором входного упоминания.
Кандидаты были отранжированы по этому расстоянию, далее кандидат, вектор
которого наиболее близок к вектору входной сущности, считается связанной
сущностью.
Для оценки качества алгоритма использовался ряд метрик.
1.Accuracy – определяется как отношение количества верно связанных
терминов ко всем терминам. Так как нам удалось связать не все термины
в корпусе, информативнее будет разделить эту метрику на две: Accuracy –
принимает во внимание все сущности, и LinkedAccuracy – считается только
на том наборе терминов, для которых нашлась сущность в графе знаний
в корпусе. Таким образом, вычисляется по формуле:

=
, где

– количество верно связанных терминов,
– количество всех терминов в корпусе.

Обозначим количество всех терминов в корпусе, которые
имеют связь с сущностью в Викиданных. Тогда вычисляется
по формуле:

=
, где
– количество верно связанных алгоритмом терминов
среди всех связанных терминов.

2.Среднее количество кандидатов. Эта метрика показывает, насколько
хорошо работает этап генерации кандидатов: если значение относительно мало,
то это означает, что можно улучшить алгоритм, например, также рассматривать
синонимы, переводы, альтернативные написания сущностей и др. Если
значение, наоборот, велико, то это может вызвать сложности при ранжировании
кандидатов. Эта метрика также была разбита на две: –
среднееколичествокандидатовдлявсехсущностей
и – среднее количество кандидатов для набора
терминов, которые удалось связать.

∑| |
=1

, где

– множество полученных кандидатов для сущности.

Обозначим множество сгенерированных кандидатов для всех

терминов,связанныхсВикиданными.Тогдаформуладляметрики
имеет вид:

∑| _ |
=
.

3. Наличие подходящего кандидата в списке, найденном алгоритмом. Данная
метрика считалась только для множества терминов в корпусе, которые имеют
связь с сущностью из графа знаний, и вычислялась по формуле:

=
, где

– это количество сгенерированных списков кандидатов, содержащих
верную сущность.
Полученные значения метрик представлены в Таблице 3.
В заключении сделаны выводы, подведены итоги проведенного исследования,
а также изложены рекомендации и перспективы дальнейшей разработки темы.
Таблица 3. Полученные результаты для задачи связывания сущности

AveragedLinkedAveraged
AccuracyLinkedAccuracyTopCandidates
CandidatesCandidates

0.380.2310.297.380.76

Основные результаты
1. Собран и размечен корпус научных текстов для задач извлечения научных
терминов, извлечения отношений и связывания сущностей с внешней базой
знаний.
2. Исследованы различные методы извлечения терминов из научных текстов:
словарный метод, статистический метод, с использованием машинного
обучения.
3. Предложен подход для извлечения терминов на основе слабоконтролируемого
обучения, идея которого заключается в обучении модели на большом количестве
данных с автоматической разметкой.
4. Адаптирован метод извлечения отношений между терминами, основанный
на переносе обучения моделей с английского языка на русский в постановке
zero-shot learning.
5. Описан алгоритм и реализован метод связывания терминов с сущностями в базе
знаний. Предложен ряд метрик для оценки качества метода, учитывающий
различные аспекты.
6. Разработан программный комплекс для извлечения информации из научных
текстов.

Актуальность темы исследования. В связи с бурным ростом количества данных, в том числе и текстовых, активно развивается область обработки естественных языков. Решение таких задач позволяет более эффективно анализировать информацию для своих целей, экономя силы и время.
В последнее время особый интерес представляет автоматический анализ научных публикаций. Согласно исследованиям, ежегодное количество публикаций с 2008 г. до 2018 г. выросло с 1.8 миллиона до 2.6 миллионов статей [1]. Очень важно следить за трендами и исследованиями в научных статьях, сравнивать предлагаемые методы для тех или иных задач, находить нужную информацию и многое другое. Очевидно, что проделать всю эту работу вручную невозможно, именно поэтому разработка инструментов для текстов научной тематики сегодня является одной из самых актуальных задач.
Стоит отметить, что такие тексты отличаются от остальных особой морфологией и лексикой, а также определёнными синтаксическими и семантическими структурами. Кроме того, тексты научных статей состоят из блоков, которые располагаются в общепринятом порядке: так, например, сначала идёт название статьи, авторы и их аффилиации, затем аннотация статьи; основной текст состоит, как правило, из введения, обзора работ по данной теме, описания предложенного метода, результатов, заключения и списка литературы. Такое деление на блоки упрощает поиск нужной информации не только для человека, но и при автоматической обработке текстов.
Много работ ведётся в области обработки текстов именно научных статей, и решаются абсолютно разные задачи. Например, работа [2] посвящена нахождению терминов, формул, таблиц в тексте статьи и связывании их друг с другом, помогая читателю лучше ориентироваться в таких объектах, не возвращаясь каждый раз к определениям. Активно решается задача автоматического реферирования текстов научных статей [3, 4].
Существует много работ, посвящённых извлечению различной информации из научных текстов: в работе [5] авторы извлекают библиографические данные из текстов статей; в работе [6] авторы предлагают метод для извлечения условий эксперимента; в статье [7] авторы работают над извлечением и нормализацией физических характеристик (критическая температура, давление и пр.); в статье [8] описывается метод извлечения информации о химических процессах и условиях их протекания; в работе [9] предлагается метод извлечения упоминаний наборов данных, которые используются в экспериментах, что может быть
5
полезным для автоматического сравнения метрик на этих корпусах; в работе [10] авторы извлекают изображения из текстов научных статей.
Современные подходы для решения таких задач подразумевают использование алгоритмов машинного обучения. Качество таких алгоритмов напрямую зависит от качества данных, которые используются для их обучения. Для подготовки и разметки данных необходимо наличие специалистов и времени. Поэтому сегодня особенно актуальными являются методы, не требующие большого количества размеченных данных. Здесь можно выделить следующие основные направления:
1. Обучение на неразмеченных данных – это различные методы кластеризации;
2. Использование мультиязычных моделей – идея состоит в том, чтобы взять языковую модель, обученную на текстах разных языков, затем дообучить на данных высокоресурсных языков, а использовать на данных малоресурсных языков. Такой подход применяется при решении задачи машинного перевода [11], различных задачах тэгирования последовательностей (англ. sequence labelling): извлечение именованных сущностей, определение семантических ролей, извлечение аспектов [12], семантического
анализа [13] и др.;
3. Аугментация данных – увеличение количества данных для обучения за счёт изменения
существующих данных. Эта идея пришла из области компьютерного зрения, где в качестве аугментирования данных выступают такие операции над изображениями, как повороты, отражения, кадрирование, внесение шума и др. Примеры работ: [14, 15, 16]. В задачах обработки текстов использование данной методики тоже способно улучшить качество системы. Здесь могут быть использованы такие изменения, как замена синонимов, мена слов местами, добавление опечаток и пр. Примеры работ: [17, 18, 19].
Задача извлечения информации из текстов является не только важной задачей самой
по себе, но также и основным этапом для других задач (например, автоматического реферирования), поэтому требуется высокое качество её решения. Можно сказать, что эта задача хорошо решается для английского языка, что связано с наличием большого количества данных, исследователей, вовлечённых в работу, и пр. Но использовать такие системы для русского языка представляется невозможным, т.к. русский язык имеет свои морфологические и синтаксические особенности, которые должны учитываться при разработке подобных алгоритмов.
Более того, русский язык считается малоресурсным – это означает, что количество данных (не только размеченных, но и неразмеченных) существенно ниже, чем для английского языка.

6
Это тоже вызывает сложности при построении систем для решения любых задач обработки текстов для русского языка.
Эти факты обуславливают актуальность темы исследования. В данной диссертационной работе рассмотрены методы и алгоритмы для решения нескольких задач извлечения информации, которые не требуют большого количества вручную размеченных данных. Полученные результаты показали, что при полном отсутствии вручную размеченных данных возможно разработать систему извлечения информации с достаточным качеством для применения на практике.
Степень разработанности темы исследования. В последнее время наблюдается рост публикаций, посвященных анализу именно научных текстов.
Извлечение научных терминов исследуется в трудах Н.В. Лукашевич, Е.И.Большаковой, Kucza M., Niehues J. и др.
Извлечение отношений в научных текстах является тесно связанной с извлечением терминов и решается такими исследователями, как Hearst M., Huang K., Wang G. и др.
Также в последнее время особое внимание уделяется задаче одновременного извлечения сущностей и отношений между ними, например, в работах Ryuichi T., Tianyang Z., Eberts M., Ulges A. и др.
Объектом исследования являются тексты научных статей на русском языке.
Предметом исследования являются методы автоматического извлечения информации из текстов на естественном языке.
Цель и задачи работы. Целью работы является исследование и разработка методов, применяемых для решения задач извлечения терминов и семантических отношений между ними, а также связывания их с внешней базой знаний, и реализация основных компонентов системы извлечения информации из научных текстов на русском языке.
Требования к предлагаемым алгоритмам:
1. Реализация в условиях недостаточного количества размеченных данных; 2. Независимость от области знаний.
Для достижения поставленной цели были определены следующие задачи:
1. Предложить и реализовать метод извлечения научных терминов, слабо зависящий
от области знаний;
2. Адаптировать метод извлечения отношений между терминами, основанный на переносе
обучения моделей с английского языка на русский в постановке zero-shot learning;

7
3. Описать алгоритм и реализовать метод связывания терминов с сущностями в базе знаний;
4. Разработать методику разметки корпуса текстов на русском языке для обучения и оценки качества алгоритмов и методов;
5. Разработать программный комплекс для извлечения терминов и отношений из научных текстов и связывания терминов с внешней базой знаний.
Соответствие диссертации паспорту научной специальности. Диссертация
соответствует области исследований специальности 05.13.17 – Теоретические основы информатики по п. 5 «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений»; п. 6 «Разработка методов, языков и моделей человеко-машинного общения; разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения данных из текстов на естественном языке»; п. 12 «Разработка математических, логических, семиотических и лингвистических моделей и методов взаимодействия информационных процессов, в том числе на базе специализированных вычислительных систем».
Методы исследования. Методологической основой исследования являются методы компьютерной лингвистики, статистические методы и методы машинного обучения, успешно зарекомендовавшие себя в задачах анализа текстов. Для программной реализации системы использовались методы объектно-ориентированного программирования.
Научная новизна работы заключается в следующем:
1. Предложен новый метод извлечения терминов из научных текстов, основанный
на частичном обучении, который может применяться к текстам разных областей знаний.
2. Разработан и реализован метод извлечения семантических отношений, позволяющий решать задачу в условиях ограниченного количества размеченных данных. Метод основан на технике “обучения без примеров” (zero-shot learning) путем переноса обучения моделей с английского языка на русский и потенциально применим для
широкого круга малоресурсных языков.
3. Разработана методика подготовки и разметки данных. В ходе исследования подготовлен
корпус текстов на русском языке, который содержит трехуровневую разметку и служит основой для обучения и оценки качества современных автоматических методов извлечения информации.

8
Теоретическая ценность и практическая значимость состоит в том, что в работе даны формальные описания предлагаемых алгоритмов и методов. На базе разработанных методов создан программный комплекс для извлечения информации из научных текстов на русском языке. Разработанные методы, алгоритмы и программное обеспечение могут применяться для построения систем машинного понимания текста, систем автоматической обработки текста, информационно-поисковых систем и других информационных систем, основанных на знаниях. Предложенные методы могут быть легко адаптированы к текстам других областей знаний.
Полученная система использовалась в работе, которая ведётся в рамках проекта РФФИ No 19-07-01134 А «Создание моделей, методов и программных средств анализа текстов на естественном языке для использования в интеллектуальных информационных системах», а также поддержаны стипендией Правительства Российской Федерации для студентов высшего профессионального образования и аспирантов, обучающихся по имеющим государственную аккредитацию образовательным программам, соответствующим приоритетным направлениям модернизации и технологического развития экономики России.
Получено свидетельство о государственной регистрации программы для ЭВМ No20216111340 от 26.01.2021.
Основные положения, выносимые на защиту:
1. Разработана методика подготовки и разметки данных для задач извлечения терминов,
отношений и связывания сущностей с элементами Wikidata. С помощью этой методики подготовлен корпус. Показана значимость данного корпуса для исследовательских целей. В частности, он может служить основой для обучения и оценки качества современных автоматических методов извлечения информации.
2. Предложен новый метод извлечения терминов из научных статей. Метод основан на частичном обучении и не зависит от области знаний и жанра текстов.
3. Адаптирован метод извлечения семантических отношений, основанный на технике “обучения без примеров” (zero-shot learning). Показано, что метод переноса обучения моделей с английского языка на русский хорошо работает для задачи классификации отношений.
4. Реализован алгоритм автоматического связывания научных терминов с сущностями в базе знаний Wikidata. Предложен ряд метрик для оценки качества метода, учитывающих различные аспекты. Описанные метрики показали сильные и слабые стороны реализованного алгоритма.

9
Достоверность результатов. Все
экспериментами, проведенными в соответствии с общепринятыми стандартами.
Апробация результатов исследования. Основные результаты работы докладывались на следующих конференциях:
1. XXIII “Data analytics and management in data intensive domains” conference (DAMDID), Россия, Москва, 2021;
2. XXII Всероссийская конференция молодых учёных по математическому моделированию и информационным технологиям, Россия, Новосибирск, 2021;
3. Science and Artificial Intelligence conference (SAIC-2020), Россия, Новосибирск, 2020;
4. Международная научно-техническая конференция “Автоматизация” (RusAutoCon),
Россия, Сочи, 2018;
5. 12-ая международная научно-практическая конференция «Виртуальные
и интеллектуальные системы – ВИС-2017», Россия, Барнаул, 2017;
6. International Conference on Analysis of Images, Social Networks and Texts 2016 (AIST 2016),
Россия, Екатеринбург, 2016.
Кроме того, результаты исследования обсуждались на ряде регулярных семинаров
в Институте систем информатики им. А.П. Ершова СО РАН, Федеральном исследовательском центре информационных и вычислительных технологий, Новосибирском государственном университете.
Публикации. Основные результаты диссертации опубликованы в 10 научных статьях, из них: 3 в журналах из перечня ВАК РФ, 3 в изданиях, индексируемых Scopus; докладывались автором на 6 международных научных конференциях (Москва, Екатеринбург, Барнаул, Сочи, Новосибирск).
Получено 1 свидетельство о государственной регистрации программ для ЭВМ.
Основные результаты диссертации содержатся в работах [95-105].
Личный вклад соискателя. Содержание диссертации и основные положения, выносимые
на защиту, отражают персональный вклад автора в опубликованные работы. Все представленные в диссертации результаты получены лично автором.
Объём и структура диссертационной работы. Диссертация состоит из введения, пяти глав, заключения и 8 приложений. Полный объем диссертации составляет 112 страниц, включая 7 рисунков и 22 таблицы. Список литературы содержит 105 наименований.
Содержание работы. Во введении обосновывается актуальность исследований, проводимых в рамках данной диссертационной работы, приводится обзор научной литературы
полученные результаты подтверждаются по изучаемой проблеме, формулируется цель, ставятся задачи работы, излагается научная новизна и практическая значимость представляемой работы.
В первой главе формулируются задачи извлечения сущностей, отношений между ними, а также связывания сущностей с внешней базой знаний. Приводится обзор существующих работ для каждой из этих задач.
Во второй главе проводится анализ существующих размеченных наборов данных для задачи извлечения сущностей и отношений между ними. Описывается процедура разметки корпуса для поставленных задач: приводится подробная инструкция разметки, процесс, а также анализ полученного корпуса.
В третьей главе дано формальное описание задачи извлечения научных терминов. Описаны алгоритмы, которые были реализованы в рамках данной работы: словарный подход, статистический подход, а также подходы, основанные на использовании алгоритмов глубокого обучения. Предложены метрики для оценки качества реализованных подходов, а также проведён анализ полученных результатов.
В четвёртой главе дано формальное описание задачи извлечения отношений между научными терминами. Решена задача классификации отношений в постановке zero-shot learning. Реализованы алгоритмы для задачи извлечения отношений: с использованием лексико-синтаксических шаблонов, с использованием модели для классификации отношений, а также алгоритмы zero-shot learning с различными подходами к сэмплированию данных.
В пятой главе дано формальное описание задачи автоматического связывания сущностей с внешней базой знаний, а также реализован алгоритм, основанный на эвристическом и статистическом подходе.
В заключении сделаны выводы, подведены итоги проведенного исследования, а также изложены рекомендации и перспективы дальнейшей разработки темы.
В приложениях приведён пример разметки корпуса, создание которого описано в данной работе; фрагмент матрицы переходов для конечного автомата, который используется в рамках словарного подхода для извлечения научных терминов; лексико-синтаксические шаблоны для определения типа отношений одним из методов; метрики извлечения отношений для отдельных классов; схема работы системы извлечения информации, а также грамоты, акты о внедрении и свидетельство о государственной регистрации ПО.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Помогаем с подготовкой сопроводительных документов

Совместно разработаем индивидуальный план и выберем тему работы Подробнее

Помощь в подготовке к кандидатскому экзамену и допуске к нему Подробнее

Поможем в написании научных статей для публикации в журналах ВАК Подробнее

Структурируем работу и напишем автореферат Подробнее

Хочешь уникальную работу?

Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

Возможно выполнение работ по правоведению и политологии. Имею высшее образование менеджера ВЭД и правоведа, защитила кандидатскую и докторскую диссертации по политоло... Читать все

Возможно выполнение работ по правоведению и политологии. Имею высшее образование менеджера ВЭД и правоведа, защитила кандидатскую и докторскую диссертации по политологии.

#Кандидатские #Магистерские

68 Выполненных работ

Помогаю студентам с решением задач по ТОЭ и физике на протяжении 9 лет. Пишу диссертацию на соискание степени кандидата технических наук, имею опыт годовой стажировки ... Читать все

Помогаю студентам с решением задач по ТОЭ и физике на протяжении 9 лет. Пишу диссертацию на соискание степени кандидата технических наук, имею опыт годовой стажировки в одном из крупнейших университетов Германии.

#Кандидатские #Магистерские

9 Выполненных работ

Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных... Читать все

Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных исследований, связанных с журналистикой, филологией и литературой

#Кандидатские #Магистерские

33 Выполненных работы

Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссерт... Читать все

Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссертационное исследование, которое сейчас находится на рассмотрении в совете.

#Кандидатские #Магистерские

18 Выполненных работ

Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым напра... Читать все

Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым направлениям физики, математики, химии и других естественных наук.

#Кандидатские #Магистерские

5 Выполненных работ

Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных ко... Читать все

Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных компаниях, сейчас работаю редактором. Готова помогать вам с учёбой!

#Кандидатские #Магистерские

50 Выполненных работ

Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все

Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.

#Кандидатские #Магистерские

0 Выполненных работ

Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал стать... Читать все

#Кандидатские #Магистерские

19 Выполненных работ

Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания... Читать все

Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания и проверки (в качестве преподавателя) контрольных и курсовых работ.

#Кандидатские #Магистерские

16 Выполненных работ