Интеллектуальный анализ текстовых данных с rnприменением методов машинного обучения
Данная работа включает себя исследования в области обработки естественного языка. Цель работы – изучение современных методов обработки документов с применением методов машинного обучения в привязке с анализом нефтегазовой отрасли. Конечный результат работы представляет собой систему, позволяющую проводить поиск и анализ по документам.
Введение ………………………………………………………………………………………………….. 13
1 Аналитический модуль …………………………………………………………………………… 15
1.1 Распознавание именованных сущностей ……………………………………………. 15
1.1.1 Подходы ……………………………………………………………………………………. 17
1.1.2 Используемый подход ………………………………………………………………… 23
1.2 Разрешение кореференции ………………………………………………………………… 25
1.2.1 Подходы ……………………………………………………………………………………. 26
1.2.2 Используемый подход ………………………………………………………………… 27
1.3 Автореферирование текста ……………………………………………………………….. 28
1.3.1 Подходы ……………………………………………………………………………………. 29
1.3.2 Используемый подход ………………………………………………………………… 30
1.4 Извлечение ключевых слов ……………………………………………………………….. 32
1.4.1 Подходы ……………………………………………………………………………………. 34
1.4.2 Используемый подход ………………………………………………………………… 37
1.5 Тематическое моделирование ……………………………………………………………. 39
1.5.1 Инструмент BigARTM ……………………………………………………………….. 41
1.5.2 Автоматическая регуляризация тематических моделей с помощью
библиотеки bigARTM…………………………………………………………………………. 44
1.5.3 Реализация работы с моделью ARTM ………………………………………….. 45
1.5.4 Предобработка текста …………………………………………………………………. 45
1.5.5 Создание новой модели ………………………………………………………………. 47
1.5.6 Регуляризаторы и метрики ………………………………………………………….. 47
1.5.7 Предсказание топиков нового документа …………………………………….. 48
2 Сервис …………………………………………………………………………………………………… 51
2.3 Описание требований к сервису ………………………………………………………… 51
2.3.1 Функциональные требования ………………………………………………………. 52
2.3.2 Администрирование и управление доступом………………………………… 53
2.3.3 Нефункциональные требования …………………………………………………… 53
2.4 Обзор технического решения …………………………………………………………….. 53
2.4.1 Frontend ……………………………………………………………………………………… 54
2.4.2 Backend ……………………………………………………………………………………… 54
2.4.3 Elasticsearch ……………………………………………………………………………….. 54
2.5 Описание веб-сервиса ……………………………………………………………………….. 55
2.5.1 Аутентификация и авторизация …………………………………………………… 56
2.5.2 Работа с рабочими пространствами ……………………………………………… 63
2.5.3 Работа с документами ………………………………………………………………… 67
3 Финансовый менеджмент, ресурсоэффетивность и ресурсосбережение ……… 75
3.1 Предпроектный анализ ……………………………………………………………………… 75
3.1.1 Потенциальные потребители результатов исследования ……………….. 75
3.1.2 Анализ конкурентных технических решений ……………………………….. 76
3.1.3 Диаграмма Исикавы …………………………………………………………………… 80
3.2 Инициация проекта ………………………………………………………………………….. 81
3.2.1 Цели и результат проекта ……………………………………………………………. 81
3.2.2 Организационная структура проекта ……………………………………………. 82
3.2.3 Ограничения и допущения проекта ……………………………………………… 82
3.3 Планирование проекта ……………………………………………………………………… 83
3.3.1 Структура работ в рамках проекта ………………………………………………. 83
3.3.2 Определение трудоемкости выполнения работ …………………………….. 84
3.4 Бюджет проекта ……………………………………………………………………………….. 89
3.4.1 Расчет амортизации ……………………………………………………………………. 89
3.4.2 Расчет основной заработной платы исполнителей ………………………… 90
3.4.3 Расчет дополнительной заработной платы исполнителей ……………… 91
3.4.4 Расчет итоговой заработной платы исполнителей…………………………. 91
3.4.5 Расчет отчислений во внебюджетные фонды ……………………………….. 92
3.4.6 Расчет накладных расходов ………………………………………………………… 92
3.4.7 Формирование бюджета проекта …………………………………………………. 93
3.5 Реестр рисков проекта ………………………………………………………………………. 93
3.6 Определение экономической эффективности исследования ………………… 94
4 Социальная ответственность …………………………………………………………………… 96
4.1 Введение …………………………………………………………………………………………. 96
4.2 Правовые и организационные вопросы обеспечения безопасности ……… 96
4.3 Профессиональная социальная ответственность …………………………………. 98
4.3.1 Анализ вредных и опасных факторов, которые может создать объект
исследования……………………………………………………………………………………… 98
4.3.2 Микроклимат …………………………………………………………………………….. 99
4.3.3 Шум ………………………………………………………………………………………… 100
4.3.4 Освещенность ………………………………………………………………………….. 101
4.3.5 Психофизиологические факторы ……………………………………………….. 103
4.3.6 Статическое электричество ……………………………………………………….. 104
4.3.7 Электрический ток ……………………………………………………………………. 105
4.4 Экологическая безопасность……………………………………………………………. 106
4.5 Безопасность при чрезвычайных ситуациях ……………………………………… 106
4.5.1 Анализ вероятных чрезвычайных ситуаций ……………………………….. 106
4.5.2 Мероприятия по предотвращению чрезвычайных ситуаций и порядок
действия в случае возникновения чрезвычайных ситуаций. ………………… 107
Заключение …………………………………………………………………………………………….. 108
Список публикаций студента …………………………………………………………………… 110
Список использованных источников ………………………………………………………… 112
Основным направлением данной работы является исследование
современных методов анализа текстовой информации.
Обработка естественных языков включает в себя различные техники
интерпретации человеческого языка, начиная от статистических подходов,
машинного обучения до подходов, основанных на лингвистических правилах
или классических алгоритмических подходов.
В области обработки естественных языков существует определенное
количество библиотек, таких как:
− Spacy; [1]
− NLTK; [2]
− StanfordNLP; [3]
− PyMorphy. [4]
Каждая из библиотек имеет различную встроенную логику, позволяющую
«из коробки» использовать различные инструменты, как например, извлечение
именованных сущностей, получение морфологических признаков слов и т. д.
Большинство инструментов для обработки естественных языков
реализованы именно для английского языка, что является не удобным при
необходимости работы с другими языками. Стоит отметить, что существуют
библиотеки для русского языка, такие как:
− Zamgi; [5]
− Abby Compreno. [6]
Zamgi является одной из первых систем для русского языка, позволяющей
автоматически извлекать именованные сущности. В ней имеются как свои
достоинства, так и недостатки. Данная система имеет обобщающий подход, то
есть основана на стилистике, а не на правилах. Но имеются ограничения –
невозможно извлечь сущности, которые начинаются не с заглавной буквы.
Что касается Abby Compreno – это коммерческий продукт для
ограниченного числа пользователей, проверка качества и функционала которого
достаточна затруднительна в силу данных причин. Основной интерес в данной
работе представляет два аспекта при работе с текстами:
− анализ текста;
− поиск по текстам.
В рамках работы над анализом текста были проанализированы и
реализованы для русского языка следующие задачи:
− извлечение именованных сущностей;
− извлечение кореференции;
− извлечение ключевых слов;
− автореферирование текста;
− тематическое моделирование текстов.
Каждая из задач будет подробно разобрана в дальнейшем. Конечным
результатом данной работы является веб-сервис, который также будет в
дальнейшем полностью описан.
1 АНАЛИТИЧЕСКИЙ МОДУЛЬ
Началом работы стало изучение современных решений в области
обработки текстовых данных с применением современных подходов, в
частности, машинного обучения. После было определено, что данная отрасль на
данный момент находится в достаточно зачаточном состоянии по сравнению,
например, с использованием машинного обучения в задачах
компьютерного зрения.
Далее были изучены основные направления в обработке естественных
языков, в частности:
− разметка последовательностей: извлечение именованных сущностей,
разрешение кореференции, частеречная разметка;
− извлечение ключевой информации: извлечение ключевых фраз и
автореферирование текста;
− тематическое моделирование.
После проведенного исследования в области существующих задач каждого
из направлений, был выделен список задач, требующих решения для реализации
сервиса, позволяющего проводить анализ и поиск текстовой информации с
учетом семантики содержимого.
Качество алгоритмов, где была в наличии ground truth выборка, было
протестировано, как пример, извлечение именованных сущностей было
проверено с помощью f1-оценки.
На основе разработки аналитических алгоритмов для работы с русским
языком, был реализован веб сервис, включающий в себя основные компоненты:
− база данных;
− модуль обработки данных;
− frontend-часть;
− backend-часть.
Следует отметить, что это исследование является стартовой точкой и
требует существенных доработок. В частности, требуется более глубокое
исследование семантического поиска.
Одной из идей по его улучшению является апробирование варианта
векторизации запросов и ответов и возможности их ранжирования на основе
векторной близости. Трудностью по получению устойчивого результата
является невозможность количественно оценить качество алгоритма на данном
этапе развития, поскольку хороший результат в данном случае – это
субъективная оценка.
СПИСОК ПУБЛИКАЦИЙ СТУДЕНТА
1. Закиров А.Р., Кирьянов Е.Л., Буханов Н.В., Белозеров Б.В. (ООО
«Газпромнефть НТЦ»), Кульневич А.Д., Чугунов Р.А. (Компания
«Эконофизика»), Сливкин С.С. (Томский политехнический университет).
Когнитивные технологии исследования информационных массивов для
восстановления неявных знаний и данных.
2. Кульневич А.Д., Радишевский В.Л. Machine learning for natural language
processing tasks // “Distributed Computing and Grid-Technologies in Science and
Education” GRID 2018, Book of Abstracts, Дубна, 10-14 сентября 2018 – С. 139.
3. Радишевский В.Л., Кульневич А.Д. Botnet in PyPy to speed up the work
of the Earley parser // “Distributed Computing and Grid-Technologies in Science and
Education” GRID 2018, Book of Abstracts, Дубна, 10-14 сентября 2018 – С. 139.
4. Кульневич А. Д., Сергеева Н. Д., Чугунов Р. А. Система раннего
детектирования пневмонии на основе методов глубокого обучения // Вестник
Амурского государственного университета. Серия: Естественные и
экономические науки. – 2018. – Вып. 83. – C. 35-40.
5. Kulnevich A. D., Radishevsky V. L., Chugunov R. A., Shevchuk A. A.
Application of russian named entity recognition and coreference resolution in the oil
industry // CEUR Workshop Proceedings. – 2018 – Vol. 2267. – p. 378-382.
6. Radishevsky V. L., Kulnevich A. D., Chugunov R. A., Shevchuk A. A.
Distributed GLR-parser for Natural Languag Processing // CEUR Workshop
Proceedings. – 2018 – Vol. 2267. – p. 374-377.
7. Кульневич А. Д. Введение в нейронные сети //Молодой ученый. – 2017.
– №. 8. – С. 31-36.
8. Сергеева Н. Д., Кульневич А. Д., Чугунов Р. А. Автоматизированная
система учета рабочего времени // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 417-418.
9. Чугунов Р. А., Кульневич А. Д. Разработка информационной системы
поддержки междисциплинарных курсовых проектов // Молодежь и современные
информационные технологии: сборник трудов XVI Международной научно-
практической конференции студентов, аспирантов и молодых ученых, Томск, 3-
7 Декабря 2018. – Томск: ТПУ, 2019 – C. 385-386.
10. Кульневич А. Д., Радишевский В. Л. Интеллектуальный анализ
аэрофотоснимков // Молодежь и современные информационные технологии:
сборник трудов XV Международной научно- практической конференции
студентов, аспирантов и молодых ученых, Томск, 4-7 Декабря 2017. – Томск:
ТПУ, 2018 – C. 77-78.
11. Радишевский В. Л., Кульневич А. Д. Распределенный брокер
сообщений KAFKA для высокоскоростной передачи и агрегации данных //
Молодежь и современные информационные технологии: сборник трудов XV
Международной научно- практической конференции студентов, аспирантов и
молодых ученых, Томск, 4-7 Декабря 2017. – Томск: ТПУ, 2018 – C. 284-285.
12. Кульневич А. Д., Радишевский В. Л. Интеллектуальный анализ
аэрофотоснимков // Молодёжь и современные информационные технологии.
Сборник трудов XV Международной научно-практической конференции
студентов, аспирантов и молодых учёных (4-7 декабря 2017 г). – С. 77-78.
13. Радишевский В. Л., Кульневич А. Д. Распределенный брокер
сообщений KAFKA для высокоскоростной передачи и агрегации данных //
Молодёжь и современные информационные технологии. Сборник трудов XV
Международной научно-практической конференции студентов, аспирантов и
молодых учёных (4-7 декабря 2017 г). – С. 286-287.
1.Industrial-Strength Natural Language Processing in Python. Режим
доступа: https://spacy.io/ [Электронный ресурс].
2.NaturalLanguageToolkitdocumentation.Режимдоступа:
https://www.nltk.org/ [Электронный ресурс].
3.StanfordNLP 0.2.0 – Python NLP Library for Many Human Languages.
Режим доступа: https://stanfordnlp.github.io/stanfordnlp/ [Электронный ресурс].
4.Морфологическийанализаторpymorphy2.Режимдоступа:
https://pymorphy2.readthedocs.io/en/latest/ [Электронный ресурс].
5.Zamgi.Режимдоступа:https://github.com/zamgi
[Электронный ресурс].
6.ABBYY Compreno. Режим доступа: https://www.abbyy.com/ru-
ru/science/technologies/compreno/ [Электронный ресурс].
7.Konkol M. Named Entity Recognition //PhD Study Report/ – 2012. –
P. 29.
8.Rule-based named entity recognition library for Russian language. Режим
доступа: https://github.com/natasha/natasha [Электронный ресурс].
9.Ratnaparkhi A. A Maximum Entropy Model for Part-Of-Speech Tagging
//Conference on Empirical Methods in Natural Language Processing/ – 1996. – P.
133-142.
10.Hochreiter S. The Vanishing Gradient Problem During Learning
Recurrent Neural Nets and Problem Solutions // International Journal of Uncertainty,
Fuzziness and Knowledge-Based Systems/ – 1998. – P. 10.
11.Lee K., He L., Lewis M., Zettlemoyer L. End-to-end Neural Coreference
Resolution //Empirical Methods in Natural Language Processing/ – 2017. –
P. 188-197.
12.Mihalcea R., Tarau P. TextRank: Bringing Order into Texts // Association
for Computational Linguistics/ – 2004. – P. 404-411.
13.Bennani-Smires K., Musat C., Hossmann A., Baerswyl M., Jaggi M.
Simple Unsupervised Keyphrase Extraction using Sentence Embeddings // Association
for Computational Linguistics/ – 2018. – P. 221-229.
14.Воронцов К. В. Обзор вероятностных тематических моделей. Режим
доступа: https://is.gd/almt5W [Электронный ресурс].
15.Vorontsov K., Frei O., Apishev M., Romov P., Dudarenko M. BigARTM:
Open Source Library for Regularized Multimodal Topic Modeling of Large
Collections //Communications in Computer and Information Science/ – 2015. – Vol.
542. – P. 370-381
16.Gormley C., Tong Z. Elasticsearch: The Definitive Guide // O’Reilly
Media/ – 2015. – P. 665.
17.Vue.JS.Режимдоступа:https://ru.vuejs.org/index.html
[Электронный ресурс].
18.Flask. Режим доступа: http://flask.pocoo.org/ [Электронный ресурс].
19.IntroductiontoJSONWebTokens.Режимдоступа:
https://jwt.io/introduction/ [Электронный ресурс].
20.ГОСТ 12.2.032-78 ССБТ. Рабочее место при выполнении работ сидя.
Общие эргономические требования.
21.СанПиН 2.2.4.548–96. Гигиенические требования к микроклимату
производственных помещений.
22.СанПиН 2.2.4/2.1.8.562–96. Шум на рабочих местах, в помещениях
жилых, общественных зданий и на территории застройки.
23.СанПиН 2.2.2/2.4.1340–03. Санитарно-эпидемиологические правила
инормативы«Гигиеническиетребованиякперсональным
электронновычислительным машинам и организации работы».
24.ГОСТ 12.1.009-2009. Система стандартов безопасности труда.
Электробезопасность.
25.ГОСТ12.1.038-82ССБТ.Электробезопасность.Предельно
допустимые уровни напряжений прикосновения и токов.
26.ГОСТ Р 22.3.03-94. Безопасность в ЧС. Защита населения.
Основные положения.
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!