Интеллектуальный анализ текстовых данных с rnприменением методов машинного обучения

Кульневич, Алексей Дмитриевич Отделение информационных технологий (ОИТ)
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Данная работа включает себя исследования в области обработки естественного языка. Цель работы – изучение современных методов обработки документов с применением методов машинного обучения в привязке с анализом нефтегазовой отрасли. Конечный результат работы представляет собой систему, позволяющую проводить поиск и анализ по документам.

Введение ………………………………………………………………………………………………….. 13
1 Аналитический модуль …………………………………………………………………………… 15
1.1 Распознавание именованных сущностей ……………………………………………. 15
1.1.1 Подходы ……………………………………………………………………………………. 17
1.1.2 Используемый подход ………………………………………………………………… 23
1.2 Разрешение кореференции ………………………………………………………………… 25
1.2.1 Подходы ……………………………………………………………………………………. 26
1.2.2 Используемый подход ………………………………………………………………… 27
1.3 Автореферирование текста ……………………………………………………………….. 28
1.3.1 Подходы ……………………………………………………………………………………. 29
1.3.2 Используемый подход ………………………………………………………………… 30
1.4 Извлечение ключевых слов ……………………………………………………………….. 32
1.4.1 Подходы ……………………………………………………………………………………. 34
1.4.2 Используемый подход ………………………………………………………………… 37
1.5 Тематическое моделирование ……………………………………………………………. 39
1.5.1 Инструмент BigARTM ……………………………………………………………….. 41
1.5.2 Автоматическая регуляризация тематических моделей с помощью
библиотеки bigARTM…………………………………………………………………………. 44
1.5.3 Реализация работы с моделью ARTM ………………………………………….. 45
1.5.4 Предобработка текста …………………………………………………………………. 45
1.5.5 Создание новой модели ………………………………………………………………. 47
1.5.6 Регуляризаторы и метрики ………………………………………………………….. 47
1.5.7 Предсказание топиков нового документа …………………………………….. 48
2 Сервис …………………………………………………………………………………………………… 51
2.3 Описание требований к сервису ………………………………………………………… 51
2.3.1 Функциональные требования ………………………………………………………. 52
2.3.2 Администрирование и управление доступом………………………………… 53
2.3.3 Нефункциональные требования …………………………………………………… 53
2.4 Обзор технического решения …………………………………………………………….. 53
2.4.1 Frontend ……………………………………………………………………………………… 54
2.4.2 Backend ……………………………………………………………………………………… 54
2.4.3 Elasticsearch ……………………………………………………………………………….. 54
2.5 Описание веб-сервиса ……………………………………………………………………….. 55
2.5.1 Аутентификация и авторизация …………………………………………………… 56
2.5.2 Работа с рабочими пространствами ……………………………………………… 63
2.5.3 Работа с документами ………………………………………………………………… 67
3 Финансовый менеджмент, ресурсоэффетивность и ресурсосбережение ……… 75
3.1 Предпроектный анализ ……………………………………………………………………… 75
3.1.1 Потенциальные потребители результатов исследования ……………….. 75
3.1.2 Анализ конкурентных технических решений ……………………………….. 76
3.1.3 Диаграмма Исикавы …………………………………………………………………… 80
3.2 Инициация проекта ………………………………………………………………………….. 81
3.2.1 Цели и результат проекта ……………………………………………………………. 81
3.2.2 Организационная структура проекта ……………………………………………. 82
3.2.3 Ограничения и допущения проекта ……………………………………………… 82
3.3 Планирование проекта ……………………………………………………………………… 83
3.3.1 Структура работ в рамках проекта ………………………………………………. 83
3.3.2 Определение трудоемкости выполнения работ …………………………….. 84
3.4 Бюджет проекта ……………………………………………………………………………….. 89
3.4.1 Расчет амортизации ……………………………………………………………………. 89
3.4.2 Расчет основной заработной платы исполнителей ………………………… 90
3.4.3 Расчет дополнительной заработной платы исполнителей ……………… 91
3.4.4 Расчет итоговой заработной платы исполнителей…………………………. 91
3.4.5 Расчет отчислений во внебюджетные фонды ……………………………….. 92
3.4.6 Расчет накладных расходов ………………………………………………………… 92
3.4.7 Формирование бюджета проекта …………………………………………………. 93
3.5 Реестр рисков проекта ………………………………………………………………………. 93
3.6 Определение экономической эффективности исследования ………………… 94
4 Социальная ответственность …………………………………………………………………… 96
4.1 Введение …………………………………………………………………………………………. 96
4.2 Правовые и организационные вопросы обеспечения безопасности ……… 96
4.3 Профессиональная социальная ответственность …………………………………. 98
4.3.1 Анализ вредных и опасных факторов, которые может создать объект
исследования……………………………………………………………………………………… 98
4.3.2 Микроклимат …………………………………………………………………………….. 99
4.3.3 Шум ………………………………………………………………………………………… 100
4.3.4 Освещенность ………………………………………………………………………….. 101
4.3.5 Психофизиологические факторы ……………………………………………….. 103
4.3.6 Статическое электричество ……………………………………………………….. 104
4.3.7 Электрический ток ……………………………………………………………………. 105
4.4 Экологическая безопасность……………………………………………………………. 106
4.5 Безопасность при чрезвычайных ситуациях ……………………………………… 106
4.5.1 Анализ вероятных чрезвычайных ситуаций ……………………………….. 106
4.5.2 Мероприятия по предотвращению чрезвычайных ситуаций и порядок
действия в случае возникновения чрезвычайных ситуаций. ………………… 107
Заключение …………………………………………………………………………………………….. 108
Список публикаций студента …………………………………………………………………… 110
Список использованных источников ………………………………………………………… 112

Основным направлением данной работы является исследование
современных методов анализа текстовой информации.
Обработка естественных языков включает в себя различные техники
интерпретации человеческого языка, начиная от статистических подходов,
машинного обучения до подходов, основанных на лингвистических правилах
или классических алгоритмических подходов.
В области обработки естественных языков существует определенное
количество библиотек, таких как:
− Spacy; [1]
− NLTK; [2]
− StanfordNLP; [3]
− PyMorphy. [4]
Каждая из библиотек имеет различную встроенную логику, позволяющую
«из коробки» использовать различные инструменты, как например, извлечение
именованных сущностей, получение морфологических признаков слов и т. д.
Большинство инструментов для обработки естественных языков
реализованы именно для английского языка, что является не удобным при
необходимости работы с другими языками. Стоит отметить, что существуют
библиотеки для русского языка, такие как:
− Zamgi; [5]
− Abby Compreno. [6]
Zamgi является одной из первых систем для русского языка, позволяющей
автоматически извлекать именованные сущности. В ней имеются как свои
достоинства, так и недостатки. Данная система имеет обобщающий подход, то
есть основана на стилистике, а не на правилах. Но имеются ограничения –
невозможно извлечь сущности, которые начинаются не с заглавной буквы.
Что касается Abby Compreno – это коммерческий продукт для
ограниченного числа пользователей, проверка качества и функционала которого
достаточна затруднительна в силу данных причин. Основной интерес в данной
работе представляет два аспекта при работе с текстами:
− анализ текста;
− поиск по текстам.
В рамках работы над анализом текста были проанализированы и
реализованы для русского языка следующие задачи:
− извлечение именованных сущностей;
− извлечение кореференции;
− извлечение ключевых слов;
− автореферирование текста;
− тематическое моделирование текстов.
Каждая из задач будет подробно разобрана в дальнейшем. Конечным
результатом данной работы является веб-сервис, который также будет в
дальнейшем полностью описан.
1 АНАЛИТИЧЕСКИЙ МОДУЛЬ

Началом работы стало изучение современных решений в области
обработки текстовых данных с применением современных подходов, в
частности, машинного обучения. После было определено, что данная отрасль на
данный момент находится в достаточно зачаточном состоянии по сравнению,
например, с использованием машинного обучения в задачах
компьютерного зрения.
Далее были изучены основные направления в обработке естественных
языков, в частности:
− разметка последовательностей: извлечение именованных сущностей,
разрешение кореференции, частеречная разметка;
− извлечение ключевой информации: извлечение ключевых фраз и
автореферирование текста;
− тематическое моделирование.
После проведенного исследования в области существующих задач каждого
из направлений, был выделен список задач, требующих решения для реализации
сервиса, позволяющего проводить анализ и поиск текстовой информации с
учетом семантики содержимого.
Качество алгоритмов, где была в наличии ground truth выборка, было
протестировано, как пример, извлечение именованных сущностей было
проверено с помощью f1-оценки.
На основе разработки аналитических алгоритмов для работы с русским
языком, был реализован веб сервис, включающий в себя основные компоненты:
− база данных;
− модуль обработки данных;
− frontend-часть;
− backend-часть.
Следует отметить, что это исследование является стартовой точкой и
требует существенных доработок. В частности, требуется более глубокое
исследование семантического поиска.
Одной из идей по его улучшению является апробирование варианта
векторизации запросов и ответов и возможности их ранжирования на основе
векторной близости. Трудностью по получению устойчивого результата
является невозможность количественно оценить качество алгоритма на данном
этапе развития, поскольку хороший результат в данном случае – это
субъективная оценка.
СПИСОК ПУБЛИКАЦИЙ СТУДЕНТА

1. Закиров А.Р., Кирьянов Е.Л., Буханов Н.В., Белозеров Б.В. (ООО
«Газпромнефть НТЦ»), Кульневич А.Д., Чугунов Р.А. (Компания
«Эконофизика»), Сливкин С.С. (Томский политехнический университет).
Когнитивные технологии исследования информационных массивов для
восстановления неявных знаний и данных.
2. Кульневич А.Д., Радишевский В.Л. Machine learning for natural language
processing tasks // “Distributed Computing and Grid-Technologies in Science and
Education” GRID 2018, Book of Abstracts, Дубна, 10-14 сентября 2018 – С. 139.
3. Радишевский В.Л., Кульневич А.Д. Botnet in PyPy to speed up the work
of the Earley parser // “Distributed Computing and Grid-Technologies in Science and
Education” GRID 2018, Book of Abstracts, Дубна, 10-14 сентября 2018 – С. 139.
4. Кульневич А. Д., Сергеева Н. Д., Чугунов Р. А. Система раннего
детектирования пневмонии на основе методов глубокого обучения // Вестник
Амурского государственного университета. Серия: Естественные и
экономические науки. – 2018. – Вып. 83. – C. 35-40.
5. Kulnevich A. D., Radishevsky V. L., Chugunov R. A., Shevchuk A. A.
Application of russian named entity recognition and coreference resolution in the oil
industry // CEUR Workshop Proceedings. – 2018 – Vol. 2267. – p. 378-382.
6. Radishevsky V. L., Kulnevich A. D., Chugunov R. A., Shevchuk A. A.
Distributed GLR-parser for Natural Languag Processing // CEUR Workshop
Proceedings. – 2018 – Vol. 2267. – p. 374-377.
7. Кульневич А. Д. Введение в нейронные сети //Молодой ученый. – 2017.
– №. 8. – С. 31-36.
8. Сергеева Н. Д., Кульневич А. Д., Чугунов Р. А. Автоматизированная
система учета рабочего времени // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 417-418.
9. Чугунов Р. А., Кульневич А. Д. Разработка информационной системы
поддержки междисциплинарных курсовых проектов // Молодежь и современные
информационные технологии: сборник трудов XVI Международной научно-
практической конференции студентов, аспирантов и молодых ученых, Томск, 3-
7 Декабря 2018. – Томск: ТПУ, 2019 – C. 385-386.
10. Кульневич А. Д., Радишевский В. Л. Интеллектуальный анализ
аэрофотоснимков // Молодежь и современные информационные технологии:
сборник трудов XV Международной научно- практической конференции
студентов, аспирантов и молодых ученых, Томск, 4-7 Декабря 2017. – Томск:
ТПУ, 2018 – C. 77-78.
11. Радишевский В. Л., Кульневич А. Д. Распределенный брокер
сообщений KAFKA для высокоскоростной передачи и агрегации данных //
Молодежь и современные информационные технологии: сборник трудов XV
Международной научно- практической конференции студентов, аспирантов и
молодых ученых, Томск, 4-7 Декабря 2017. – Томск: ТПУ, 2018 – C. 284-285.
12. Кульневич А. Д., Радишевский В. Л. Интеллектуальный анализ
аэрофотоснимков // Молодёжь и современные информационные технологии.
Сборник трудов XV Международной научно-практической конференции
студентов, аспирантов и молодых учёных (4-7 декабря 2017 г). – С. 77-78.
13. Радишевский В. Л., Кульневич А. Д. Распределенный брокер
сообщений KAFKA для высокоскоростной передачи и агрегации данных //
Молодёжь и современные информационные технологии. Сборник трудов XV
Международной научно-практической конференции студентов, аспирантов и
молодых учёных (4-7 декабря 2017 г). – С. 286-287.

1.Industrial-Strength Natural Language Processing in Python. Режим
доступа: https://spacy.io/ [Электронный ресурс].
2.NaturalLanguageToolkitdocumentation.Режимдоступа:
https://www.nltk.org/ [Электронный ресурс].
3.StanfordNLP 0.2.0 – Python NLP Library for Many Human Languages.
Режим доступа: https://stanfordnlp.github.io/stanfordnlp/ [Электронный ресурс].
4.Морфологическийанализаторpymorphy2.Режимдоступа:
https://pymorphy2.readthedocs.io/en/latest/ [Электронный ресурс].
5.Zamgi.Режимдоступа:https://github.com/zamgi
[Электронный ресурс].
6.ABBYY Compreno. Режим доступа: https://www.abbyy.com/ru-
ru/science/technologies/compreno/ [Электронный ресурс].
7.Konkol M. Named Entity Recognition //PhD Study Report/ – 2012. –
P. 29.
8.Rule-based named entity recognition library for Russian language. Режим
доступа: https://github.com/natasha/natasha [Электронный ресурс].
9.Ratnaparkhi A. A Maximum Entropy Model for Part-Of-Speech Tagging
//Conference on Empirical Methods in Natural Language Processing/ – 1996. – P.
133-142.
10.Hochreiter S. The Vanishing Gradient Problem During Learning
Recurrent Neural Nets and Problem Solutions // International Journal of Uncertainty,
Fuzziness and Knowledge-Based Systems/ – 1998. – P. 10.
11.Lee K., He L., Lewis M., Zettlemoyer L. End-to-end Neural Coreference
Resolution //Empirical Methods in Natural Language Processing/ – 2017. –
P. 188-197.
12.Mihalcea R., Tarau P. TextRank: Bringing Order into Texts // Association
for Computational Linguistics/ – 2004. – P. 404-411.
13.Bennani-Smires K., Musat C., Hossmann A., Baerswyl M., Jaggi M.
Simple Unsupervised Keyphrase Extraction using Sentence Embeddings // Association
for Computational Linguistics/ – 2018. – P. 221-229.
14.Воронцов К. В. Обзор вероятностных тематических моделей. Режим
доступа: https://is.gd/almt5W [Электронный ресурс].
15.Vorontsov K., Frei O., Apishev M., Romov P., Dudarenko M. BigARTM:
Open Source Library for Regularized Multimodal Topic Modeling of Large
Collections //Communications in Computer and Information Science/ – 2015. – Vol.
542. – P. 370-381
16.Gormley C., Tong Z. Elasticsearch: The Definitive Guide // O’Reilly
Media/ – 2015. – P. 665.
17.Vue.JS.Режимдоступа:https://ru.vuejs.org/index.html
[Электронный ресурс].
18.Flask. Режим доступа: http://flask.pocoo.org/ [Электронный ресурс].
19.IntroductiontoJSONWebTokens.Режимдоступа:
https://jwt.io/introduction/ [Электронный ресурс].
20.ГОСТ 12.2.032-78 ССБТ. Рабочее место при выполнении работ сидя.
Общие эргономические требования.
21.СанПиН 2.2.4.548–96. Гигиенические требования к микроклимату
производственных помещений.
22.СанПиН 2.2.4/2.1.8.562–96. Шум на рабочих местах, в помещениях
жилых, общественных зданий и на территории застройки.
23.СанПиН 2.2.2/2.4.1340–03. Санитарно-эпидемиологические правила
инормативы«Гигиеническиетребованиякперсональным
электронновычислительным машинам и организации работы».
24.ГОСТ 12.1.009-2009. Система стандартов безопасности труда.
Электробезопасность.
25.ГОСТ12.1.038-82ССБТ.Электробезопасность.Предельно
допустимые уровни напряжений прикосновения и токов.
26.ГОСТ Р 22.3.03-94. Безопасность в ЧС. Защита населения.
Основные положения.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ
    Катерина В. преподаватель, кандидат наук
    4.6 (30 отзывов)
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации... Читать все
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации. Опыт работы 7 лет. Всегда на связи и готова прийти на помощь. Вместе удовлетворим самого требовательного научного руководителя. Возможно полное сопровождение: от статуса студента до получения научной степени.
    #Кандидатские #Магистерские
    47 Выполненных работ
    Татьяна М. кандидат наук
    5 (285 отзывов)
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    #Кандидатские #Магистерские
    495 Выполненных работ
    Евгений А. доктор, профессор
    5 (154 отзыва)
    Более 40 лет занимаюсь преподавательской деятельностью. Специалист в области философии, логики и социальной работы. Кандидатская диссертация - по логике, докторская - ... Читать все
    Более 40 лет занимаюсь преподавательской деятельностью. Специалист в области философии, логики и социальной работы. Кандидатская диссертация - по логике, докторская - по социальной работе.
    #Кандидатские #Магистерские
    260 Выполненных работ
    Елена С. Таганрогский институт управления и экономики Таганрогский...
    4.4 (93 отзыва)
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на напис... Читать все
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на написании курсовых и дипломных работ, а также диссертационных исследований.
    #Кандидатские #Магистерские
    158 Выполненных работ
    Сергей Е. МГУ 2012, физический, выпускник, кандидат наук
    4.9 (5 отзывов)
    Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым напра... Читать все
    Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым направлениям физики, математики, химии и других естественных наук.
    #Кандидатские #Магистерские
    5 Выполненных работ
    Анна С. СФ ПГУ им. М.В. Ломоносова 2004, филологический, преподав...
    4.8 (9 отзывов)
    Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания... Читать все
    Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания и проверки (в качестве преподавателя) контрольных и курсовых работ.
    #Кандидатские #Магистерские
    16 Выполненных работ
    Александр О. Спб государственный университет 1972, мат - мех, преподав...
    4.9 (66 отзывов)
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальн... Читать все
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальных уравнений. Умею быстро и четко выполнять сложные вычислительные работ
    #Кандидатские #Магистерские
    117 Выполненных работ
    Анна К. ТГПУ им.ЛН.Толстого 2010, ФИСиГН, выпускник
    4.6 (30 отзывов)
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помог... Читать все
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помогала студентам, вышедшим на меня по рекомендации.
    #Кандидатские #Магистерские
    37 Выполненных работ

    Другие учебные работы по предмету