Интеллектуальный анализ текстовых данных с rnприменением методов машинного обучения

Кульневич, Алексей Дмитриевич Отделение информационных технологий (ОИТ)
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Данная работа включает себя исследования в области обработки естественного языка. Цель работы – изучение современных методов обработки документов с применением методов машинного обучения в привязке с анализом нефтегазовой отрасли. Конечный результат работы представляет собой систему, позволяющую проводить поиск и анализ по документам.

Введение ………………………………………………………………………………………………….. 13
1 Аналитический модуль …………………………………………………………………………… 15
1.1 Распознавание именованных сущностей ……………………………………………. 15
1.1.1 Подходы ……………………………………………………………………………………. 17
1.1.2 Используемый подход ………………………………………………………………… 23
1.2 Разрешение кореференции ………………………………………………………………… 25
1.2.1 Подходы ……………………………………………………………………………………. 26
1.2.2 Используемый подход ………………………………………………………………… 27
1.3 Автореферирование текста ……………………………………………………………….. 28
1.3.1 Подходы ……………………………………………………………………………………. 29
1.3.2 Используемый подход ………………………………………………………………… 30
1.4 Извлечение ключевых слов ……………………………………………………………….. 32
1.4.1 Подходы ……………………………………………………………………………………. 34
1.4.2 Используемый подход ………………………………………………………………… 37
1.5 Тематическое моделирование ……………………………………………………………. 39
1.5.1 Инструмент BigARTM ……………………………………………………………….. 41
1.5.2 Автоматическая регуляризация тематических моделей с помощью
библиотеки bigARTM…………………………………………………………………………. 44
1.5.3 Реализация работы с моделью ARTM ………………………………………….. 45
1.5.4 Предобработка текста …………………………………………………………………. 45
1.5.5 Создание новой модели ………………………………………………………………. 47
1.5.6 Регуляризаторы и метрики ………………………………………………………….. 47
1.5.7 Предсказание топиков нового документа …………………………………….. 48
2 Сервис …………………………………………………………………………………………………… 51
2.3 Описание требований к сервису ………………………………………………………… 51
2.3.1 Функциональные требования ………………………………………………………. 52
2.3.2 Администрирование и управление доступом………………………………… 53
2.3.3 Нефункциональные требования …………………………………………………… 53
2.4 Обзор технического решения …………………………………………………………….. 53
2.4.1 Frontend ……………………………………………………………………………………… 54
2.4.2 Backend ……………………………………………………………………………………… 54
2.4.3 Elasticsearch ……………………………………………………………………………….. 54
2.5 Описание веб-сервиса ……………………………………………………………………….. 55
2.5.1 Аутентификация и авторизация …………………………………………………… 56
2.5.2 Работа с рабочими пространствами ……………………………………………… 63
2.5.3 Работа с документами ………………………………………………………………… 67
3 Финансовый менеджмент, ресурсоэффетивность и ресурсосбережение ……… 75
3.1 Предпроектный анализ ……………………………………………………………………… 75
3.1.1 Потенциальные потребители результатов исследования ……………….. 75
3.1.2 Анализ конкурентных технических решений ……………………………….. 76
3.1.3 Диаграмма Исикавы …………………………………………………………………… 80
3.2 Инициация проекта ………………………………………………………………………….. 81
3.2.1 Цели и результат проекта ……………………………………………………………. 81
3.2.2 Организационная структура проекта ……………………………………………. 82
3.2.3 Ограничения и допущения проекта ……………………………………………… 82
3.3 Планирование проекта ……………………………………………………………………… 83
3.3.1 Структура работ в рамках проекта ………………………………………………. 83
3.3.2 Определение трудоемкости выполнения работ …………………………….. 84
3.4 Бюджет проекта ……………………………………………………………………………….. 89
3.4.1 Расчет амортизации ……………………………………………………………………. 89
3.4.2 Расчет основной заработной платы исполнителей ………………………… 90
3.4.3 Расчет дополнительной заработной платы исполнителей ……………… 91
3.4.4 Расчет итоговой заработной платы исполнителей…………………………. 91
3.4.5 Расчет отчислений во внебюджетные фонды ……………………………….. 92
3.4.6 Расчет накладных расходов ………………………………………………………… 92
3.4.7 Формирование бюджета проекта …………………………………………………. 93
3.5 Реестр рисков проекта ………………………………………………………………………. 93
3.6 Определение экономической эффективности исследования ………………… 94
4 Социальная ответственность …………………………………………………………………… 96
4.1 Введение …………………………………………………………………………………………. 96
4.2 Правовые и организационные вопросы обеспечения безопасности ……… 96
4.3 Профессиональная социальная ответственность …………………………………. 98
4.3.1 Анализ вредных и опасных факторов, которые может создать объект
исследования……………………………………………………………………………………… 98
4.3.2 Микроклимат …………………………………………………………………………….. 99
4.3.3 Шум ………………………………………………………………………………………… 100
4.3.4 Освещенность ………………………………………………………………………….. 101
4.3.5 Психофизиологические факторы ……………………………………………….. 103
4.3.6 Статическое электричество ……………………………………………………….. 104
4.3.7 Электрический ток ……………………………………………………………………. 105
4.4 Экологическая безопасность……………………………………………………………. 106
4.5 Безопасность при чрезвычайных ситуациях ……………………………………… 106
4.5.1 Анализ вероятных чрезвычайных ситуаций ……………………………….. 106
4.5.2 Мероприятия по предотвращению чрезвычайных ситуаций и порядок
действия в случае возникновения чрезвычайных ситуаций. ………………… 107
Заключение …………………………………………………………………………………………….. 108
Список публикаций студента …………………………………………………………………… 110
Список использованных источников ………………………………………………………… 112

Основным направлением данной работы является исследование
современных методов анализа текстовой информации.
Обработка естественных языков включает в себя различные техники
интерпретации человеческого языка, начиная от статистических подходов,
машинного обучения до подходов, основанных на лингвистических правилах
или классических алгоритмических подходов.
В области обработки естественных языков существует определенное
количество библиотек, таких как:
− Spacy; [1]
− NLTK; [2]
− StanfordNLP; [3]
− PyMorphy. [4]
Каждая из библиотек имеет различную встроенную логику, позволяющую
«из коробки» использовать различные инструменты, как например, извлечение
именованных сущностей, получение морфологических признаков слов и т. д.
Большинство инструментов для обработки естественных языков
реализованы именно для английского языка, что является не удобным при
необходимости работы с другими языками. Стоит отметить, что существуют
библиотеки для русского языка, такие как:
− Zamgi; [5]
− Abby Compreno. [6]
Zamgi является одной из первых систем для русского языка, позволяющей
автоматически извлекать именованные сущности. В ней имеются как свои
достоинства, так и недостатки. Данная система имеет обобщающий подход, то
есть основана на стилистике, а не на правилах. Но имеются ограничения –
невозможно извлечь сущности, которые начинаются не с заглавной буквы.
Что касается Abby Compreno – это коммерческий продукт для
ограниченного числа пользователей, проверка качества и функционала которого
достаточна затруднительна в силу данных причин. Основной интерес в данной
работе представляет два аспекта при работе с текстами:
− анализ текста;
− поиск по текстам.
В рамках работы над анализом текста были проанализированы и
реализованы для русского языка следующие задачи:
− извлечение именованных сущностей;
− извлечение кореференции;
− извлечение ключевых слов;
− автореферирование текста;
− тематическое моделирование текстов.
Каждая из задач будет подробно разобрана в дальнейшем. Конечным
результатом данной работы является веб-сервис, который также будет в
дальнейшем полностью описан.
1 АНАЛИТИЧЕСКИЙ МОДУЛЬ

Началом работы стало изучение современных решений в области
обработки текстовых данных с применением современных подходов, в
частности, машинного обучения. После было определено, что данная отрасль на
данный момент находится в достаточно зачаточном состоянии по сравнению,
например, с использованием машинного обучения в задачах
компьютерного зрения.
Далее были изучены основные направления в обработке естественных
языков, в частности:
− разметка последовательностей: извлечение именованных сущностей,
разрешение кореференции, частеречная разметка;
− извлечение ключевой информации: извлечение ключевых фраз и
автореферирование текста;
− тематическое моделирование.
После проведенного исследования в области существующих задач каждого
из направлений, был выделен список задач, требующих решения для реализации
сервиса, позволяющего проводить анализ и поиск текстовой информации с
учетом семантики содержимого.
Качество алгоритмов, где была в наличии ground truth выборка, было
протестировано, как пример, извлечение именованных сущностей было
проверено с помощью f1-оценки.
На основе разработки аналитических алгоритмов для работы с русским
языком, был реализован веб сервис, включающий в себя основные компоненты:
− база данных;
− модуль обработки данных;
− frontend-часть;
− backend-часть.
Следует отметить, что это исследование является стартовой точкой и
требует существенных доработок. В частности, требуется более глубокое
исследование семантического поиска.
Одной из идей по его улучшению является апробирование варианта
векторизации запросов и ответов и возможности их ранжирования на основе
векторной близости. Трудностью по получению устойчивого результата
является невозможность количественно оценить качество алгоритма на данном
этапе развития, поскольку хороший результат в данном случае – это
субъективная оценка.
СПИСОК ПУБЛИКАЦИЙ СТУДЕНТА

1. Закиров А.Р., Кирьянов Е.Л., Буханов Н.В., Белозеров Б.В. (ООО
«Газпромнефть НТЦ»), Кульневич А.Д., Чугунов Р.А. (Компания
«Эконофизика»), Сливкин С.С. (Томский политехнический университет).
Когнитивные технологии исследования информационных массивов для
восстановления неявных знаний и данных.
2. Кульневич А.Д., Радишевский В.Л. Machine learning for natural language
processing tasks // “Distributed Computing and Grid-Technologies in Science and
Education” GRID 2018, Book of Abstracts, Дубна, 10-14 сентября 2018 – С. 139.
3. Радишевский В.Л., Кульневич А.Д. Botnet in PyPy to speed up the work
of the Earley parser // “Distributed Computing and Grid-Technologies in Science and
Education” GRID 2018, Book of Abstracts, Дубна, 10-14 сентября 2018 – С. 139.
4. Кульневич А. Д., Сергеева Н. Д., Чугунов Р. А. Система раннего
детектирования пневмонии на основе методов глубокого обучения // Вестник
Амурского государственного университета. Серия: Естественные и
экономические науки. – 2018. – Вып. 83. – C. 35-40.
5. Kulnevich A. D., Radishevsky V. L., Chugunov R. A., Shevchuk A. A.
Application of russian named entity recognition and coreference resolution in the oil
industry // CEUR Workshop Proceedings. – 2018 – Vol. 2267. – p. 378-382.
6. Radishevsky V. L., Kulnevich A. D., Chugunov R. A., Shevchuk A. A.
Distributed GLR-parser for Natural Languag Processing // CEUR Workshop
Proceedings. – 2018 – Vol. 2267. – p. 374-377.
7. Кульневич А. Д. Введение в нейронные сети //Молодой ученый. – 2017.
– №. 8. – С. 31-36.
8. Сергеева Н. Д., Кульневич А. Д., Чугунов Р. А. Автоматизированная
система учета рабочего времени // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 417-418.
9. Чугунов Р. А., Кульневич А. Д. Разработка информационной системы
поддержки междисциплинарных курсовых проектов // Молодежь и современные
информационные технологии: сборник трудов XVI Международной научно-
практической конференции студентов, аспирантов и молодых ученых, Томск, 3-
7 Декабря 2018. – Томск: ТПУ, 2019 – C. 385-386.
10. Кульневич А. Д., Радишевский В. Л. Интеллектуальный анализ
аэрофотоснимков // Молодежь и современные информационные технологии:
сборник трудов XV Международной научно- практической конференции
студентов, аспирантов и молодых ученых, Томск, 4-7 Декабря 2017. – Томск:
ТПУ, 2018 – C. 77-78.
11. Радишевский В. Л., Кульневич А. Д. Распределенный брокер
сообщений KAFKA для высокоскоростной передачи и агрегации данных //
Молодежь и современные информационные технологии: сборник трудов XV
Международной научно- практической конференции студентов, аспирантов и
молодых ученых, Томск, 4-7 Декабря 2017. – Томск: ТПУ, 2018 – C. 284-285.
12. Кульневич А. Д., Радишевский В. Л. Интеллектуальный анализ
аэрофотоснимков // Молодёжь и современные информационные технологии.
Сборник трудов XV Международной научно-практической конференции
студентов, аспирантов и молодых учёных (4-7 декабря 2017 г). – С. 77-78.
13. Радишевский В. Л., Кульневич А. Д. Распределенный брокер
сообщений KAFKA для высокоскоростной передачи и агрегации данных //
Молодёжь и современные информационные технологии. Сборник трудов XV
Международной научно-практической конференции студентов, аспирантов и
молодых учёных (4-7 декабря 2017 г). – С. 286-287.

1.Industrial-Strength Natural Language Processing in Python. Режим
доступа: https://spacy.io/ [Электронный ресурс].
2.NaturalLanguageToolkitdocumentation.Режимдоступа:
https://www.nltk.org/ [Электронный ресурс].
3.StanfordNLP 0.2.0 – Python NLP Library for Many Human Languages.
Режим доступа: https://stanfordnlp.github.io/stanfordnlp/ [Электронный ресурс].
4.Морфологическийанализаторpymorphy2.Режимдоступа:
https://pymorphy2.readthedocs.io/en/latest/ [Электронный ресурс].
5.Zamgi.Режимдоступа:https://github.com/zamgi
[Электронный ресурс].
6.ABBYY Compreno. Режим доступа: https://www.abbyy.com/ru-
ru/science/technologies/compreno/ [Электронный ресурс].
7.Konkol M. Named Entity Recognition //PhD Study Report/ – 2012. –
P. 29.
8.Rule-based named entity recognition library for Russian language. Режим
доступа: https://github.com/natasha/natasha [Электронный ресурс].
9.Ratnaparkhi A. A Maximum Entropy Model for Part-Of-Speech Tagging
//Conference on Empirical Methods in Natural Language Processing/ – 1996. – P.
133-142.
10.Hochreiter S. The Vanishing Gradient Problem During Learning
Recurrent Neural Nets and Problem Solutions // International Journal of Uncertainty,
Fuzziness and Knowledge-Based Systems/ – 1998. – P. 10.
11.Lee K., He L., Lewis M., Zettlemoyer L. End-to-end Neural Coreference
Resolution //Empirical Methods in Natural Language Processing/ – 2017. –
P. 188-197.
12.Mihalcea R., Tarau P. TextRank: Bringing Order into Texts // Association
for Computational Linguistics/ – 2004. – P. 404-411.
13.Bennani-Smires K., Musat C., Hossmann A., Baerswyl M., Jaggi M.
Simple Unsupervised Keyphrase Extraction using Sentence Embeddings // Association
for Computational Linguistics/ – 2018. – P. 221-229.
14.Воронцов К. В. Обзор вероятностных тематических моделей. Режим
доступа: https://is.gd/almt5W [Электронный ресурс].
15.Vorontsov K., Frei O., Apishev M., Romov P., Dudarenko M. BigARTM:
Open Source Library for Regularized Multimodal Topic Modeling of Large
Collections //Communications in Computer and Information Science/ – 2015. – Vol.
542. – P. 370-381
16.Gormley C., Tong Z. Elasticsearch: The Definitive Guide // O’Reilly
Media/ – 2015. – P. 665.
17.Vue.JS.Режимдоступа:https://ru.vuejs.org/index.html
[Электронный ресурс].
18.Flask. Режим доступа: http://flask.pocoo.org/ [Электронный ресурс].
19.IntroductiontoJSONWebTokens.Режимдоступа:
https://jwt.io/introduction/ [Электронный ресурс].
20.ГОСТ 12.2.032-78 ССБТ. Рабочее место при выполнении работ сидя.
Общие эргономические требования.
21.СанПиН 2.2.4.548–96. Гигиенические требования к микроклимату
производственных помещений.
22.СанПиН 2.2.4/2.1.8.562–96. Шум на рабочих местах, в помещениях
жилых, общественных зданий и на территории застройки.
23.СанПиН 2.2.2/2.4.1340–03. Санитарно-эпидемиологические правила
инормативы«Гигиеническиетребованиякперсональным
электронновычислительным машинам и организации работы».
24.ГОСТ 12.1.009-2009. Система стандартов безопасности труда.
Электробезопасность.
25.ГОСТ12.1.038-82ССБТ.Электробезопасность.Предельно
допустимые уровни напряжений прикосновения и токов.
26.ГОСТ Р 22.3.03-94. Безопасность в ЧС. Защита населения.
Основные положения.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Екатерина Б. кандидат наук, доцент
    5 (174 отзыва)
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподав... Читать все
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподавала учебные дисциплины: Бюджетная система Украины, Статистика.
    #Кандидатские #Магистерские
    300 Выполненных работ
    Татьяна М. кандидат наук
    5 (285 отзывов)
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    #Кандидатские #Магистерские
    495 Выполненных работ
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Алёна В. ВГПУ 2013, исторический, преподаватель
    4.2 (5 отзывов)
    Пишу дипломы, курсовые, диссертации по праву, а также истории и педагогике. Закончила исторический факультет ВГПУ. Имею высшее историческое и дополнительное юридическо... Читать все
    Пишу дипломы, курсовые, диссертации по праву, а также истории и педагогике. Закончила исторический факультет ВГПУ. Имею высшее историческое и дополнительное юридическое образование. В данный момент работаю преподавателем.
    #Кандидатские #Магистерские
    25 Выполненных работ
    Елена С. Таганрогский институт управления и экономики Таганрогский...
    4.4 (93 отзыва)
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на напис... Читать все
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на написании курсовых и дипломных работ, а также диссертационных исследований.
    #Кандидатские #Магистерские
    158 Выполненных работ
    Екатерина Д.
    4.8 (37 отзывов)
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два об... Читать все
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два образования: экономист-менеджер и маркетолог. Буду рада помочь и Вам.
    #Кандидатские #Магистерские
    55 Выполненных работ
    Анна Александровна Б. Воронежский государственный университет инженерных технол...
    4.8 (30 отзывов)
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственно... Читать все
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственном университете инженерных технологий.
    #Кандидатские #Магистерские
    66 Выполненных работ
    Дмитрий К. преподаватель, кандидат наук
    5 (1241 отзыв)
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполня... Читать все
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполняю уже 30 лет.
    #Кандидатские #Магистерские
    2271 Выполненная работа
    Дмитрий М. БГАТУ 2001, электрификации, выпускник
    4.8 (17 отзывов)
    Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал стать... Читать все
    Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал статьи, патенты, кандидатскую диссертацию, преподавал. Занимаюсь этим с 2003.
    #Кандидатские #Магистерские
    19 Выполненных работ

    Другие учебные работы по предмету