Интеллектуальный анализ текстовых данных с rnприменением методов машинного обучения

Кульневич, Алексей Дмитриевич Отделение информационных технологий (ОИТ)
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Данная работа включает себя исследования в области обработки естественного языка. Цель работы – изучение современных методов обработки документов с применением методов машинного обучения в привязке с анализом нефтегазовой отрасли. Конечный результат работы представляет собой систему, позволяющую проводить поиск и анализ по документам.

Введение ………………………………………………………………………………………………….. 13
1 Аналитический модуль …………………………………………………………………………… 15
1.1 Распознавание именованных сущностей ……………………………………………. 15
1.1.1 Подходы ……………………………………………………………………………………. 17
1.1.2 Используемый подход ………………………………………………………………… 23
1.2 Разрешение кореференции ………………………………………………………………… 25
1.2.1 Подходы ……………………………………………………………………………………. 26
1.2.2 Используемый подход ………………………………………………………………… 27
1.3 Автореферирование текста ……………………………………………………………….. 28
1.3.1 Подходы ……………………………………………………………………………………. 29
1.3.2 Используемый подход ………………………………………………………………… 30
1.4 Извлечение ключевых слов ……………………………………………………………….. 32
1.4.1 Подходы ……………………………………………………………………………………. 34
1.4.2 Используемый подход ………………………………………………………………… 37
1.5 Тематическое моделирование ……………………………………………………………. 39
1.5.1 Инструмент BigARTM ……………………………………………………………….. 41
1.5.2 Автоматическая регуляризация тематических моделей с помощью
библиотеки bigARTM…………………………………………………………………………. 44
1.5.3 Реализация работы с моделью ARTM ………………………………………….. 45
1.5.4 Предобработка текста …………………………………………………………………. 45
1.5.5 Создание новой модели ………………………………………………………………. 47
1.5.6 Регуляризаторы и метрики ………………………………………………………….. 47
1.5.7 Предсказание топиков нового документа …………………………………….. 48
2 Сервис …………………………………………………………………………………………………… 51
2.3 Описание требований к сервису ………………………………………………………… 51
2.3.1 Функциональные требования ………………………………………………………. 52
2.3.2 Администрирование и управление доступом………………………………… 53
2.3.3 Нефункциональные требования …………………………………………………… 53
2.4 Обзор технического решения …………………………………………………………….. 53
2.4.1 Frontend ……………………………………………………………………………………… 54
2.4.2 Backend ……………………………………………………………………………………… 54
2.4.3 Elasticsearch ……………………………………………………………………………….. 54
2.5 Описание веб-сервиса ……………………………………………………………………….. 55
2.5.1 Аутентификация и авторизация …………………………………………………… 56
2.5.2 Работа с рабочими пространствами ……………………………………………… 63
2.5.3 Работа с документами ………………………………………………………………… 67
3 Финансовый менеджмент, ресурсоэффетивность и ресурсосбережение ……… 75
3.1 Предпроектный анализ ……………………………………………………………………… 75
3.1.1 Потенциальные потребители результатов исследования ……………….. 75
3.1.2 Анализ конкурентных технических решений ……………………………….. 76
3.1.3 Диаграмма Исикавы …………………………………………………………………… 80
3.2 Инициация проекта ………………………………………………………………………….. 81
3.2.1 Цели и результат проекта ……………………………………………………………. 81
3.2.2 Организационная структура проекта ……………………………………………. 82
3.2.3 Ограничения и допущения проекта ……………………………………………… 82
3.3 Планирование проекта ……………………………………………………………………… 83
3.3.1 Структура работ в рамках проекта ………………………………………………. 83
3.3.2 Определение трудоемкости выполнения работ …………………………….. 84
3.4 Бюджет проекта ……………………………………………………………………………….. 89
3.4.1 Расчет амортизации ……………………………………………………………………. 89
3.4.2 Расчет основной заработной платы исполнителей ………………………… 90
3.4.3 Расчет дополнительной заработной платы исполнителей ……………… 91
3.4.4 Расчет итоговой заработной платы исполнителей…………………………. 91
3.4.5 Расчет отчислений во внебюджетные фонды ……………………………….. 92
3.4.6 Расчет накладных расходов ………………………………………………………… 92
3.4.7 Формирование бюджета проекта …………………………………………………. 93
3.5 Реестр рисков проекта ………………………………………………………………………. 93
3.6 Определение экономической эффективности исследования ………………… 94
4 Социальная ответственность …………………………………………………………………… 96
4.1 Введение …………………………………………………………………………………………. 96
4.2 Правовые и организационные вопросы обеспечения безопасности ……… 96
4.3 Профессиональная социальная ответственность …………………………………. 98
4.3.1 Анализ вредных и опасных факторов, которые может создать объект
исследования……………………………………………………………………………………… 98
4.3.2 Микроклимат …………………………………………………………………………….. 99
4.3.3 Шум ………………………………………………………………………………………… 100
4.3.4 Освещенность ………………………………………………………………………….. 101
4.3.5 Психофизиологические факторы ……………………………………………….. 103
4.3.6 Статическое электричество ……………………………………………………….. 104
4.3.7 Электрический ток ……………………………………………………………………. 105
4.4 Экологическая безопасность……………………………………………………………. 106
4.5 Безопасность при чрезвычайных ситуациях ……………………………………… 106
4.5.1 Анализ вероятных чрезвычайных ситуаций ……………………………….. 106
4.5.2 Мероприятия по предотвращению чрезвычайных ситуаций и порядок
действия в случае возникновения чрезвычайных ситуаций. ………………… 107
Заключение …………………………………………………………………………………………….. 108
Список публикаций студента …………………………………………………………………… 110
Список использованных источников ………………………………………………………… 112

Основным направлением данной работы является исследование
современных методов анализа текстовой информации.
Обработка естественных языков включает в себя различные техники
интерпретации человеческого языка, начиная от статистических подходов,
машинного обучения до подходов, основанных на лингвистических правилах
или классических алгоритмических подходов.
В области обработки естественных языков существует определенное
количество библиотек, таких как:
− Spacy; [1]
− NLTK; [2]
− StanfordNLP; [3]
− PyMorphy. [4]
Каждая из библиотек имеет различную встроенную логику, позволяющую
«из коробки» использовать различные инструменты, как например, извлечение
именованных сущностей, получение морфологических признаков слов и т. д.
Большинство инструментов для обработки естественных языков
реализованы именно для английского языка, что является не удобным при
необходимости работы с другими языками. Стоит отметить, что существуют
библиотеки для русского языка, такие как:
− Zamgi; [5]
− Abby Compreno. [6]
Zamgi является одной из первых систем для русского языка, позволяющей
автоматически извлекать именованные сущности. В ней имеются как свои
достоинства, так и недостатки. Данная система имеет обобщающий подход, то
есть основана на стилистике, а не на правилах. Но имеются ограничения –
невозможно извлечь сущности, которые начинаются не с заглавной буквы.
Что касается Abby Compreno – это коммерческий продукт для
ограниченного числа пользователей, проверка качества и функционала которого
достаточна затруднительна в силу данных причин. Основной интерес в данной
работе представляет два аспекта при работе с текстами:
− анализ текста;
− поиск по текстам.
В рамках работы над анализом текста были проанализированы и
реализованы для русского языка следующие задачи:
− извлечение именованных сущностей;
− извлечение кореференции;
− извлечение ключевых слов;
− автореферирование текста;
− тематическое моделирование текстов.
Каждая из задач будет подробно разобрана в дальнейшем. Конечным
результатом данной работы является веб-сервис, который также будет в
дальнейшем полностью описан.
1 АНАЛИТИЧЕСКИЙ МОДУЛЬ

Началом работы стало изучение современных решений в области
обработки текстовых данных с применением современных подходов, в
частности, машинного обучения. После было определено, что данная отрасль на
данный момент находится в достаточно зачаточном состоянии по сравнению,
например, с использованием машинного обучения в задачах
компьютерного зрения.
Далее были изучены основные направления в обработке естественных
языков, в частности:
− разметка последовательностей: извлечение именованных сущностей,
разрешение кореференции, частеречная разметка;
− извлечение ключевой информации: извлечение ключевых фраз и
автореферирование текста;
− тематическое моделирование.
После проведенного исследования в области существующих задач каждого
из направлений, был выделен список задач, требующих решения для реализации
сервиса, позволяющего проводить анализ и поиск текстовой информации с
учетом семантики содержимого.
Качество алгоритмов, где была в наличии ground truth выборка, было
протестировано, как пример, извлечение именованных сущностей было
проверено с помощью f1-оценки.
На основе разработки аналитических алгоритмов для работы с русским
языком, был реализован веб сервис, включающий в себя основные компоненты:
− база данных;
− модуль обработки данных;
− frontend-часть;
− backend-часть.
Следует отметить, что это исследование является стартовой точкой и
требует существенных доработок. В частности, требуется более глубокое
исследование семантического поиска.
Одной из идей по его улучшению является апробирование варианта
векторизации запросов и ответов и возможности их ранжирования на основе
векторной близости. Трудностью по получению устойчивого результата
является невозможность количественно оценить качество алгоритма на данном
этапе развития, поскольку хороший результат в данном случае – это
субъективная оценка.
СПИСОК ПУБЛИКАЦИЙ СТУДЕНТА

1. Закиров А.Р., Кирьянов Е.Л., Буханов Н.В., Белозеров Б.В. (ООО
«Газпромнефть НТЦ»), Кульневич А.Д., Чугунов Р.А. (Компания
«Эконофизика»), Сливкин С.С. (Томский политехнический университет).
Когнитивные технологии исследования информационных массивов для
восстановления неявных знаний и данных.
2. Кульневич А.Д., Радишевский В.Л. Machine learning for natural language
processing tasks // “Distributed Computing and Grid-Technologies in Science and
Education” GRID 2018, Book of Abstracts, Дубна, 10-14 сентября 2018 – С. 139.
3. Радишевский В.Л., Кульневич А.Д. Botnet in PyPy to speed up the work
of the Earley parser // “Distributed Computing and Grid-Technologies in Science and
Education” GRID 2018, Book of Abstracts, Дубна, 10-14 сентября 2018 – С. 139.
4. Кульневич А. Д., Сергеева Н. Д., Чугунов Р. А. Система раннего
детектирования пневмонии на основе методов глубокого обучения // Вестник
Амурского государственного университета. Серия: Естественные и
экономические науки. – 2018. – Вып. 83. – C. 35-40.
5. Kulnevich A. D., Radishevsky V. L., Chugunov R. A., Shevchuk A. A.
Application of russian named entity recognition and coreference resolution in the oil
industry // CEUR Workshop Proceedings. – 2018 – Vol. 2267. – p. 378-382.
6. Radishevsky V. L., Kulnevich A. D., Chugunov R. A., Shevchuk A. A.
Distributed GLR-parser for Natural Languag Processing // CEUR Workshop
Proceedings. – 2018 – Vol. 2267. – p. 374-377.
7. Кульневич А. Д. Введение в нейронные сети //Молодой ученый. – 2017.
– №. 8. – С. 31-36.
8. Сергеева Н. Д., Кульневич А. Д., Чугунов Р. А. Автоматизированная
система учета рабочего времени // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 417-418.
9. Чугунов Р. А., Кульневич А. Д. Разработка информационной системы
поддержки междисциплинарных курсовых проектов // Молодежь и современные
информационные технологии: сборник трудов XVI Международной научно-
практической конференции студентов, аспирантов и молодых ученых, Томск, 3-
7 Декабря 2018. – Томск: ТПУ, 2019 – C. 385-386.
10. Кульневич А. Д., Радишевский В. Л. Интеллектуальный анализ
аэрофотоснимков // Молодежь и современные информационные технологии:
сборник трудов XV Международной научно- практической конференции
студентов, аспирантов и молодых ученых, Томск, 4-7 Декабря 2017. – Томск:
ТПУ, 2018 – C. 77-78.
11. Радишевский В. Л., Кульневич А. Д. Распределенный брокер
сообщений KAFKA для высокоскоростной передачи и агрегации данных //
Молодежь и современные информационные технологии: сборник трудов XV
Международной научно- практической конференции студентов, аспирантов и
молодых ученых, Томск, 4-7 Декабря 2017. – Томск: ТПУ, 2018 – C. 284-285.
12. Кульневич А. Д., Радишевский В. Л. Интеллектуальный анализ
аэрофотоснимков // Молодёжь и современные информационные технологии.
Сборник трудов XV Международной научно-практической конференции
студентов, аспирантов и молодых учёных (4-7 декабря 2017 г). – С. 77-78.
13. Радишевский В. Л., Кульневич А. Д. Распределенный брокер
сообщений KAFKA для высокоскоростной передачи и агрегации данных //
Молодёжь и современные информационные технологии. Сборник трудов XV
Международной научно-практической конференции студентов, аспирантов и
молодых учёных (4-7 декабря 2017 г). – С. 286-287.

1.Industrial-Strength Natural Language Processing in Python. Режим
доступа: https://spacy.io/ [Электронный ресурс].
2.NaturalLanguageToolkitdocumentation.Режимдоступа:
https://www.nltk.org/ [Электронный ресурс].
3.StanfordNLP 0.2.0 – Python NLP Library for Many Human Languages.
Режим доступа: https://stanfordnlp.github.io/stanfordnlp/ [Электронный ресурс].
4.Морфологическийанализаторpymorphy2.Режимдоступа:
https://pymorphy2.readthedocs.io/en/latest/ [Электронный ресурс].
5.Zamgi.Режимдоступа:https://github.com/zamgi
[Электронный ресурс].
6.ABBYY Compreno. Режим доступа: https://www.abbyy.com/ru-
ru/science/technologies/compreno/ [Электронный ресурс].
7.Konkol M. Named Entity Recognition //PhD Study Report/ – 2012. –
P. 29.
8.Rule-based named entity recognition library for Russian language. Режим
доступа: https://github.com/natasha/natasha [Электронный ресурс].
9.Ratnaparkhi A. A Maximum Entropy Model for Part-Of-Speech Tagging
//Conference on Empirical Methods in Natural Language Processing/ – 1996. – P.
133-142.
10.Hochreiter S. The Vanishing Gradient Problem During Learning
Recurrent Neural Nets and Problem Solutions // International Journal of Uncertainty,
Fuzziness and Knowledge-Based Systems/ – 1998. – P. 10.
11.Lee K., He L., Lewis M., Zettlemoyer L. End-to-end Neural Coreference
Resolution //Empirical Methods in Natural Language Processing/ – 2017. –
P. 188-197.
12.Mihalcea R., Tarau P. TextRank: Bringing Order into Texts // Association
for Computational Linguistics/ – 2004. – P. 404-411.
13.Bennani-Smires K., Musat C., Hossmann A., Baerswyl M., Jaggi M.
Simple Unsupervised Keyphrase Extraction using Sentence Embeddings // Association
for Computational Linguistics/ – 2018. – P. 221-229.
14.Воронцов К. В. Обзор вероятностных тематических моделей. Режим
доступа: https://is.gd/almt5W [Электронный ресурс].
15.Vorontsov K., Frei O., Apishev M., Romov P., Dudarenko M. BigARTM:
Open Source Library for Regularized Multimodal Topic Modeling of Large
Collections //Communications in Computer and Information Science/ – 2015. – Vol.
542. – P. 370-381
16.Gormley C., Tong Z. Elasticsearch: The Definitive Guide // O’Reilly
Media/ – 2015. – P. 665.
17.Vue.JS.Режимдоступа:https://ru.vuejs.org/index.html
[Электронный ресурс].
18.Flask. Режим доступа: http://flask.pocoo.org/ [Электронный ресурс].
19.IntroductiontoJSONWebTokens.Режимдоступа:
https://jwt.io/introduction/ [Электронный ресурс].
20.ГОСТ 12.2.032-78 ССБТ. Рабочее место при выполнении работ сидя.
Общие эргономические требования.
21.СанПиН 2.2.4.548–96. Гигиенические требования к микроклимату
производственных помещений.
22.СанПиН 2.2.4/2.1.8.562–96. Шум на рабочих местах, в помещениях
жилых, общественных зданий и на территории застройки.
23.СанПиН 2.2.2/2.4.1340–03. Санитарно-эпидемиологические правила
инормативы«Гигиеническиетребованиякперсональным
электронновычислительным машинам и организации работы».
24.ГОСТ 12.1.009-2009. Система стандартов безопасности труда.
Электробезопасность.
25.ГОСТ12.1.038-82ССБТ.Электробезопасность.Предельно
допустимые уровни напряжений прикосновения и токов.
26.ГОСТ Р 22.3.03-94. Безопасность в ЧС. Защита населения.
Основные положения.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Елена С. Таганрогский институт управления и экономики Таганрогский...
    4.4 (93 отзыва)
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на напис... Читать все
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на написании курсовых и дипломных работ, а также диссертационных исследований.
    #Кандидатские #Магистерские
    158 Выполненных работ
    Шагали Е. УрГЭУ 2007, Экономика, преподаватель
    4.4 (59 отзывов)
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и... Читать все
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и диссертаций, Есть любимые темы - они дешевле обойдутся, ибо в радость)
    #Кандидатские #Магистерские
    76 Выполненных работ
    Вирсавия А. медицинский 1981, стоматологический, преподаватель, канди...
    4.5 (9 отзывов)
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - ... Читать все
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - медицина, биология, антропология, биогидродинамика
    #Кандидатские #Магистерские
    12 Выполненных работ
    Рима С.
    5 (18 отзывов)
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный универси... Читать все
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный университет, являюсь бакалавром, магистром юриспруденции (с отличием)
    #Кандидатские #Магистерские
    38 Выполненных работ
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Катерина В. преподаватель, кандидат наук
    4.6 (30 отзывов)
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации... Читать все
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации. Опыт работы 7 лет. Всегда на связи и готова прийти на помощь. Вместе удовлетворим самого требовательного научного руководителя. Возможно полное сопровождение: от статуса студента до получения научной степени.
    #Кандидатские #Магистерские
    47 Выполненных работ
    Лидия К.
    4.5 (330 отзывов)
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии ... Читать все
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии и педагогики. Написание диссертаций, ВКР, курсовых и иных видов работ.
    #Кандидатские #Магистерские
    592 Выполненных работы
    Шиленок В. КГМУ 2017, Лечебный , выпускник
    5 (20 отзывов)
    Здравствуйте) Имею сертификат специалиста (врач-лечебник). На данный момент являюсь ординатором(терапия, кардио), одновременно работаю диагностом. Занимаюсь диссертац... Читать все
    Здравствуйте) Имею сертификат специалиста (врач-лечебник). На данный момент являюсь ординатором(терапия, кардио), одновременно работаю диагностом. Занимаюсь диссертационной работ. Помогу в медицинских науках и прикладных (хим,био,эколог)
    #Кандидатские #Магистерские
    13 Выполненных работ
    Вики Р.
    5 (44 отзыва)
    Наличие красного диплома УрГЮУ по специальности юрист. Опыт работы в профессии - сфера банкротства. Уровень выполняемых работ - до магистерских диссертаций. Написан... Читать все
    Наличие красного диплома УрГЮУ по специальности юрист. Опыт работы в профессии - сфера банкротства. Уровень выполняемых работ - до магистерских диссертаций. Написание письменных работ для меня в удовольствие.Всегда качественно.
    #Кандидатские #Магистерские
    60 Выполненных работ

    Другие учебные работы по предмету