Интеллектуальный анализ текстовых данных с rnприменением методов машинного обучения

Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0
Кульневич, Алексей Дмитриевич Отделение информационных технологий (ОИТ)
Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Данная работа включает себя исследования в области обработки естественного языка. Цель работы – изучение современных методов обработки документов с применением методов машинного обучения в привязке с анализом нефтегазовой отрасли. Конечный результат работы представляет собой систему, позволяющую проводить поиск и анализ по документам.

Введение ………………………………………………………………………………………………….. 13
1 Аналитический модуль …………………………………………………………………………… 15
1.1 Распознавание именованных сущностей ……………………………………………. 15
1.1.1 Подходы ……………………………………………………………………………………. 17
1.1.2 Используемый подход ………………………………………………………………… 23
1.2 Разрешение кореференции ………………………………………………………………… 25
1.2.1 Подходы ……………………………………………………………………………………. 26
1.2.2 Используемый подход ………………………………………………………………… 27
1.3 Автореферирование текста ……………………………………………………………….. 28
1.3.1 Подходы ……………………………………………………………………………………. 29
1.3.2 Используемый подход ………………………………………………………………… 30
1.4 Извлечение ключевых слов ……………………………………………………………….. 32
1.4.1 Подходы ……………………………………………………………………………………. 34
1.4.2 Используемый подход ………………………………………………………………… 37
1.5 Тематическое моделирование ……………………………………………………………. 39
1.5.1 Инструмент BigARTM ……………………………………………………………….. 41
1.5.2 Автоматическая регуляризация тематических моделей с помощью
библиотеки bigARTM…………………………………………………………………………. 44
1.5.3 Реализация работы с моделью ARTM ………………………………………….. 45
1.5.4 Предобработка текста …………………………………………………………………. 45
1.5.5 Создание новой модели ………………………………………………………………. 47
1.5.6 Регуляризаторы и метрики ………………………………………………………….. 47
1.5.7 Предсказание топиков нового документа …………………………………….. 48
2 Сервис …………………………………………………………………………………………………… 51
2.3 Описание требований к сервису ………………………………………………………… 51
2.3.1 Функциональные требования ………………………………………………………. 52
2.3.2 Администрирование и управление доступом………………………………… 53
2.3.3 Нефункциональные требования …………………………………………………… 53
2.4 Обзор технического решения …………………………………………………………….. 53
2.4.1 Frontend ……………………………………………………………………………………… 54
2.4.2 Backend ……………………………………………………………………………………… 54
2.4.3 Elasticsearch ……………………………………………………………………………….. 54
2.5 Описание веб-сервиса ……………………………………………………………………….. 55
2.5.1 Аутентификация и авторизация …………………………………………………… 56
2.5.2 Работа с рабочими пространствами ……………………………………………… 63
2.5.3 Работа с документами ………………………………………………………………… 67
3 Финансовый менеджмент, ресурсоэффетивность и ресурсосбережение ……… 75
3.1 Предпроектный анализ ……………………………………………………………………… 75
3.1.1 Потенциальные потребители результатов исследования ……………….. 75
3.1.2 Анализ конкурентных технических решений ……………………………….. 76
3.1.3 Диаграмма Исикавы …………………………………………………………………… 80
3.2 Инициация проекта ………………………………………………………………………….. 81
3.2.1 Цели и результат проекта ……………………………………………………………. 81
3.2.2 Организационная структура проекта ……………………………………………. 82
3.2.3 Ограничения и допущения проекта ……………………………………………… 82
3.3 Планирование проекта ……………………………………………………………………… 83
3.3.1 Структура работ в рамках проекта ………………………………………………. 83
3.3.2 Определение трудоемкости выполнения работ …………………………….. 84
3.4 Бюджет проекта ……………………………………………………………………………….. 89
3.4.1 Расчет амортизации ……………………………………………………………………. 89
3.4.2 Расчет основной заработной платы исполнителей ………………………… 90
3.4.3 Расчет дополнительной заработной платы исполнителей ……………… 91
3.4.4 Расчет итоговой заработной платы исполнителей…………………………. 91
3.4.5 Расчет отчислений во внебюджетные фонды ……………………………….. 92
3.4.6 Расчет накладных расходов ………………………………………………………… 92
3.4.7 Формирование бюджета проекта …………………………………………………. 93
3.5 Реестр рисков проекта ………………………………………………………………………. 93
3.6 Определение экономической эффективности исследования ………………… 94
4 Социальная ответственность …………………………………………………………………… 96
4.1 Введение …………………………………………………………………………………………. 96
4.2 Правовые и организационные вопросы обеспечения безопасности ……… 96
4.3 Профессиональная социальная ответственность …………………………………. 98
4.3.1 Анализ вредных и опасных факторов, которые может создать объект
исследования……………………………………………………………………………………… 98
4.3.2 Микроклимат …………………………………………………………………………….. 99
4.3.3 Шум ………………………………………………………………………………………… 100
4.3.4 Освещенность ………………………………………………………………………….. 101
4.3.5 Психофизиологические факторы ……………………………………………….. 103
4.3.6 Статическое электричество ……………………………………………………….. 104
4.3.7 Электрический ток ……………………………………………………………………. 105
4.4 Экологическая безопасность……………………………………………………………. 106
4.5 Безопасность при чрезвычайных ситуациях ……………………………………… 106
4.5.1 Анализ вероятных чрезвычайных ситуаций ……………………………….. 106
4.5.2 Мероприятия по предотвращению чрезвычайных ситуаций и порядок
действия в случае возникновения чрезвычайных ситуаций. ………………… 107
Заключение …………………………………………………………………………………………….. 108
Список публикаций студента …………………………………………………………………… 110
Список использованных источников ………………………………………………………… 112

Основным направлением данной работы является исследование
современных методов анализа текстовой информации.
Обработка естественных языков включает в себя различные техники
интерпретации человеческого языка, начиная от статистических подходов,
машинного обучения до подходов, основанных на лингвистических правилах
или классических алгоритмических подходов.
В области обработки естественных языков существует определенное
количество библиотек, таких как:
− Spacy; [1]
− NLTK; [2]
− StanfordNLP; [3]
− PyMorphy. [4]
Каждая из библиотек имеет различную встроенную логику, позволяющую
«из коробки» использовать различные инструменты, как например, извлечение
именованных сущностей, получение морфологических признаков слов и т. д.
Большинство инструментов для обработки естественных языков
реализованы именно для английского языка, что является не удобным при
необходимости работы с другими языками. Стоит отметить, что существуют
библиотеки для русского языка, такие как:
− Zamgi; [5]
− Abby Compreno. [6]
Zamgi является одной из первых систем для русского языка, позволяющей
автоматически извлекать именованные сущности. В ней имеются как свои
достоинства, так и недостатки. Данная система имеет обобщающий подход, то
есть основана на стилистике, а не на правилах. Но имеются ограничения –
невозможно извлечь сущности, которые начинаются не с заглавной буквы.
Что касается Abby Compreno – это коммерческий продукт для
ограниченного числа пользователей, проверка качества и функционала которого
достаточна затруднительна в силу данных причин. Основной интерес в данной
работе представляет два аспекта при работе с текстами:
− анализ текста;
− поиск по текстам.
В рамках работы над анализом текста были проанализированы и
реализованы для русского языка следующие задачи:
− извлечение именованных сущностей;
− извлечение кореференции;
− извлечение ключевых слов;
− автореферирование текста;
− тематическое моделирование текстов.
Каждая из задач будет подробно разобрана в дальнейшем. Конечным
результатом данной работы является веб-сервис, который также будет в
дальнейшем полностью описан.
1 АНАЛИТИЧЕСКИЙ МОДУЛЬ

Началом работы стало изучение современных решений в области
обработки текстовых данных с применением современных подходов, в
частности, машинного обучения. После было определено, что данная отрасль на
данный момент находится в достаточно зачаточном состоянии по сравнению,
например, с использованием машинного обучения в задачах
компьютерного зрения.
Далее были изучены основные направления в обработке естественных
языков, в частности:
− разметка последовательностей: извлечение именованных сущностей,
разрешение кореференции, частеречная разметка;
− извлечение ключевой информации: извлечение ключевых фраз и
автореферирование текста;
− тематическое моделирование.
После проведенного исследования в области существующих задач каждого
из направлений, был выделен список задач, требующих решения для реализации
сервиса, позволяющего проводить анализ и поиск текстовой информации с
учетом семантики содержимого.
Качество алгоритмов, где была в наличии ground truth выборка, было
протестировано, как пример, извлечение именованных сущностей было
проверено с помощью f1-оценки.
На основе разработки аналитических алгоритмов для работы с русским
языком, был реализован веб сервис, включающий в себя основные компоненты:
− база данных;
− модуль обработки данных;
− frontend-часть;
− backend-часть.
Следует отметить, что это исследование является стартовой точкой и
требует существенных доработок. В частности, требуется более глубокое
исследование семантического поиска.
Одной из идей по его улучшению является апробирование варианта
векторизации запросов и ответов и возможности их ранжирования на основе
векторной близости. Трудностью по получению устойчивого результата
является невозможность количественно оценить качество алгоритма на данном
этапе развития, поскольку хороший результат в данном случае – это
субъективная оценка.
СПИСОК ПУБЛИКАЦИЙ СТУДЕНТА

1. Закиров А.Р., Кирьянов Е.Л., Буханов Н.В., Белозеров Б.В. (ООО
«Газпромнефть НТЦ»), Кульневич А.Д., Чугунов Р.А. (Компания
«Эконофизика»), Сливкин С.С. (Томский политехнический университет).
Когнитивные технологии исследования информационных массивов для
восстановления неявных знаний и данных.
2. Кульневич А.Д., Радишевский В.Л. Machine learning for natural language
processing tasks // “Distributed Computing and Grid-Technologies in Science and
Education” GRID 2018, Book of Abstracts, Дубна, 10-14 сентября 2018 – С. 139.
3. Радишевский В.Л., Кульневич А.Д. Botnet in PyPy to speed up the work
of the Earley parser // “Distributed Computing and Grid-Technologies in Science and
Education” GRID 2018, Book of Abstracts, Дубна, 10-14 сентября 2018 – С. 139.
4. Кульневич А. Д., Сергеева Н. Д., Чугунов Р. А. Система раннего
детектирования пневмонии на основе методов глубокого обучения // Вестник
Амурского государственного университета. Серия: Естественные и
экономические науки. – 2018. – Вып. 83. – C. 35-40.
5. Kulnevich A. D., Radishevsky V. L., Chugunov R. A., Shevchuk A. A.
Application of russian named entity recognition and coreference resolution in the oil
industry // CEUR Workshop Proceedings. – 2018 – Vol. 2267. – p. 378-382.
6. Radishevsky V. L., Kulnevich A. D., Chugunov R. A., Shevchuk A. A.
Distributed GLR-parser for Natural Languag Processing // CEUR Workshop
Proceedings. – 2018 – Vol. 2267. – p. 374-377.
7. Кульневич А. Д. Введение в нейронные сети //Молодой ученый. – 2017.
– №. 8. – С. 31-36.
8. Сергеева Н. Д., Кульневич А. Д., Чугунов Р. А. Автоматизированная
система учета рабочего времени // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 417-418.
9. Чугунов Р. А., Кульневич А. Д. Разработка информационной системы
поддержки междисциплинарных курсовых проектов // Молодежь и современные
информационные технологии: сборник трудов XVI Международной научно-
практической конференции студентов, аспирантов и молодых ученых, Томск, 3-
7 Декабря 2018. – Томск: ТПУ, 2019 – C. 385-386.
10. Кульневич А. Д., Радишевский В. Л. Интеллектуальный анализ
аэрофотоснимков // Молодежь и современные информационные технологии:
сборник трудов XV Международной научно- практической конференции
студентов, аспирантов и молодых ученых, Томск, 4-7 Декабря 2017. – Томск:
ТПУ, 2018 – C. 77-78.
11. Радишевский В. Л., Кульневич А. Д. Распределенный брокер
сообщений KAFKA для высокоскоростной передачи и агрегации данных //
Молодежь и современные информационные технологии: сборник трудов XV
Международной научно- практической конференции студентов, аспирантов и
молодых ученых, Томск, 4-7 Декабря 2017. – Томск: ТПУ, 2018 – C. 284-285.
12. Кульневич А. Д., Радишевский В. Л. Интеллектуальный анализ
аэрофотоснимков // Молодёжь и современные информационные технологии.
Сборник трудов XV Международной научно-практической конференции
студентов, аспирантов и молодых учёных (4-7 декабря 2017 г). – С. 77-78.
13. Радишевский В. Л., Кульневич А. Д. Распределенный брокер
сообщений KAFKA для высокоскоростной передачи и агрегации данных //
Молодёжь и современные информационные технологии. Сборник трудов XV
Международной научно-практической конференции студентов, аспирантов и
молодых учёных (4-7 декабря 2017 г). – С. 286-287.

1.Industrial-Strength Natural Language Processing in Python. Режим
доступа: https://spacy.io/ [Электронный ресурс].
2.NaturalLanguageToolkitdocumentation.Режимдоступа:
https://www.nltk.org/ [Электронный ресурс].
3.StanfordNLP 0.2.0 – Python NLP Library for Many Human Languages.
Режим доступа: https://stanfordnlp.github.io/stanfordnlp/ [Электронный ресурс].
4.Морфологическийанализаторpymorphy2.Режимдоступа:
https://pymorphy2.readthedocs.io/en/latest/ [Электронный ресурс].
5.Zamgi.Режимдоступа:https://github.com/zamgi
[Электронный ресурс].
6.ABBYY Compreno. Режим доступа: https://www.abbyy.com/ru-
ru/science/technologies/compreno/ [Электронный ресурс].
7.Konkol M. Named Entity Recognition //PhD Study Report/ – 2012. –
P. 29.
8.Rule-based named entity recognition library for Russian language. Режим
доступа: https://github.com/natasha/natasha [Электронный ресурс].
9.Ratnaparkhi A. A Maximum Entropy Model for Part-Of-Speech Tagging
//Conference on Empirical Methods in Natural Language Processing/ – 1996. – P.
133-142.
10.Hochreiter S. The Vanishing Gradient Problem During Learning
Recurrent Neural Nets and Problem Solutions // International Journal of Uncertainty,
Fuzziness and Knowledge-Based Systems/ – 1998. – P. 10.
11.Lee K., He L., Lewis M., Zettlemoyer L. End-to-end Neural Coreference
Resolution //Empirical Methods in Natural Language Processing/ – 2017. –
P. 188-197.
12.Mihalcea R., Tarau P. TextRank: Bringing Order into Texts // Association
for Computational Linguistics/ – 2004. – P. 404-411.
13.Bennani-Smires K., Musat C., Hossmann A., Baerswyl M., Jaggi M.
Simple Unsupervised Keyphrase Extraction using Sentence Embeddings // Association
for Computational Linguistics/ – 2018. – P. 221-229.
14.Воронцов К. В. Обзор вероятностных тематических моделей. Режим
доступа: https://is.gd/almt5W [Электронный ресурс].
15.Vorontsov K., Frei O., Apishev M., Romov P., Dudarenko M. BigARTM:
Open Source Library for Regularized Multimodal Topic Modeling of Large
Collections //Communications in Computer and Information Science/ – 2015. – Vol.
542. – P. 370-381
16.Gormley C., Tong Z. Elasticsearch: The Definitive Guide // O’Reilly
Media/ – 2015. – P. 665.
17.Vue.JS.Режимдоступа:https://ru.vuejs.org/index.html
[Электронный ресурс].
18.Flask. Режим доступа: http://flask.pocoo.org/ [Электронный ресурс].
19.IntroductiontoJSONWebTokens.Режимдоступа:
https://jwt.io/introduction/ [Электронный ресурс].
20.ГОСТ 12.2.032-78 ССБТ. Рабочее место при выполнении работ сидя.
Общие эргономические требования.
21.СанПиН 2.2.4.548–96. Гигиенические требования к микроклимату
производственных помещений.
22.СанПиН 2.2.4/2.1.8.562–96. Шум на рабочих местах, в помещениях
жилых, общественных зданий и на территории застройки.
23.СанПиН 2.2.2/2.4.1340–03. Санитарно-эпидемиологические правила
инормативы«Гигиеническиетребованиякперсональным
электронновычислительным машинам и организации работы».
24.ГОСТ 12.1.009-2009. Система стандартов безопасности труда.
Электробезопасность.
25.ГОСТ12.1.038-82ССБТ.Электробезопасность.Предельно
допустимые уровни напряжений прикосновения и токов.
26.ГОСТ Р 22.3.03-94. Безопасность в ЧС. Защита населения.
Основные положения.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Читать «Интеллектуальный анализ текстовых данных с rnприменением методов машинного обучения»

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Вирсавия А. медицинский 1981, стоматологический, преподаватель, канди...
    4.5 (9 отзывов)
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - ... Читать все
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - медицина, биология, антропология, биогидродинамика
    #Кандидатские #Магистерские
    12 Выполненных работ
    Татьяна М. кандидат наук
    5 (285 отзывов)
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    #Кандидатские #Магистерские
    495 Выполненных работ
    Виктор В. Смоленская государственная медицинская академия 1997, Леч...
    4.7 (46 отзывов)
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выв... Читать все
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выводы).Пишу статьи в РИНЦ, ВАК.Оформление патентов от идеи до регистрации.
    #Кандидатские #Магистерские
    100 Выполненных работ
    Ольга Р. доктор, профессор
    4.2 (13 отзывов)
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласован... Читать все
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласованные сроки и при необходимости дорабатываются по рекомендациям научного руководителя (преподавателя). Буду рада плодотворному и взаимовыгодному сотрудничеству!!! К каждой работе подхожу индивидуально! Всегда готова по любому вопросу договориться с заказчиком! Все работы проверяю на антиплагиат.ру по умолчанию, если в заказе не стоит иное и если это заранее не обговорено!!!
    #Кандидатские #Магистерские
    21 Выполненная работа
    Родион М. БГУ, выпускник
    4.6 (71 отзыв)
    Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.
    Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.
    #Кандидатские #Магистерские
    108 Выполненных работ
    Логик Ф. кандидат наук, доцент
    4.9 (826 отзывов)
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские дисс... Читать все
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские диссертации, рефераты, контрольные) уже много лет. Качество работ гарантирую.
    #Кандидатские #Магистерские
    1486 Выполненных работ
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Лидия К.
    4.5 (330 отзывов)
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии ... Читать все
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии и педагогики. Написание диссертаций, ВКР, курсовых и иных видов работ.
    #Кандидатские #Магистерские
    592 Выполненных работы
    Яна К. ТюмГУ 2004, ГМУ, выпускник
    5 (8 отзывов)
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соот... Читать все
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соответствии с Вашими требованиями.
    #Кандидатские #Магистерские
    12 Выполненных работ

    Другие учебные работы по предмету