Комбинированный подход к извлечению структурированных данных для языков со свободнымrnпорядком слов
Предложен новый подход для решения одной из задач в области Natural Language Processing – Fact Extraction, на основе комбинирования подходов использования контекстно-свободных грамматик и грамматик зависимостей. Продемонстрированы преимущества данного подхода для русского языка. Разработано Web приложение для интерактивной работы.
ВВЕДЕНИЕ ……………………………………………………………………………………………… 13
1. Обзор предметной области обработки естественных языков …………………. 14
1.1 История становления обработки естественных языков …………………….. 14
1.2 Извлечение информации …………………………………………………………………. 17
1.3 Подзадачи извлечения информации…………………………………………………. 19
1.3.1 Извлечение именованных сущностей ………………………………………… 20
1.3.2 Разрешение кореференции ………………………………………………………… 22
1.3.3 Извлечение отношений……………………………………………………………… 24
1.3.4 Извлечение атрибутов, фактов и событий ………………………………….. 25
1.4 Парсеры на основе контекстно-свободных грамматик ……………………… 27
1.5 Синтаксические парсеры …………………………………………………………………. 28
1.5.1 Синтаксически аннотированные корпуса …………………………………… 30
1.5.2 Модели синтаксического анализа ……………………………………………… 33
2. Комбинированный подход для извлечения структурированных данных из
текста ………………………………………………………………………………………………………. 35
2.1 Выбор парсера контекстно-свободных грамматик ……………………………. 36
2.2 Выбор модели синтаксического анализа ………………………………………….. 38
2.3 Комбинирование подхода по разбору на основе контекстно-свободных
грамматик и грамматик зависимости …………………………………………………….. 40
2.4 Описание разработанной программной библиотеки …………………………. 42
Выводы ………………………………………………………………………………………………… 45
3. Проектирование и разработка приложения по извлечению информации из
резюме на основе предлагаемого подхода ………………………………………………… 46
3.1 Проектирование приложения и выбор средств разработки……………….. 46
3.2 Сбор данных для написания грамматик …………………………………………… 48
3.3 Описание приложения …………………………………………………………………….. 52
Выводы ………………………………………………………………………………………………… 53
4 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение … 54
4.1 Предпроектный анализ ……………………………………………………………………. 54
4.1.1 Потенциальные потребители разрабатываемого решения ………….. 54
4.1.2 Анализ конкурентоспособности технического решения …………….. 55
4.1.3 SWOT-анализ ……………………………………………………………………………. 57
4.2 Инициация проекта …………………………………………………………………………. 58
4.2.1 Ограничения и допущения проекта …………………………………………… 59
4.3 Планирование управления проектом ……………………………………………….. 60
4.3.1 Структура работ в рамках проекта …………………………………………….. 60
4.3.2 Определение трудоемкости выполнения работ ………………………….. 61
4.4 Бюджет проекта ………………………………………………………………………………. 64
4.4.1 Материальные затраты ……………………………………………………………… 64
4.4.2 Амортизационные отчисления ………………………………………………….. 64
4.4.3 Заработная плата исполнителей проекта ……………………………………. 65
4.4.4 Отчисления во внебюджетные фонды (страховые отчисления) ….. 67
4.4.5 Накладные расходы…………………………………………………………………… 67
4.4.6 Формирование бюджета ……………………………………………………………. 67
4.4.7 Риски ………………………………………………………………………………………… 68
4.4.8 Интегральный финансовый показатель эффективности……………… 69
4.5 Выводы …………………………………………………………………………………………… 70
5 Социальная ответственность …………………………………………………………………. 71
5.1 Правовые и организационные вопросы обеспечения безопасности. …. 71
5.2 Производственная безопасность. …………………………………………………….. 74
5.2.1. Анализ выявленных вредных и опасных факторов и обоснование
мероприятий по снижению воздействия ……………………………………………. 74
5.2.2 Микроклимат ……………………………………………………………………………. 75
5.2.3 Уровень шума …………………………………………………………………………… 77
5.2.4 Отсутствие или недостаток естественного света ………………………… 78
5.2.5 Повышенная напряженность магнитного поля…………………………… 80
5.2.6 Психофизиологический фактор …………………………………………………. 81
5.3 Экологическая безопасность……………………………………………………………. 82
5.4 Безопасность в чрезвычайных ситуациях …………………………………………. 84
5.4.1 Перечень возможных ЧС на объекте …………………………………………. 84
5.4.2 Меры по предотвращению и ликвидации ЧС и их последствий …. 85
5.5 Выводы …………………………………………………………………………………………… 86
ЗАКЛЮЧЕНИЕ ……………………………………………………………………………………….. 87
Список публикаций и основных научный достижений ……………………………… 94
На сегодняшний день в эпоху Больших данных объемы производимой
человечеством информации больше, чем когда-либо и ее количество растет с
каждым днем. Человек уже не в состоянии вручную обрабатывать,
анализировать, извлекать знания из неструктурированных данных,
преимущественно текстовых, и передавать их по различным каналам. В связи
с этим, особую актуальность приобрела задача преобразования текстов,
написанных на естественном языке в структурированное представление для
применения в прикладных задачах.
Под извлечением информации подразумевается поиск в слабо
структурированных документах отдельных интересующих фактов. Сегодня
уже существуют решения, позволяющие извлекать из текстов различные
именованные сущности с приемлемым качеством, однако задача по
извлечению их отношений, фактов и событий является наименее
проработанной и наиболее актуальной.
Основной целью настоящей работы является разработка методики по
извлечения фактов и событий из текстов, основанной на комбинировании
подходов использования правил на контекстно-свободных грамматиках
совместно с анализом синтаксических деревьев грамматик зависимостей.
Данная методика является попыткой в решении этой задачи для языков со
свободным порядком слов, в частности для русского языка.
1. Обзор предметной области обработки естественных языков
В ходе данной магистерской диссертации был предложен
комбинированный подход для извлечения информации из текста. Данный
подход заключается в использовании контекстно-свободных грамматик
совместно с синтаксическими шаблонами, извлекаемых из деревьев на
основе грамматик зависимости. На основе предложенного подхода
разработана программная библиотека, включающая собственные шаблоны
для извлечения подграфов из деревьев зависимостей с учетом
морфологических, синтаксических признаков и результатов извлечения с
помощью контекстно-свободных грамматик.
В работе показано, что разработанная библиотека успешно
применяется на примере задачи по извлечению информации из резюме
соискателей. Кроме того, было создано веб-приложение для анализа
документов и текстов резюме. Получены шаблоны для извлечения всей
необходимой информации, включающей контактные данные, описание
опыта работы, различные навыки, компетенции, опыт работы с
технологиями.
В качестве дальнейших шагов планируется расширение функционала
для составления шаблонов, применение готовых общедоступных
тезаурусов / словарей для возможности использования синонимов,
публикация проекта в открытый доступ, а также разработка банка
основных шаблонов.
1.Moens, M.-F. Information Extraction: Algorithms and Prospects in a
Retrieval Context. – Netherlands: Springer. – 2009. – 255 p.
2.Большакова Е. И. И др. Автоматическая обработка текстов на
естественном языке и компьютерная лингвистика: учеб.пособие – М.:
МИЭМ, 2011. — 272 с.
3.Jurafsky D., Martin J. H. Speech and language processing: An introduction
to natural language processing, computational linguistics, and speech recognition //
Prentice Hall series in artificial intelligence. – 2009.
4.Chowdhury G. G. Natural language processing // Annual review of
information science and technology. – 2003. – Vol. 37. – №. 1. – P. 51-89.
5.Кольцова Д. А., Кольцов С. В. История и развитие машинного перевода
// Русский язык и культура в зеркале перевода: IX Международная научная
конференция «Русский язык и культура в зеркале перевода». – 2019. – Т. 10. –
С. 130.
6.Wortzel A. ELIZA REDUX: A Mutable Iteration // Leonardo. – 2007. – Vol.
40. – №. 1. – P. 31-36.
7.Winograd T. Procedures as a representation for data in a computer program
for understanding natural language. – Massachusetts. Inst. Of Tech. – Cambridge.
– 1971. – AI Technical Report № 84.
8.Thuraisingham B. A primer for understanding and applying data mining // It
Professional. – 2000. – Vol. 2. – №. 1. – P. 28-31.
9.Waldrop M. M. The chips are down for Moore’s law // Nature News. –
2016. – Vol. 530. – №. 7589. – P. 144.
10.Sha F., Pereira F. Shallow parsing with conditional random fields //
Proceedings of the 2003 Conference of the North American Chapter of the
Association for Computational Linguistics on Human Language Technology-
Vol. 1. – Association for Computational Linguistics. –2003. – P. 134-141.
11.Collins M., Koehn P., Kučerová I. Clause restructuring for statistical
machine translation // Proceedings of the 43rd annual meeting on association for
computational linguistics. – Association for Computational Linguistics. – 2005. –
P. 531-540.
12.Kaelbling L. P., Littman M. L., Moore A. W. Reinforcement learning: A
survey //Journal of artificial intelligence research. – 1996. – Vol. 4. – P. 237-285.
13.Hofmann T. Unsupervised learning by probabilistic latent semantic analysis
//Machine learning. – 2001. – Vol. 42. – №. 1-2. – P. 177-196.
14.Goldberg Y. A primer on neural network models for natural language
processing //Journal of Artificial Intelligence Research. – 2016. – Vol. 57. – P.
345-420.
15.Jozefowicz R. et al. Exploring the limits of language modeling //arXiv
preprint arXiv:1602.02410. – 2016.
16.Manning C. et al. The Stanford CoreNLP natural language processing toolkit
//Proceedings of 52nd annual meeting of the association for computational
linguistics: system demonstrations. – 2014. – С. 55-60.
17.Vinyals O. et al. Grammar as a foreign language //Advances in neural
information processing systems. – 2015. – С. 2773-2781.
18.Cui P. et al. A survey on network embedding // IEEE Transactions on
Knowledge and Data Engineering. – 2018.
19.Szabó Z. Compositionality. – Metaphysics Research Lab: Stanford
University. – First published Thu Apr 8, 2004. – Substantive revision May 24,
2017.
20.Lin B. Y. et al. Multi-channel bilstm-crf model for emerging named entity
recognition in social media // Proceedings of the 3rd Workshop on Noisy User-
generated Text. – 2017. – P. 160-165.
21.Allahyari M. et al. A brief survey of text mining: Classification, clustering
and extraction techniques // arXiv preprint arXiv:1707.02919. – 2017.
22.Akbik A., Blythe D., Vollgraf R. Contextual string embeddings for sequence
labeling // Proceedings of the 27th International Conference on Computational
Linguistics. – 2018. – P. 1638-1649.
23.Hershcovich D. et al. Syntactic Interchangeability in Word Embedding
Models // arXiv preprint arXiv:1904.00669. – 2019.
24.Hardeniya N. et al. Natural Language Processing: Python and NLTK. –
Packt Publishing Ltd. – 2016.
25.Burtsev M. et al. DeepPavlov: Open-Source Library for Dialogue Systems //
Proceedings of ACL 2018, System Demonstrations. – 2018. – P. 122-127.
26.Козеренко Е. Б., Кузнецов К. И., Романов Д. А. Семантическая
обработканеструктурированныхтекстовыхданныхнаоснове
лингвистического процессора PullEnti // Информатика и её применения. –
2018. – Т. 12. – №. 3. – С. 91-98.
27.Russian language models for spaCy [electronic resource]. – URL:
https://github.com/buriy/spacy-ru – Accessed 02.05.2019.
28.Горкун О. П. Подходы к извлечению объектов и фактов из
неструктурированных текстов //Advanced Science. – 2019. – С. 70-72.
29.Jiang R., Banchs R. E., Li H. Evaluating and combining name entity
recognition systems // Proceedings of the Sixth Named Entity Workshop. – 2016. –
P. 21-27.
30.Ng V. Machine learning for entity coreference resolution: A retrospective
look at two decades of research // Thirty-First AAAI Conference on Artificial
Intelligence. – 2017. – P. 4877-4884.
31.Ng V. Entity Coreference Resolution // IEEE Intelligent Informatics
Bulletin. – 2016. – Vol. 17. – №. 1. – P. 7-13.
32.Emani C. K., Cullot N., Nicolle C. Understandable big data: a survey //
Computer science review. – 2015. – Vol. 17. – P. 70-81.
33.Ермакова Л. М. Методы извлечения информации из текста // Вестник
Пермского Университета. Математика. Механика. Информатика. – Вып. 1(9).
– 2012. – С. 77-84.
34.Hogenboom F. et al. A survey of event extraction methods from text for
decision support systems // Decision Support Systems. – 2016. – Vol. 85. – P. 12-
22.
35.Tomita-parser tool for extraction structured data from texts [electronic
resource]. – URL: https://tech.yandex.ru/tomita/ – Accessed 02.05.2019.
36.Yargy–documentation[electronicresource].–URL:
https://yargy.readthedocs.io/ru/latest/ – Accessed 02.05.2019.
37.Chernyak E., Ilvovsky D. Lecture 4. Parsing [electronic resource]. – URL:
http://wiki.cs.hse.ru/Lecture_4._Parsing – Accessed 02.05.2019.
38.Andor D. et al. Globally normalized transition-based neural networks //
arXiv preprint arXiv:1603.06042. – 2016.
39.Rule-based named entity recognition library for russian language [electronic
resource] – URL: https://github.com/natasha/natasha – Accessed 02.05.2019.
40.Poibeau, Thierry; Kosseim, Leila (2001). “Proper Name Extraction from
Non-Journalistic Texts”. Language and Computers. 37 (1): 144–157.
41.Straka M., Straková J., Hajic J. Prague at EPE 2017: The UDPipe System //
EPE 2017. – 2017. – P. 65.
42.Stenetorp P. et al. BRAT: a web-based tool for NLP-assisted text annotation
//Proceedings of the Demonstrations at the 13th Conference of the European
Chapter of the Association for Computational Linguistics. – Association for
Computational Linguistics, 2012. – P. 102-107.
43.Nivre J. et al. Universal Dependencies v1: A Multilingual Treebank
Collection // LREC. – 2016.
44.Грановский Д.В., Бочаров В.В., Бичинева С.В. Открытый корпус:
принципы работы и перспективы // Компьютерная лингвистика и развитие
семантического поиска в Интернете: Труды научного семинара XIII
Всероссийской объединенной конференции «Интернет и современное
общество». Санкт-Петербург, 19–22 октября 2010 г. — СПб., 2010. — 94 с.
45.Национальный корпус русского языка [Электронный ресурс]. – URL:
http://www.ruscorpora.ru – Дата обращения: 02.05.2019.
46.Chen D., Manning C. A fast and accurate dependency parser using neural
networks // Proceedings of the 2014 Conference on Empirical Methods in Natural
Language Processing (EMNLP) – Association for Computational Linguistics. –
Doha, Qatar. – 2014. – P. 740–750.
47.Zhang Y., Nivre J. Transition-based dependency parsing with rich non-local
features. // Proceedings of the 49th Annual Meeting of the Association for
Computational Linguistics: Human Language Technologies: Short Papers – Vol. 2,
Stroudsburg, PA, USA, – 2011 – P. 188–193.
48.Korobov M: Morphological Analyzer and Generator for Russian and
Ukrainian Languages // Analysis of Images, Social Networks and Texts. – 2015. –
P 320-332.
49.Radishevskii V. L. et al. Distributed GLR-Parser for Natural Language
Processing. Proceedings of the VIII International Conference “Distributed
Computing and Grid-technologies in Science and Education” (GRID 2018),
Dubna, Moscow region, Russia, September 10 – 14. – 2018.
50.Zeman D. et al. CoNLL 2018 shared task: Multilingual parsing from raw
text to universal dependencies //Proceedings of the CoNLL 2018 Shared Task:
Multilingual Parsing from Raw Text to Universal Dependencies. – 2018. – P. 1-21.
51.ГОСТ 55090-2012. Ресурсосбережение. Обращение с отходами.
Рекомендации по утилизации отходов бумаги // Электронный фонд правовой
и нормативно-технической документации. [Электронный ресурс]. URL:
http://docs.cntd.ru/document/1200103182. – Дата обращения: 02.05.2019 г.
52.ГОСТ 55102-2012. Ресурсосбережение. Обращение с отходами.
Руководство по безопасному сбору, хранению, транспортированию и
разборке отработавшего электротехнического и электронного оборудования,
за исключением ртутьсодержащих устройств и приборов // Электронный
фонд правовой и нормативно-технической документации. [Электронный
ресурс]. URL: http://docs.cntd.ru/document/1200104723. – Дата обращения:
02.05.2019 г.
53.Постановление Правительства РФ от 03.09.2010 N 681 (ред. от
01.10.2013) “Об утверждении Правил обращения с отходами производства и
потребления в части осветительных устройств, электрических ламп,
ненадлежащиесбор,накопление,использование,обезвреживание,
транспортирование и размещение которых может повлечь причинение вреда
жизни, здоровью граждан, вреда животным, растениям и окружающей среде
// Государственная система правовой информации [Электронный ресурс].
URL:http://pravo.gov.ru/proxy/ips/?docbody=&nd=102141053–Дата
обращения: 02.05.2019 г.
54.СП 5.13130.2009 Системы противопожарной защиты. Установки
пожарной сигнализации и пожаротушения автоматические. Нормы и правила
проектирования (с Изменением N 1) // Электронный фонд правовой и
нормативно-техническойдокументации.[Электронныйресурс].URL:
http://docs.cntd.ru/document/1200071148. – Дата обращения: 02.05.2019 г.
55.СП3.13130.2009Системыпротивопожарнойзащиты.Система
оповещения и управления эвакуацией людей при пожаре. Требования
пожарной безопасности // Электронный фонд правовой и нормативно-
техническойдокументации.[Электронныйресурс].URL:
http://docs.cntd.ru/document/1200071145. – Дата обращения: 02.05.2019 г.
Список публикаций и основных научный достижений
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!