Экспериментальное исследование методов автоматического выделения ключевых выражений в корпусах русскоязычных текстов

Гаврилик Дарья Александровна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Настоящая работа посвящена исследованию природы ключевых выражений экспериментальным путем с использованием разметки экспертов и автоматических методов извлечения ключевых выражений. Исследование затрагивает проблему определения и извлечения ключевых выражений из текстов разных функциональных стилей. Значимость данной работы заключается в утверждении существования зависимости местоположения ключевых выражений относительно всего документа. В ходе исследования описывается реализация собственного экстрактора ключевых выражений, основанного на грамматических правилах.

Увеличение потока текстовой информации в современном мире порождает
необходимость эту информацию структурировать, упорядочивать, делать более
простой и быстрой для поиска. Именно для решения задач компрессии потока
текстовой информации необходимы методы автоматической обработки текстов.
Одной из важнейших таких задач является процедура автоматического
извлечения ключевых выражений из текстов для рубрикации, индексировании,
классификации, бизнес-стратегиях, лексикографии, библиотечном деле,
информационном поиске и так далее. Ключевые выражения также помогают
составить быструю оценку содержания документов, что становится актуальнее в
настоящем мире.
Исследования в области автоматического извлечения ключевых
выражений широко проводятся на материале английского языка. Существует
множество алгоритмов и исследований особенно в последние десятилетия.
Исследования с использованием русскоязычного материала можно найти у таких
исследователей, как Е.В.Ягунова, О.А.Митрофанова, Т.Ю.Шерстинова,
А.Д.Москвина и др. Довольно часто предпринимаются попытки адаптирования
алгоритмов для работы с англоязычными документами под работу с
русскоязычными. Однако сопоставительных исследований работы разных
алгоритмов не было проведено и оценено на материале русского языка. В
настоящем исследовании впервые описываются алгоритмы, способные работать
с русскоязычными документами смешанных функциональных стилей, с
дальнейшей обработкой результатов оценки эффективности.
Актуальность работы обуславливается необходимостью
структурирования потока текстовой информации при помощи компрессии. В
данной работе проводится исследование природы текстового документа на
предмет местоположения ключевого выражения относительно традиционного
деления текста на введение, основную часть и заключение. Таким образом,
деление документа на части и извлечение ключевых выражений из определенной
его части в разы сократит время обработки текста на естественном языке.
Извлечение ключевых выражений из документов является довольно
традиционной, а значит, старой процедурой, но с изменением типа текстов и
задач работы с этим текстом, актуальным является сравнение методов с целью
определения их эффективности.
Новизна исследования заключается в использовании сопоставительного
анализа на смешанных корпусах разных функциональных стилей –
публицистическом, научном и художественном. Впервые проводится
исследование сравнения не только самих алгоритмов на предмет эффективности,
но и сравнение ключевых выражений, извлеченных алгоритмами и размеченных
экспертами. Данное решение обусловлено целью исследовать природу текстов и
определения местоположения ключевых выражений в тексте.
Объектом исследования выступает природа ключевых выражений в
корпусе русскоязычных текстов смешанных стилей. Предметом настоящей
работы являются методы, использованные для извлечения ключевых выражений
из текстов.
Цель исследования состоит в том, чтобы экспериментальным путем
определить местоположение ключевых выражений относительно всего текста
при помощи сравнения экспертной разметки и различных методов
автоматического выделения ключевых выражений при работе с русскоязычными
текстами различной тематики и стилей.
Для достижения данной цели требуется решить следующие задачи:
1. исследовать теоретические основания процедуры автоматического
выделения ключевых выражений, проанализировать подходы к
выделению ключевых выражений с точки зрения психолингвистики
(А.С.Штерн, Л.В.Сахарный, Л.Н.Мурзин, Е.В.Ягунова и др.);
2. произвести отбор методов автоматического выделения ключевых
выражений для проведения экспериментов (tf-idf, Log-likelihood, Chi-

В ходе исследования была достигнута следующая цель:
экспериментальным путем было определено, что существует зависимость
местоположения ключевых выражений относительно всего текста при помощи
сравнения экспертной разметки и различных методов автоматического
выделения ключевых выражений при работе с русскоязычными текстами
различной тематики и стилей. Ключевые выражения содержатся в самом начале
текста и с малой вероятностью появляются в основной части и заключении
документа.
В настоящей работе было проведено исследование природы ключевых
выражений относительно структуры текста. Гипотеза о существовании
зависимости местоположения ключевого выражения подтвердилась в ходе
эксперимента, который состоял в том, чтобы поделить текст на две части,
извлечь ключевые выражения из начала при помощи экспертов, а при помощи
алгоритмов из оставшейся части и сравнить количество совпадений. Суммы
совпадений оказались настолько низкими, что был сделан вывод о концентрации
ключевых выражений в самом начале текста. Оценка эффективности алгоритмов
не поднялась выше 0,2, что говорит о малом количестве встречаемости ключевых
выражений результатов алгоритмов и разметки экспертов.
Важно отметить тот факт, что для подкорпусов всех трех функциональных
стилей – публицистического, научного и художественного – наблюдается
подтверждение гипотезы. Самые высокие показатели совпадений получились у
публицистического подкорпуса, самые низкие – у художественного. Такая
ситуация объясняется простой и краткостью новостных текстов
публицистического подкорпуса и объемом и сложностью документов
художественного подкорпуса.
В ходе работы над диссертацией был создан и опробован собственный
экстрактор ключевых выражений, основанный на грамматике. Данный алгоритм
способен извлекать выражения, нужные пользователю, то есть необходимо
написать правила грамматики, и алгоритм начнет работу.
Для настоящего исследования были написаны правила грамматики,
основанные на ключевых выражениях научного подкорпуса. Экстрактор наравне
с другими традиционными алгоритмами извлекал ключевые выражения.
Результаты оценки эффективности были признаны средними относительно
остальных алгоритмов, однако, опровергнуть гипотезу разработанному
экстрактору не удалось, показатели совпадений и f-меры по-прежнему остались
в пределах от 0 до 0,2.

1. Браславский,П.И.Автоматическоеизвлечениетерминологиис
использованиемпоисковыхмашининтернета/Е.А.Соколов;
[Электронный ресурс / Electronic resource] : научная статья. – Режим
доступа : http://www.dialog-21.ru/digests/dialog2007/materials/html/14.htm
2. Ванюшкин, А.С. Методы и алгоритмы извлечения ключевых слов / Л.А.
Гращенко; Новые информационные технологии в автоматизированных
системах. 2016. №19. С. 85-87.
3. Гамзатова, А.Ф. «Эмоциональное» и «формальное»: проблема выделения
ключевых слов компьютерными программами в сопоставлении с
методикой их экспертного вычленения.
4. Захаров, В.П. Анализ эффективности статистических методов выявления
коллокаций в текстах на русском языке. – 2010. – / М.В. Хохлова;
Компьютерная лингвистика и интеллектуальные технологии: Труды
международной конференции «Диалог – 2010».
5. Москвина,А.Д.Автоматическоевыделениеключевыхслови
словосочетаний из русскоязычных корпусов текстов с помощью алгоритма
RAKE / О. А. Митрофанова, А. Р. Ерофеева, Я. К. Харабет;Труды
международной конференции «Корпусная лингвистика – 2017». –СПб:
Издательство Санкт-Петербургского университета, 2017. – С. 268–275.
6. Москвитина, Т.Н. Ключевые слова и их функции в научном тексте //
Вестник Челябинского государственного педагогического университета.
2009. № 11. С. 270-283.
7. Мурзин, Л. Н. Текст и его восприятие / А. С. Штерн; Свердловск : Изд-во
Урал. ун-та, 1991.
8. Система PullEnti – извлечение информации из текстов естественного языка
и автоматизированное построение информационных систем / О. В.
Золотарев, М. М. Шарнин, С. В. Клименко, К. И. Кузнецов // Ситуационные
центры и информационно-аналитические системы класса 4i для задач
мониторинга и безопасности (SCVRT2015-16) : Труды Международной
научной конференции: в 2-х томах, ЦарьГрад, Московская область, Россия,
21–24 ноября 2016 года. – ЦарьГрад, Московская область, Россия:
Автономная некоммерческая организация “Институт физико-технической
информатики”, 2016. – С. 28-35.
9. Усталов, Д.А. Извлечение терминов из русскоязычных текстов при помощи
графовых моделей. – 2012. – // CSEDays: Теория графов и приложения. –
Екатеринбург.
10.Шереметьева, С.О. Методы и модели автоматического извлечения
ключевых слов / С.О. Шереметьева, П.Г. Осминин // Вестник ЮУрГУ.
Серия «Лингвистика» : 2015. – Т. 12, № 1. – С. 76–81.
11.Ягунова, Е.В. Эксперимент и вычисления в анализе ключевых слов
художественноготекста//Философияязыка.Лингвистика.
Лингводидактика №1 Пермь : 2010. с.83-89
12.Campos, R., Mangaravite, V., Pasquali, A., Jorge, A.M., Nunes, C., Jatowt, A.:
Yake! collection-independent automatic keyword extractor. In: European
Conference on Information Retrieval. Springer : 2018. pp. 806–810.
13.Campos, R., Mangaravite, V., Pasquali, A., Jatowt, A., Jorge, A., Nunes, C. and
Jatowt, A. (2020). YAKE! Keyword Extraction from Single Documents using
Multiple Local Features. In Information Sciences Journal. Elsevier, Vol 509, pp
257-289.
14.Eibe Frank, Gordon W. Paynter, Ian H. Witten, Carl Gutwin, and Craig G. Nevill-
Manning. 1999. Domain-specific keyphrase extraction. In Proceedings of 16th
International Joint Conference on Artificial Intelligence, pages 668–673.
15.Kazi Saidul Hasan and Vincent Ng, Automatic Keyphrase Extraction: A Survey
of the State of the Art. ACL : 2014.
16.KeyBERT [Электронный ресурс] :статья. – Режим доступа :
https://blog.google/products/search/search-language-understanding-bert/.
17.Luhn H.P. A Statistical Approach to Mechanized Encoding and Searching of
Literary Information // IBM J. Res. Dev. №4. – 1957 . – С. 309–317.
18.Luhn H.P. The Automatic Creation of Literature Abstracts // IBM J. Res. Dev. –
1958. – April- С. 159–165.
19.Maarten Grootendorst: KeyBERT: Minimal keyword extraction with BERT. // –
2020. Zenodo: [Электронный ресурс] :статья. – Режим доступа :
https://doi.org/10.5281/zenodo.4461265.
20.Matzuo Y., Ishizuka M. Keyword Extraction from a Single Document using
Word Co-occurrence Statistical Information // Int. J. Artificial Intell. Tools. –
2004 . – С. 13.
21.Olena Medelyan, Eibe Frank, and Ian H. Witten. 2009. Human-competitive
tagging using automatic keyphrase extraction. In Proceedings of the 2009
Conference on Empirical Methods in Natural Language Processing, pages 1318–
1327.
22.Peter Turney. 2003. Coherent keyphrase extraction via web mining. In
Proceedings of the 18th International Joint Conference on Artificial Intelligence,
pages 434–439.
23.Pymorphy2 [Электронный ресурс] : открытое программное обеспечение. –
Режим доступа : https://pymorphy2.readthedocs.io/en/stable/.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Сергей Н.
    4.8 (40 отзывов)
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных с... Читать все
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных статей в области экономики.
    #Кандидатские #Магистерские
    56 Выполненных работ
    Егор В. кандидат наук, доцент
    5 (428 отзывов)
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Ск... Читать все
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Скорее всего Ваш заказ будет выполнен раньше срока.
    #Кандидатские #Магистерские
    694 Выполненных работы
    Олег Н. Томский политехнический университет 2000, Инженерно-эконо...
    4.7 (96 отзывов)
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Явл... Читать все
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Являюсь действующим преподавателем одного из ВУЗов.
    #Кандидатские #Магистерские
    177 Выполненных работ
    Катерина М. кандидат наук, доцент
    4.9 (522 отзыва)
    Кандидат технических наук. Специализируюсь на выполнении работ по метрологии и стандартизации
    Кандидат технических наук. Специализируюсь на выполнении работ по метрологии и стандартизации
    #Кандидатские #Магистерские
    836 Выполненных работ
    Катерина В. преподаватель, кандидат наук
    4.6 (30 отзывов)
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации... Читать все
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации. Опыт работы 7 лет. Всегда на связи и готова прийти на помощь. Вместе удовлетворим самого требовательного научного руководителя. Возможно полное сопровождение: от статуса студента до получения научной степени.
    #Кандидатские #Магистерские
    47 Выполненных работ
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ
    Анна К. ТГПУ им.ЛН.Толстого 2010, ФИСиГН, выпускник
    4.6 (30 отзывов)
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помог... Читать все
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помогала студентам, вышедшим на меня по рекомендации.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    Александр О. Спб государственный университет 1972, мат - мех, преподав...
    4.9 (66 отзывов)
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальн... Читать все
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальных уравнений. Умею быстро и четко выполнять сложные вычислительные работ
    #Кандидатские #Магистерские
    117 Выполненных работ

    Другие учебные работы по предмету

    Видовые различия в русской речи польских и чешских студентов
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Фразеологические единицы в политическом дискурсе
    📅 2021год
    🏢 Санкт-Петербургский государственный университет