Экспериментальное исследование методов автоматического выделения ключевых выражений в корпусах русскоязычных текстов

Гаврилик Дарья Александровна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Настоящая работа посвящена исследованию природы ключевых выражений экспериментальным путем с использованием разметки экспертов и автоматических методов извлечения ключевых выражений. Исследование затрагивает проблему определения и извлечения ключевых выражений из текстов разных функциональных стилей. Значимость данной работы заключается в утверждении существования зависимости местоположения ключевых выражений относительно всего документа. В ходе исследования описывается реализация собственного экстрактора ключевых выражений, основанного на грамматических правилах.

Увеличение потока текстовой информации в современном мире порождает
необходимость эту информацию структурировать, упорядочивать, делать более
простой и быстрой для поиска. Именно для решения задач компрессии потока
текстовой информации необходимы методы автоматической обработки текстов.
Одной из важнейших таких задач является процедура автоматического
извлечения ключевых выражений из текстов для рубрикации, индексировании,
классификации, бизнес-стратегиях, лексикографии, библиотечном деле,
информационном поиске и так далее. Ключевые выражения также помогают
составить быструю оценку содержания документов, что становится актуальнее в
настоящем мире.
Исследования в области автоматического извлечения ключевых
выражений широко проводятся на материале английского языка. Существует
множество алгоритмов и исследований особенно в последние десятилетия.
Исследования с использованием русскоязычного материала можно найти у таких
исследователей, как Е.В.Ягунова, О.А.Митрофанова, Т.Ю.Шерстинова,
А.Д.Москвина и др. Довольно часто предпринимаются попытки адаптирования
алгоритмов для работы с англоязычными документами под работу с
русскоязычными. Однако сопоставительных исследований работы разных
алгоритмов не было проведено и оценено на материале русского языка. В
настоящем исследовании впервые описываются алгоритмы, способные работать
с русскоязычными документами смешанных функциональных стилей, с
дальнейшей обработкой результатов оценки эффективности.
Актуальность работы обуславливается необходимостью
структурирования потока текстовой информации при помощи компрессии. В
данной работе проводится исследование природы текстового документа на
предмет местоположения ключевого выражения относительно традиционного
деления текста на введение, основную часть и заключение. Таким образом,
деление документа на части и извлечение ключевых выражений из определенной
его части в разы сократит время обработки текста на естественном языке.
Извлечение ключевых выражений из документов является довольно
традиционной, а значит, старой процедурой, но с изменением типа текстов и
задач работы с этим текстом, актуальным является сравнение методов с целью
определения их эффективности.
Новизна исследования заключается в использовании сопоставительного
анализа на смешанных корпусах разных функциональных стилей –
публицистическом, научном и художественном. Впервые проводится
исследование сравнения не только самих алгоритмов на предмет эффективности,
но и сравнение ключевых выражений, извлеченных алгоритмами и размеченных
экспертами. Данное решение обусловлено целью исследовать природу текстов и
определения местоположения ключевых выражений в тексте.
Объектом исследования выступает природа ключевых выражений в
корпусе русскоязычных текстов смешанных стилей. Предметом настоящей
работы являются методы, использованные для извлечения ключевых выражений
из текстов.
Цель исследования состоит в том, чтобы экспериментальным путем
определить местоположение ключевых выражений относительно всего текста
при помощи сравнения экспертной разметки и различных методов
автоматического выделения ключевых выражений при работе с русскоязычными
текстами различной тематики и стилей.
Для достижения данной цели требуется решить следующие задачи:
1. исследовать теоретические основания процедуры автоматического
выделения ключевых выражений, проанализировать подходы к
выделению ключевых выражений с точки зрения психолингвистики
(А.С.Штерн, Л.В.Сахарный, Л.Н.Мурзин, Е.В.Ягунова и др.);
2. произвести отбор методов автоматического выделения ключевых
выражений для проведения экспериментов (tf-idf, Log-likelihood, Chi-

В ходе исследования была достигнута следующая цель:
экспериментальным путем было определено, что существует зависимость
местоположения ключевых выражений относительно всего текста при помощи
сравнения экспертной разметки и различных методов автоматического
выделения ключевых выражений при работе с русскоязычными текстами
различной тематики и стилей. Ключевые выражения содержатся в самом начале
текста и с малой вероятностью появляются в основной части и заключении
документа.
В настоящей работе было проведено исследование природы ключевых
выражений относительно структуры текста. Гипотеза о существовании
зависимости местоположения ключевого выражения подтвердилась в ходе
эксперимента, который состоял в том, чтобы поделить текст на две части,
извлечь ключевые выражения из начала при помощи экспертов, а при помощи
алгоритмов из оставшейся части и сравнить количество совпадений. Суммы
совпадений оказались настолько низкими, что был сделан вывод о концентрации
ключевых выражений в самом начале текста. Оценка эффективности алгоритмов
не поднялась выше 0,2, что говорит о малом количестве встречаемости ключевых
выражений результатов алгоритмов и разметки экспертов.
Важно отметить тот факт, что для подкорпусов всех трех функциональных
стилей – публицистического, научного и художественного – наблюдается
подтверждение гипотезы. Самые высокие показатели совпадений получились у
публицистического подкорпуса, самые низкие – у художественного. Такая
ситуация объясняется простой и краткостью новостных текстов
публицистического подкорпуса и объемом и сложностью документов
художественного подкорпуса.
В ходе работы над диссертацией был создан и опробован собственный
экстрактор ключевых выражений, основанный на грамматике. Данный алгоритм
способен извлекать выражения, нужные пользователю, то есть необходимо
написать правила грамматики, и алгоритм начнет работу.
Для настоящего исследования были написаны правила грамматики,
основанные на ключевых выражениях научного подкорпуса. Экстрактор наравне
с другими традиционными алгоритмами извлекал ключевые выражения.
Результаты оценки эффективности были признаны средними относительно
остальных алгоритмов, однако, опровергнуть гипотезу разработанному
экстрактору не удалось, показатели совпадений и f-меры по-прежнему остались
в пределах от 0 до 0,2.

1. Браславский,П.И.Автоматическоеизвлечениетерминологиис
использованиемпоисковыхмашининтернета/Е.А.Соколов;
[Электронный ресурс / Electronic resource] : научная статья. – Режим
доступа : http://www.dialog-21.ru/digests/dialog2007/materials/html/14.htm
2. Ванюшкин, А.С. Методы и алгоритмы извлечения ключевых слов / Л.А.
Гращенко; Новые информационные технологии в автоматизированных
системах. 2016. №19. С. 85-87.
3. Гамзатова, А.Ф. «Эмоциональное» и «формальное»: проблема выделения
ключевых слов компьютерными программами в сопоставлении с
методикой их экспертного вычленения.
4. Захаров, В.П. Анализ эффективности статистических методов выявления
коллокаций в текстах на русском языке. – 2010. – / М.В. Хохлова;
Компьютерная лингвистика и интеллектуальные технологии: Труды
международной конференции «Диалог – 2010».
5. Москвина,А.Д.Автоматическоевыделениеключевыхслови
словосочетаний из русскоязычных корпусов текстов с помощью алгоритма
RAKE / О. А. Митрофанова, А. Р. Ерофеева, Я. К. Харабет;Труды
международной конференции «Корпусная лингвистика – 2017». –СПб:
Издательство Санкт-Петербургского университета, 2017. – С. 268–275.
6. Москвитина, Т.Н. Ключевые слова и их функции в научном тексте //
Вестник Челябинского государственного педагогического университета.
2009. № 11. С. 270-283.
7. Мурзин, Л. Н. Текст и его восприятие / А. С. Штерн; Свердловск : Изд-во
Урал. ун-та, 1991.
8. Система PullEnti – извлечение информации из текстов естественного языка
и автоматизированное построение информационных систем / О. В.
Золотарев, М. М. Шарнин, С. В. Клименко, К. И. Кузнецов // Ситуационные
центры и информационно-аналитические системы класса 4i для задач
мониторинга и безопасности (SCVRT2015-16) : Труды Международной
научной конференции: в 2-х томах, ЦарьГрад, Московская область, Россия,
21–24 ноября 2016 года. – ЦарьГрад, Московская область, Россия:
Автономная некоммерческая организация “Институт физико-технической
информатики”, 2016. – С. 28-35.
9. Усталов, Д.А. Извлечение терминов из русскоязычных текстов при помощи
графовых моделей. – 2012. – // CSEDays: Теория графов и приложения. –
Екатеринбург.
10.Шереметьева, С.О. Методы и модели автоматического извлечения
ключевых слов / С.О. Шереметьева, П.Г. Осминин // Вестник ЮУрГУ.
Серия «Лингвистика» : 2015. – Т. 12, № 1. – С. 76–81.
11.Ягунова, Е.В. Эксперимент и вычисления в анализе ключевых слов
художественноготекста//Философияязыка.Лингвистика.
Лингводидактика №1 Пермь : 2010. с.83-89
12.Campos, R., Mangaravite, V., Pasquali, A., Jorge, A.M., Nunes, C., Jatowt, A.:
Yake! collection-independent automatic keyword extractor. In: European
Conference on Information Retrieval. Springer : 2018. pp. 806–810.
13.Campos, R., Mangaravite, V., Pasquali, A., Jatowt, A., Jorge, A., Nunes, C. and
Jatowt, A. (2020). YAKE! Keyword Extraction from Single Documents using
Multiple Local Features. In Information Sciences Journal. Elsevier, Vol 509, pp
257-289.
14.Eibe Frank, Gordon W. Paynter, Ian H. Witten, Carl Gutwin, and Craig G. Nevill-
Manning. 1999. Domain-specific keyphrase extraction. In Proceedings of 16th
International Joint Conference on Artificial Intelligence, pages 668–673.
15.Kazi Saidul Hasan and Vincent Ng, Automatic Keyphrase Extraction: A Survey
of the State of the Art. ACL : 2014.
16.KeyBERT [Электронный ресурс] :статья. – Режим доступа :
https://blog.google/products/search/search-language-understanding-bert/.
17.Luhn H.P. A Statistical Approach to Mechanized Encoding and Searching of
Literary Information // IBM J. Res. Dev. №4. – 1957 . – С. 309–317.
18.Luhn H.P. The Automatic Creation of Literature Abstracts // IBM J. Res. Dev. –
1958. – April- С. 159–165.
19.Maarten Grootendorst: KeyBERT: Minimal keyword extraction with BERT. // –
2020. Zenodo: [Электронный ресурс] :статья. – Режим доступа :
https://doi.org/10.5281/zenodo.4461265.
20.Matzuo Y., Ishizuka M. Keyword Extraction from a Single Document using
Word Co-occurrence Statistical Information // Int. J. Artificial Intell. Tools. –
2004 . – С. 13.
21.Olena Medelyan, Eibe Frank, and Ian H. Witten. 2009. Human-competitive
tagging using automatic keyphrase extraction. In Proceedings of the 2009
Conference on Empirical Methods in Natural Language Processing, pages 1318–
1327.
22.Peter Turney. 2003. Coherent keyphrase extraction via web mining. In
Proceedings of the 18th International Joint Conference on Artificial Intelligence,
pages 434–439.
23.Pymorphy2 [Электронный ресурс] : открытое программное обеспечение. –
Режим доступа : https://pymorphy2.readthedocs.io/en/stable/.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Анна С. СФ ПГУ им. М.В. Ломоносова 2004, филологический, преподав...
    4.8 (9 отзывов)
    Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания... Читать все
    Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания и проверки (в качестве преподавателя) контрольных и курсовых работ.
    #Кандидатские #Магистерские
    16 Выполненных работ
    Анна Н. Государственный университет управления 2021, Экономика и ...
    0 (13 отзывов)
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.
    #Кандидатские #Магистерские
    0 Выполненных работ
    Екатерина С. кандидат наук, доцент
    4.6 (522 отзыва)
    Практически всегда онлайн, доработки делаю бесплатно. Дипломные работы и Магистерские диссертации сопровождаю до защиты.
    Практически всегда онлайн, доработки делаю бесплатно. Дипломные работы и Магистерские диссертации сопровождаю до защиты.
    #Кандидатские #Магистерские
    1077 Выполненных работ
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ
    Шагали Е. УрГЭУ 2007, Экономика, преподаватель
    4.4 (59 отзывов)
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и... Читать все
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и диссертаций, Есть любимые темы - они дешевле обойдутся, ибо в радость)
    #Кандидатские #Магистерские
    76 Выполненных работ
    Виктор В. Смоленская государственная медицинская академия 1997, Леч...
    4.7 (46 отзывов)
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выв... Читать все
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выводы).Пишу статьи в РИНЦ, ВАК.Оформление патентов от идеи до регистрации.
    #Кандидатские #Магистерские
    100 Выполненных работ
    Татьяна С. кандидат наук
    4.9 (298 отзывов)
    Большой опыт работы. Кандидаты химических, биологических, технических, экономических, юридических, философских наук. Участие в НИОКР, Только актуальная литература (пос... Читать все
    Большой опыт работы. Кандидаты химических, биологических, технических, экономических, юридических, философских наук. Участие в НИОКР, Только актуальная литература (поставки напрямую с издательств), доступ к библиотеке диссертаций РГБ
    #Кандидатские #Магистерские
    551 Выполненная работа
    Лидия К.
    4.5 (330 отзывов)
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии ... Читать все
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии и педагогики. Написание диссертаций, ВКР, курсовых и иных видов работ.
    #Кандидатские #Магистерские
    592 Выполненных работы
    Мария Б. преподаватель, кандидат наук
    5 (22 отзыва)
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальнос... Читать все
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальности "Экономика и управление народным хозяйством". Автор научных статей.
    #Кандидатские #Магистерские
    37 Выполненных работ

    Другие учебные работы по предмету

    Видовые различия в русской речи польских и чешских студентов
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Фразеологические единицы в политическом дискурсе
    📅 2021год
    🏢 Санкт-Петербургский государственный университет