Экспериментальное исследование методов автоматического выделения ключевых выражений в корпусах русскоязычных текстов

Гаврилик Дарья Александровна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Настоящая работа посвящена исследованию природы ключевых выражений экспериментальным путем с использованием разметки экспертов и автоматических методов извлечения ключевых выражений. Исследование затрагивает проблему определения и извлечения ключевых выражений из текстов разных функциональных стилей. Значимость данной работы заключается в утверждении существования зависимости местоположения ключевых выражений относительно всего документа. В ходе исследования описывается реализация собственного экстрактора ключевых выражений, основанного на грамматических правилах.

Увеличение потока текстовой информации в современном мире порождает
необходимость эту информацию структурировать, упорядочивать, делать более
простой и быстрой для поиска. Именно для решения задач компрессии потока
текстовой информации необходимы методы автоматической обработки текстов.
Одной из важнейших таких задач является процедура автоматического
извлечения ключевых выражений из текстов для рубрикации, индексировании,
классификации, бизнес-стратегиях, лексикографии, библиотечном деле,
информационном поиске и так далее. Ключевые выражения также помогают
составить быструю оценку содержания документов, что становится актуальнее в
настоящем мире.
Исследования в области автоматического извлечения ключевых
выражений широко проводятся на материале английского языка. Существует
множество алгоритмов и исследований особенно в последние десятилетия.
Исследования с использованием русскоязычного материала можно найти у таких
исследователей, как Е.В.Ягунова, О.А.Митрофанова, Т.Ю.Шерстинова,
А.Д.Москвина и др. Довольно часто предпринимаются попытки адаптирования
алгоритмов для работы с англоязычными документами под работу с
русскоязычными. Однако сопоставительных исследований работы разных
алгоритмов не было проведено и оценено на материале русского языка. В
настоящем исследовании впервые описываются алгоритмы, способные работать
с русскоязычными документами смешанных функциональных стилей, с
дальнейшей обработкой результатов оценки эффективности.
Актуальность работы обуславливается необходимостью
структурирования потока текстовой информации при помощи компрессии. В
данной работе проводится исследование природы текстового документа на
предмет местоположения ключевого выражения относительно традиционного
деления текста на введение, основную часть и заключение. Таким образом,
деление документа на части и извлечение ключевых выражений из определенной
его части в разы сократит время обработки текста на естественном языке.
Извлечение ключевых выражений из документов является довольно
традиционной, а значит, старой процедурой, но с изменением типа текстов и
задач работы с этим текстом, актуальным является сравнение методов с целью
определения их эффективности.
Новизна исследования заключается в использовании сопоставительного
анализа на смешанных корпусах разных функциональных стилей –
публицистическом, научном и художественном. Впервые проводится
исследование сравнения не только самих алгоритмов на предмет эффективности,
но и сравнение ключевых выражений, извлеченных алгоритмами и размеченных
экспертами. Данное решение обусловлено целью исследовать природу текстов и
определения местоположения ключевых выражений в тексте.
Объектом исследования выступает природа ключевых выражений в
корпусе русскоязычных текстов смешанных стилей. Предметом настоящей
работы являются методы, использованные для извлечения ключевых выражений
из текстов.
Цель исследования состоит в том, чтобы экспериментальным путем
определить местоположение ключевых выражений относительно всего текста
при помощи сравнения экспертной разметки и различных методов
автоматического выделения ключевых выражений при работе с русскоязычными
текстами различной тематики и стилей.
Для достижения данной цели требуется решить следующие задачи:
1. исследовать теоретические основания процедуры автоматического
выделения ключевых выражений, проанализировать подходы к
выделению ключевых выражений с точки зрения психолингвистики
(А.С.Штерн, Л.В.Сахарный, Л.Н.Мурзин, Е.В.Ягунова и др.);
2. произвести отбор методов автоматического выделения ключевых
выражений для проведения экспериментов (tf-idf, Log-likelihood, Chi-

В ходе исследования была достигнута следующая цель:
экспериментальным путем было определено, что существует зависимость
местоположения ключевых выражений относительно всего текста при помощи
сравнения экспертной разметки и различных методов автоматического
выделения ключевых выражений при работе с русскоязычными текстами
различной тематики и стилей. Ключевые выражения содержатся в самом начале
текста и с малой вероятностью появляются в основной части и заключении
документа.
В настоящей работе было проведено исследование природы ключевых
выражений относительно структуры текста. Гипотеза о существовании
зависимости местоположения ключевого выражения подтвердилась в ходе
эксперимента, который состоял в том, чтобы поделить текст на две части,
извлечь ключевые выражения из начала при помощи экспертов, а при помощи
алгоритмов из оставшейся части и сравнить количество совпадений. Суммы
совпадений оказались настолько низкими, что был сделан вывод о концентрации
ключевых выражений в самом начале текста. Оценка эффективности алгоритмов
не поднялась выше 0,2, что говорит о малом количестве встречаемости ключевых
выражений результатов алгоритмов и разметки экспертов.
Важно отметить тот факт, что для подкорпусов всех трех функциональных
стилей – публицистического, научного и художественного – наблюдается
подтверждение гипотезы. Самые высокие показатели совпадений получились у
публицистического подкорпуса, самые низкие – у художественного. Такая
ситуация объясняется простой и краткостью новостных текстов
публицистического подкорпуса и объемом и сложностью документов
художественного подкорпуса.
В ходе работы над диссертацией был создан и опробован собственный
экстрактор ключевых выражений, основанный на грамматике. Данный алгоритм
способен извлекать выражения, нужные пользователю, то есть необходимо
написать правила грамматики, и алгоритм начнет работу.
Для настоящего исследования были написаны правила грамматики,
основанные на ключевых выражениях научного подкорпуса. Экстрактор наравне
с другими традиционными алгоритмами извлекал ключевые выражения.
Результаты оценки эффективности были признаны средними относительно
остальных алгоритмов, однако, опровергнуть гипотезу разработанному
экстрактору не удалось, показатели совпадений и f-меры по-прежнему остались
в пределах от 0 до 0,2.

1. Браславский,П.И.Автоматическоеизвлечениетерминологиис
использованиемпоисковыхмашининтернета/Е.А.Соколов;
[Электронный ресурс / Electronic resource] : научная статья. – Режим
доступа : http://www.dialog-21.ru/digests/dialog2007/materials/html/14.htm
2. Ванюшкин, А.С. Методы и алгоритмы извлечения ключевых слов / Л.А.
Гращенко; Новые информационные технологии в автоматизированных
системах. 2016. №19. С. 85-87.
3. Гамзатова, А.Ф. «Эмоциональное» и «формальное»: проблема выделения
ключевых слов компьютерными программами в сопоставлении с
методикой их экспертного вычленения.
4. Захаров, В.П. Анализ эффективности статистических методов выявления
коллокаций в текстах на русском языке. – 2010. – / М.В. Хохлова;
Компьютерная лингвистика и интеллектуальные технологии: Труды
международной конференции «Диалог – 2010».
5. Москвина,А.Д.Автоматическоевыделениеключевыхслови
словосочетаний из русскоязычных корпусов текстов с помощью алгоритма
RAKE / О. А. Митрофанова, А. Р. Ерофеева, Я. К. Харабет;Труды
международной конференции «Корпусная лингвистика – 2017». –СПб:
Издательство Санкт-Петербургского университета, 2017. – С. 268–275.
6. Москвитина, Т.Н. Ключевые слова и их функции в научном тексте //
Вестник Челябинского государственного педагогического университета.
2009. № 11. С. 270-283.
7. Мурзин, Л. Н. Текст и его восприятие / А. С. Штерн; Свердловск : Изд-во
Урал. ун-та, 1991.
8. Система PullEnti – извлечение информации из текстов естественного языка
и автоматизированное построение информационных систем / О. В.
Золотарев, М. М. Шарнин, С. В. Клименко, К. И. Кузнецов // Ситуационные
центры и информационно-аналитические системы класса 4i для задач
мониторинга и безопасности (SCVRT2015-16) : Труды Международной
научной конференции: в 2-х томах, ЦарьГрад, Московская область, Россия,
21–24 ноября 2016 года. – ЦарьГрад, Московская область, Россия:
Автономная некоммерческая организация “Институт физико-технической
информатики”, 2016. – С. 28-35.
9. Усталов, Д.А. Извлечение терминов из русскоязычных текстов при помощи
графовых моделей. – 2012. – // CSEDays: Теория графов и приложения. –
Екатеринбург.
10.Шереметьева, С.О. Методы и модели автоматического извлечения
ключевых слов / С.О. Шереметьева, П.Г. Осминин // Вестник ЮУрГУ.
Серия «Лингвистика» : 2015. – Т. 12, № 1. – С. 76–81.
11.Ягунова, Е.В. Эксперимент и вычисления в анализе ключевых слов
художественноготекста//Философияязыка.Лингвистика.
Лингводидактика №1 Пермь : 2010. с.83-89
12.Campos, R., Mangaravite, V., Pasquali, A., Jorge, A.M., Nunes, C., Jatowt, A.:
Yake! collection-independent automatic keyword extractor. In: European
Conference on Information Retrieval. Springer : 2018. pp. 806–810.
13.Campos, R., Mangaravite, V., Pasquali, A., Jatowt, A., Jorge, A., Nunes, C. and
Jatowt, A. (2020). YAKE! Keyword Extraction from Single Documents using
Multiple Local Features. In Information Sciences Journal. Elsevier, Vol 509, pp
257-289.
14.Eibe Frank, Gordon W. Paynter, Ian H. Witten, Carl Gutwin, and Craig G. Nevill-
Manning. 1999. Domain-specific keyphrase extraction. In Proceedings of 16th
International Joint Conference on Artificial Intelligence, pages 668–673.
15.Kazi Saidul Hasan and Vincent Ng, Automatic Keyphrase Extraction: A Survey
of the State of the Art. ACL : 2014.
16.KeyBERT [Электронный ресурс] :статья. – Режим доступа :
https://blog.google/products/search/search-language-understanding-bert/.
17.Luhn H.P. A Statistical Approach to Mechanized Encoding and Searching of
Literary Information // IBM J. Res. Dev. №4. – 1957 . – С. 309–317.
18.Luhn H.P. The Automatic Creation of Literature Abstracts // IBM J. Res. Dev. –
1958. – April- С. 159–165.
19.Maarten Grootendorst: KeyBERT: Minimal keyword extraction with BERT. // –
2020. Zenodo: [Электронный ресурс] :статья. – Режим доступа :
https://doi.org/10.5281/zenodo.4461265.
20.Matzuo Y., Ishizuka M. Keyword Extraction from a Single Document using
Word Co-occurrence Statistical Information // Int. J. Artificial Intell. Tools. –
2004 . – С. 13.
21.Olena Medelyan, Eibe Frank, and Ian H. Witten. 2009. Human-competitive
tagging using automatic keyphrase extraction. In Proceedings of the 2009
Conference on Empirical Methods in Natural Language Processing, pages 1318–
1327.
22.Peter Turney. 2003. Coherent keyphrase extraction via web mining. In
Proceedings of the 18th International Joint Conference on Artificial Intelligence,
pages 434–439.
23.Pymorphy2 [Электронный ресурс] : открытое программное обеспечение. –
Режим доступа : https://pymorphy2.readthedocs.io/en/stable/.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Лидия К.
    4.5 (330 отзывов)
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии ... Читать все
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии и педагогики. Написание диссертаций, ВКР, курсовых и иных видов работ.
    #Кандидатские #Магистерские
    592 Выполненных работы
    Анна Александровна Б. Воронежский государственный университет инженерных технол...
    4.8 (30 отзывов)
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственно... Читать все
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственном университете инженерных технологий.
    #Кандидатские #Магистерские
    66 Выполненных работ
    Логик Ф. кандидат наук, доцент
    4.9 (826 отзывов)
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские дисс... Читать все
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские диссертации, рефераты, контрольные) уже много лет. Качество работ гарантирую.
    #Кандидатские #Магистерские
    1486 Выполненных работ
    Мария А. кандидат наук
    4.7 (18 отзывов)
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет... Читать все
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет, реклама, журналистика, педагогика, право)
    #Кандидатские #Магистерские
    39 Выполненных работ
    Татьяна С. кандидат наук
    4.9 (298 отзывов)
    Большой опыт работы. Кандидаты химических, биологических, технических, экономических, юридических, философских наук. Участие в НИОКР, Только актуальная литература (пос... Читать все
    Большой опыт работы. Кандидаты химических, биологических, технических, экономических, юридических, философских наук. Участие в НИОКР, Только актуальная литература (поставки напрямую с издательств), доступ к библиотеке диссертаций РГБ
    #Кандидатские #Магистерские
    551 Выполненная работа
    Ольга Р. доктор, профессор
    4.2 (13 отзывов)
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласован... Читать все
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласованные сроки и при необходимости дорабатываются по рекомендациям научного руководителя (преподавателя). Буду рада плодотворному и взаимовыгодному сотрудничеству!!! К каждой работе подхожу индивидуально! Всегда готова по любому вопросу договориться с заказчиком! Все работы проверяю на антиплагиат.ру по умолчанию, если в заказе не стоит иное и если это заранее не обговорено!!!
    #Кандидатские #Магистерские
    21 Выполненная работа
    Анна Н. Государственный университет управления 2021, Экономика и ...
    0 (13 отзывов)
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.
    #Кандидатские #Магистерские
    0 Выполненных работ
    Кирилл Ч. ИНЖЭКОН 2010, экономика и управление на предприятии транс...
    4.9 (343 отзыва)
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). С... Читать все
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). Сейчас пишу диссертацию на соискание степени кандидата экономических наук.
    #Кандидатские #Магистерские
    692 Выполненных работы
    Дмитрий Л. КНЭУ 2015, Экономики и управления, выпускник
    4.8 (2878 отзывов)
    Занимаю 1 место в рейтинге исполнителей по категориям работ "Научные статьи" и "Эссе". Пишу дипломные работы и магистерские диссертации.
    Занимаю 1 место в рейтинге исполнителей по категориям работ "Научные статьи" и "Эссе". Пишу дипломные работы и магистерские диссертации.
    #Кандидатские #Магистерские
    5125 Выполненных работ

    Другие учебные работы по предмету

    Видовые различия в русской речи польских и чешских студентов
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Фразеологические единицы в политическом дискурсе
    📅 2021год
    🏢 Санкт-Петербургский государственный университет