Экспериментальное исследование методов автоматического выделения ключевых выражений в корпусах русскоязычных текстов

Гаврилик Дарья Александровна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Настоящая работа посвящена исследованию природы ключевых выражений экспериментальным путем с использованием разметки экспертов и автоматических методов извлечения ключевых выражений. Исследование затрагивает проблему определения и извлечения ключевых выражений из текстов разных функциональных стилей. Значимость данной работы заключается в утверждении существования зависимости местоположения ключевых выражений относительно всего документа. В ходе исследования описывается реализация собственного экстрактора ключевых выражений, основанного на грамматических правилах.

Увеличение потока текстовой информации в современном мире порождает
необходимость эту информацию структурировать, упорядочивать, делать более
простой и быстрой для поиска. Именно для решения задач компрессии потока
текстовой информации необходимы методы автоматической обработки текстов.
Одной из важнейших таких задач является процедура автоматического
извлечения ключевых выражений из текстов для рубрикации, индексировании,
классификации, бизнес-стратегиях, лексикографии, библиотечном деле,
информационном поиске и так далее. Ключевые выражения также помогают
составить быструю оценку содержания документов, что становится актуальнее в
настоящем мире.
Исследования в области автоматического извлечения ключевых
выражений широко проводятся на материале английского языка. Существует
множество алгоритмов и исследований особенно в последние десятилетия.
Исследования с использованием русскоязычного материала можно найти у таких
исследователей, как Е.В.Ягунова, О.А.Митрофанова, Т.Ю.Шерстинова,
А.Д.Москвина и др. Довольно часто предпринимаются попытки адаптирования
алгоритмов для работы с англоязычными документами под работу с
русскоязычными. Однако сопоставительных исследований работы разных
алгоритмов не было проведено и оценено на материале русского языка. В
настоящем исследовании впервые описываются алгоритмы, способные работать
с русскоязычными документами смешанных функциональных стилей, с
дальнейшей обработкой результатов оценки эффективности.
Актуальность работы обуславливается необходимостью
структурирования потока текстовой информации при помощи компрессии. В
данной работе проводится исследование природы текстового документа на
предмет местоположения ключевого выражения относительно традиционного
деления текста на введение, основную часть и заключение. Таким образом,
деление документа на части и извлечение ключевых выражений из определенной
его части в разы сократит время обработки текста на естественном языке.
Извлечение ключевых выражений из документов является довольно
традиционной, а значит, старой процедурой, но с изменением типа текстов и
задач работы с этим текстом, актуальным является сравнение методов с целью
определения их эффективности.
Новизна исследования заключается в использовании сопоставительного
анализа на смешанных корпусах разных функциональных стилей –
публицистическом, научном и художественном. Впервые проводится
исследование сравнения не только самих алгоритмов на предмет эффективности,
но и сравнение ключевых выражений, извлеченных алгоритмами и размеченных
экспертами. Данное решение обусловлено целью исследовать природу текстов и
определения местоположения ключевых выражений в тексте.
Объектом исследования выступает природа ключевых выражений в
корпусе русскоязычных текстов смешанных стилей. Предметом настоящей
работы являются методы, использованные для извлечения ключевых выражений
из текстов.
Цель исследования состоит в том, чтобы экспериментальным путем
определить местоположение ключевых выражений относительно всего текста
при помощи сравнения экспертной разметки и различных методов
автоматического выделения ключевых выражений при работе с русскоязычными
текстами различной тематики и стилей.
Для достижения данной цели требуется решить следующие задачи:
1. исследовать теоретические основания процедуры автоматического
выделения ключевых выражений, проанализировать подходы к
выделению ключевых выражений с точки зрения психолингвистики
(А.С.Штерн, Л.В.Сахарный, Л.Н.Мурзин, Е.В.Ягунова и др.);
2. произвести отбор методов автоматического выделения ключевых
выражений для проведения экспериментов (tf-idf, Log-likelihood, Chi-

В ходе исследования была достигнута следующая цель:
экспериментальным путем было определено, что существует зависимость
местоположения ключевых выражений относительно всего текста при помощи
сравнения экспертной разметки и различных методов автоматического
выделения ключевых выражений при работе с русскоязычными текстами
различной тематики и стилей. Ключевые выражения содержатся в самом начале
текста и с малой вероятностью появляются в основной части и заключении
документа.
В настоящей работе было проведено исследование природы ключевых
выражений относительно структуры текста. Гипотеза о существовании
зависимости местоположения ключевого выражения подтвердилась в ходе
эксперимента, который состоял в том, чтобы поделить текст на две части,
извлечь ключевые выражения из начала при помощи экспертов, а при помощи
алгоритмов из оставшейся части и сравнить количество совпадений. Суммы
совпадений оказались настолько низкими, что был сделан вывод о концентрации
ключевых выражений в самом начале текста. Оценка эффективности алгоритмов
не поднялась выше 0,2, что говорит о малом количестве встречаемости ключевых
выражений результатов алгоритмов и разметки экспертов.
Важно отметить тот факт, что для подкорпусов всех трех функциональных
стилей – публицистического, научного и художественного – наблюдается
подтверждение гипотезы. Самые высокие показатели совпадений получились у
публицистического подкорпуса, самые низкие – у художественного. Такая
ситуация объясняется простой и краткостью новостных текстов
публицистического подкорпуса и объемом и сложностью документов
художественного подкорпуса.
В ходе работы над диссертацией был создан и опробован собственный
экстрактор ключевых выражений, основанный на грамматике. Данный алгоритм
способен извлекать выражения, нужные пользователю, то есть необходимо
написать правила грамматики, и алгоритм начнет работу.
Для настоящего исследования были написаны правила грамматики,
основанные на ключевых выражениях научного подкорпуса. Экстрактор наравне
с другими традиционными алгоритмами извлекал ключевые выражения.
Результаты оценки эффективности были признаны средними относительно
остальных алгоритмов, однако, опровергнуть гипотезу разработанному
экстрактору не удалось, показатели совпадений и f-меры по-прежнему остались
в пределах от 0 до 0,2.

1. Браславский,П.И.Автоматическоеизвлечениетерминологиис
использованиемпоисковыхмашининтернета/Е.А.Соколов;
[Электронный ресурс / Electronic resource] : научная статья. – Режим
доступа : http://www.dialog-21.ru/digests/dialog2007/materials/html/14.htm
2. Ванюшкин, А.С. Методы и алгоритмы извлечения ключевых слов / Л.А.
Гращенко; Новые информационные технологии в автоматизированных
системах. 2016. №19. С. 85-87.
3. Гамзатова, А.Ф. «Эмоциональное» и «формальное»: проблема выделения
ключевых слов компьютерными программами в сопоставлении с
методикой их экспертного вычленения.
4. Захаров, В.П. Анализ эффективности статистических методов выявления
коллокаций в текстах на русском языке. – 2010. – / М.В. Хохлова;
Компьютерная лингвистика и интеллектуальные технологии: Труды
международной конференции «Диалог – 2010».
5. Москвина,А.Д.Автоматическоевыделениеключевыхслови
словосочетаний из русскоязычных корпусов текстов с помощью алгоритма
RAKE / О. А. Митрофанова, А. Р. Ерофеева, Я. К. Харабет;Труды
международной конференции «Корпусная лингвистика – 2017». –СПб:
Издательство Санкт-Петербургского университета, 2017. – С. 268–275.
6. Москвитина, Т.Н. Ключевые слова и их функции в научном тексте //
Вестник Челябинского государственного педагогического университета.
2009. № 11. С. 270-283.
7. Мурзин, Л. Н. Текст и его восприятие / А. С. Штерн; Свердловск : Изд-во
Урал. ун-та, 1991.
8. Система PullEnti – извлечение информации из текстов естественного языка
и автоматизированное построение информационных систем / О. В.
Золотарев, М. М. Шарнин, С. В. Клименко, К. И. Кузнецов // Ситуационные
центры и информационно-аналитические системы класса 4i для задач
мониторинга и безопасности (SCVRT2015-16) : Труды Международной
научной конференции: в 2-х томах, ЦарьГрад, Московская область, Россия,
21–24 ноября 2016 года. – ЦарьГрад, Московская область, Россия:
Автономная некоммерческая организация “Институт физико-технической
информатики”, 2016. – С. 28-35.
9. Усталов, Д.А. Извлечение терминов из русскоязычных текстов при помощи
графовых моделей. – 2012. – // CSEDays: Теория графов и приложения. –
Екатеринбург.
10.Шереметьева, С.О. Методы и модели автоматического извлечения
ключевых слов / С.О. Шереметьева, П.Г. Осминин // Вестник ЮУрГУ.
Серия «Лингвистика» : 2015. – Т. 12, № 1. – С. 76–81.
11.Ягунова, Е.В. Эксперимент и вычисления в анализе ключевых слов
художественноготекста//Философияязыка.Лингвистика.
Лингводидактика №1 Пермь : 2010. с.83-89
12.Campos, R., Mangaravite, V., Pasquali, A., Jorge, A.M., Nunes, C., Jatowt, A.:
Yake! collection-independent automatic keyword extractor. In: European
Conference on Information Retrieval. Springer : 2018. pp. 806–810.
13.Campos, R., Mangaravite, V., Pasquali, A., Jatowt, A., Jorge, A., Nunes, C. and
Jatowt, A. (2020). YAKE! Keyword Extraction from Single Documents using
Multiple Local Features. In Information Sciences Journal. Elsevier, Vol 509, pp
257-289.
14.Eibe Frank, Gordon W. Paynter, Ian H. Witten, Carl Gutwin, and Craig G. Nevill-
Manning. 1999. Domain-specific keyphrase extraction. In Proceedings of 16th
International Joint Conference on Artificial Intelligence, pages 668–673.
15.Kazi Saidul Hasan and Vincent Ng, Automatic Keyphrase Extraction: A Survey
of the State of the Art. ACL : 2014.
16.KeyBERT [Электронный ресурс] :статья. – Режим доступа :
https://blog.google/products/search/search-language-understanding-bert/.
17.Luhn H.P. A Statistical Approach to Mechanized Encoding and Searching of
Literary Information // IBM J. Res. Dev. №4. – 1957 . – С. 309–317.
18.Luhn H.P. The Automatic Creation of Literature Abstracts // IBM J. Res. Dev. –
1958. – April- С. 159–165.
19.Maarten Grootendorst: KeyBERT: Minimal keyword extraction with BERT. // –
2020. Zenodo: [Электронный ресурс] :статья. – Режим доступа :
https://doi.org/10.5281/zenodo.4461265.
20.Matzuo Y., Ishizuka M. Keyword Extraction from a Single Document using
Word Co-occurrence Statistical Information // Int. J. Artificial Intell. Tools. –
2004 . – С. 13.
21.Olena Medelyan, Eibe Frank, and Ian H. Witten. 2009. Human-competitive
tagging using automatic keyphrase extraction. In Proceedings of the 2009
Conference on Empirical Methods in Natural Language Processing, pages 1318–
1327.
22.Peter Turney. 2003. Coherent keyphrase extraction via web mining. In
Proceedings of the 18th International Joint Conference on Artificial Intelligence,
pages 434–439.
23.Pymorphy2 [Электронный ресурс] : открытое программное обеспечение. –
Режим доступа : https://pymorphy2.readthedocs.io/en/stable/.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Шагали Е. УрГЭУ 2007, Экономика, преподаватель
    4.4 (59 отзывов)
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и... Читать все
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и диссертаций, Есть любимые темы - они дешевле обойдутся, ибо в радость)
    #Кандидатские #Магистерские
    76 Выполненных работ
    user1250010 Омский государственный университет, 2010, преподаватель,...
    4 (15 отзывов)
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    #Кандидатские #Магистерские
    21 Выполненная работа
    Александр О. Спб государственный университет 1972, мат - мех, преподав...
    4.9 (66 отзывов)
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальн... Читать все
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальных уравнений. Умею быстро и четко выполнять сложные вычислительные работ
    #Кандидатские #Магистерские
    117 Выполненных работ
    Александра С.
    5 (91 отзыв)
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повы... Читать все
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повышении уникальности текста и оформлении библиографических ссылок по ГОСТу.
    #Кандидатские #Магистерские
    132 Выполненных работы
    Александр Р. ВоГТУ 2003, Экономический, преподаватель, кандидат наук
    4.5 (80 отзывов)
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфин... Читать все
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфинансы (Казначейство). Работаю в финансовой сфере более 10 лет. Банки,риски
    #Кандидатские #Магистерские
    123 Выполненных работы
    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    Егор В. кандидат наук, доцент
    5 (428 отзывов)
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Ск... Читать все
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Скорее всего Ваш заказ будет выполнен раньше срока.
    #Кандидатские #Магистерские
    694 Выполненных работы
    Алёна В. ВГПУ 2013, исторический, преподаватель
    4.2 (5 отзывов)
    Пишу дипломы, курсовые, диссертации по праву, а также истории и педагогике. Закончила исторический факультет ВГПУ. Имею высшее историческое и дополнительное юридическо... Читать все
    Пишу дипломы, курсовые, диссертации по праву, а также истории и педагогике. Закончила исторический факультет ВГПУ. Имею высшее историческое и дополнительное юридическое образование. В данный момент работаю преподавателем.
    #Кандидатские #Магистерские
    25 Выполненных работ
    Олег Н. Томский политехнический университет 2000, Инженерно-эконо...
    4.7 (96 отзывов)
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Явл... Читать все
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Являюсь действующим преподавателем одного из ВУЗов.
    #Кандидатские #Магистерские
    177 Выполненных работ

    Другие учебные работы по предмету

    Видовые различия в русской речи польских и чешских студентов
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Фразеологические единицы в политическом дискурсе
    📅 2021год
    🏢 Санкт-Петербургский государственный университет