Экспериментальное исследование методов автоматического выделения ключевых выражений в корпусах русскоязычных текстов

Гаврилик Дарья Александровна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Настоящая работа посвящена исследованию природы ключевых выражений экспериментальным путем с использованием разметки экспертов и автоматических методов извлечения ключевых выражений. Исследование затрагивает проблему определения и извлечения ключевых выражений из текстов разных функциональных стилей. Значимость данной работы заключается в утверждении существования зависимости местоположения ключевых выражений относительно всего документа. В ходе исследования описывается реализация собственного экстрактора ключевых выражений, основанного на грамматических правилах.

Увеличение потока текстовой информации в современном мире порождает
необходимость эту информацию структурировать, упорядочивать, делать более
простой и быстрой для поиска. Именно для решения задач компрессии потока
текстовой информации необходимы методы автоматической обработки текстов.
Одной из важнейших таких задач является процедура автоматического
извлечения ключевых выражений из текстов для рубрикации, индексировании,
классификации, бизнес-стратегиях, лексикографии, библиотечном деле,
информационном поиске и так далее. Ключевые выражения также помогают
составить быструю оценку содержания документов, что становится актуальнее в
настоящем мире.
Исследования в области автоматического извлечения ключевых
выражений широко проводятся на материале английского языка. Существует
множество алгоритмов и исследований особенно в последние десятилетия.
Исследования с использованием русскоязычного материала можно найти у таких
исследователей, как Е.В.Ягунова, О.А.Митрофанова, Т.Ю.Шерстинова,
А.Д.Москвина и др. Довольно часто предпринимаются попытки адаптирования
алгоритмов для работы с англоязычными документами под работу с
русскоязычными. Однако сопоставительных исследований работы разных
алгоритмов не было проведено и оценено на материале русского языка. В
настоящем исследовании впервые описываются алгоритмы, способные работать
с русскоязычными документами смешанных функциональных стилей, с
дальнейшей обработкой результатов оценки эффективности.
Актуальность работы обуславливается необходимостью
структурирования потока текстовой информации при помощи компрессии. В
данной работе проводится исследование природы текстового документа на
предмет местоположения ключевого выражения относительно традиционного
деления текста на введение, основную часть и заключение. Таким образом,
деление документа на части и извлечение ключевых выражений из определенной
его части в разы сократит время обработки текста на естественном языке.
Извлечение ключевых выражений из документов является довольно
традиционной, а значит, старой процедурой, но с изменением типа текстов и
задач работы с этим текстом, актуальным является сравнение методов с целью
определения их эффективности.
Новизна исследования заключается в использовании сопоставительного
анализа на смешанных корпусах разных функциональных стилей –
публицистическом, научном и художественном. Впервые проводится
исследование сравнения не только самих алгоритмов на предмет эффективности,
но и сравнение ключевых выражений, извлеченных алгоритмами и размеченных
экспертами. Данное решение обусловлено целью исследовать природу текстов и
определения местоположения ключевых выражений в тексте.
Объектом исследования выступает природа ключевых выражений в
корпусе русскоязычных текстов смешанных стилей. Предметом настоящей
работы являются методы, использованные для извлечения ключевых выражений
из текстов.
Цель исследования состоит в том, чтобы экспериментальным путем
определить местоположение ключевых выражений относительно всего текста
при помощи сравнения экспертной разметки и различных методов
автоматического выделения ключевых выражений при работе с русскоязычными
текстами различной тематики и стилей.
Для достижения данной цели требуется решить следующие задачи:
1. исследовать теоретические основания процедуры автоматического
выделения ключевых выражений, проанализировать подходы к
выделению ключевых выражений с точки зрения психолингвистики
(А.С.Штерн, Л.В.Сахарный, Л.Н.Мурзин, Е.В.Ягунова и др.);
2. произвести отбор методов автоматического выделения ключевых
выражений для проведения экспериментов (tf-idf, Log-likelihood, Chi-

В ходе исследования была достигнута следующая цель:
экспериментальным путем было определено, что существует зависимость
местоположения ключевых выражений относительно всего текста при помощи
сравнения экспертной разметки и различных методов автоматического
выделения ключевых выражений при работе с русскоязычными текстами
различной тематики и стилей. Ключевые выражения содержатся в самом начале
текста и с малой вероятностью появляются в основной части и заключении
документа.
В настоящей работе было проведено исследование природы ключевых
выражений относительно структуры текста. Гипотеза о существовании
зависимости местоположения ключевого выражения подтвердилась в ходе
эксперимента, который состоял в том, чтобы поделить текст на две части,
извлечь ключевые выражения из начала при помощи экспертов, а при помощи
алгоритмов из оставшейся части и сравнить количество совпадений. Суммы
совпадений оказались настолько низкими, что был сделан вывод о концентрации
ключевых выражений в самом начале текста. Оценка эффективности алгоритмов
не поднялась выше 0,2, что говорит о малом количестве встречаемости ключевых
выражений результатов алгоритмов и разметки экспертов.
Важно отметить тот факт, что для подкорпусов всех трех функциональных
стилей – публицистического, научного и художественного – наблюдается
подтверждение гипотезы. Самые высокие показатели совпадений получились у
публицистического подкорпуса, самые низкие – у художественного. Такая
ситуация объясняется простой и краткостью новостных текстов
публицистического подкорпуса и объемом и сложностью документов
художественного подкорпуса.
В ходе работы над диссертацией был создан и опробован собственный
экстрактор ключевых выражений, основанный на грамматике. Данный алгоритм
способен извлекать выражения, нужные пользователю, то есть необходимо
написать правила грамматики, и алгоритм начнет работу.
Для настоящего исследования были написаны правила грамматики,
основанные на ключевых выражениях научного подкорпуса. Экстрактор наравне
с другими традиционными алгоритмами извлекал ключевые выражения.
Результаты оценки эффективности были признаны средними относительно
остальных алгоритмов, однако, опровергнуть гипотезу разработанному
экстрактору не удалось, показатели совпадений и f-меры по-прежнему остались
в пределах от 0 до 0,2.

1. Браславский,П.И.Автоматическоеизвлечениетерминологиис
использованиемпоисковыхмашининтернета/Е.А.Соколов;
[Электронный ресурс / Electronic resource] : научная статья. – Режим
доступа : http://www.dialog-21.ru/digests/dialog2007/materials/html/14.htm
2. Ванюшкин, А.С. Методы и алгоритмы извлечения ключевых слов / Л.А.
Гращенко; Новые информационные технологии в автоматизированных
системах. 2016. №19. С. 85-87.
3. Гамзатова, А.Ф. «Эмоциональное» и «формальное»: проблема выделения
ключевых слов компьютерными программами в сопоставлении с
методикой их экспертного вычленения.
4. Захаров, В.П. Анализ эффективности статистических методов выявления
коллокаций в текстах на русском языке. – 2010. – / М.В. Хохлова;
Компьютерная лингвистика и интеллектуальные технологии: Труды
международной конференции «Диалог – 2010».
5. Москвина,А.Д.Автоматическоевыделениеключевыхслови
словосочетаний из русскоязычных корпусов текстов с помощью алгоритма
RAKE / О. А. Митрофанова, А. Р. Ерофеева, Я. К. Харабет;Труды
международной конференции «Корпусная лингвистика – 2017». –СПб:
Издательство Санкт-Петербургского университета, 2017. – С. 268–275.
6. Москвитина, Т.Н. Ключевые слова и их функции в научном тексте //
Вестник Челябинского государственного педагогического университета.
2009. № 11. С. 270-283.
7. Мурзин, Л. Н. Текст и его восприятие / А. С. Штерн; Свердловск : Изд-во
Урал. ун-та, 1991.
8. Система PullEnti – извлечение информации из текстов естественного языка
и автоматизированное построение информационных систем / О. В.
Золотарев, М. М. Шарнин, С. В. Клименко, К. И. Кузнецов // Ситуационные
центры и информационно-аналитические системы класса 4i для задач
мониторинга и безопасности (SCVRT2015-16) : Труды Международной
научной конференции: в 2-х томах, ЦарьГрад, Московская область, Россия,
21–24 ноября 2016 года. – ЦарьГрад, Московская область, Россия:
Автономная некоммерческая организация “Институт физико-технической
информатики”, 2016. – С. 28-35.
9. Усталов, Д.А. Извлечение терминов из русскоязычных текстов при помощи
графовых моделей. – 2012. – // CSEDays: Теория графов и приложения. –
Екатеринбург.
10.Шереметьева, С.О. Методы и модели автоматического извлечения
ключевых слов / С.О. Шереметьева, П.Г. Осминин // Вестник ЮУрГУ.
Серия «Лингвистика» : 2015. – Т. 12, № 1. – С. 76–81.
11.Ягунова, Е.В. Эксперимент и вычисления в анализе ключевых слов
художественноготекста//Философияязыка.Лингвистика.
Лингводидактика №1 Пермь : 2010. с.83-89
12.Campos, R., Mangaravite, V., Pasquali, A., Jorge, A.M., Nunes, C., Jatowt, A.:
Yake! collection-independent automatic keyword extractor. In: European
Conference on Information Retrieval. Springer : 2018. pp. 806–810.
13.Campos, R., Mangaravite, V., Pasquali, A., Jatowt, A., Jorge, A., Nunes, C. and
Jatowt, A. (2020). YAKE! Keyword Extraction from Single Documents using
Multiple Local Features. In Information Sciences Journal. Elsevier, Vol 509, pp
257-289.
14.Eibe Frank, Gordon W. Paynter, Ian H. Witten, Carl Gutwin, and Craig G. Nevill-
Manning. 1999. Domain-specific keyphrase extraction. In Proceedings of 16th
International Joint Conference on Artificial Intelligence, pages 668–673.
15.Kazi Saidul Hasan and Vincent Ng, Automatic Keyphrase Extraction: A Survey
of the State of the Art. ACL : 2014.
16.KeyBERT [Электронный ресурс] :статья. – Режим доступа :
https://blog.google/products/search/search-language-understanding-bert/.
17.Luhn H.P. A Statistical Approach to Mechanized Encoding and Searching of
Literary Information // IBM J. Res. Dev. №4. – 1957 . – С. 309–317.
18.Luhn H.P. The Automatic Creation of Literature Abstracts // IBM J. Res. Dev. –
1958. – April- С. 159–165.
19.Maarten Grootendorst: KeyBERT: Minimal keyword extraction with BERT. // –
2020. Zenodo: [Электронный ресурс] :статья. – Режим доступа :
https://doi.org/10.5281/zenodo.4461265.
20.Matzuo Y., Ishizuka M. Keyword Extraction from a Single Document using
Word Co-occurrence Statistical Information // Int. J. Artificial Intell. Tools. –
2004 . – С. 13.
21.Olena Medelyan, Eibe Frank, and Ian H. Witten. 2009. Human-competitive
tagging using automatic keyphrase extraction. In Proceedings of the 2009
Conference on Empirical Methods in Natural Language Processing, pages 1318–
1327.
22.Peter Turney. 2003. Coherent keyphrase extraction via web mining. In
Proceedings of the 18th International Joint Conference on Artificial Intelligence,
pages 434–439.
23.Pymorphy2 [Электронный ресурс] : открытое программное обеспечение. –
Режим доступа : https://pymorphy2.readthedocs.io/en/stable/.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Ксения М. Курганский Государственный Университет 2009, Юридический...
    4.8 (105 отзывов)
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитыв... Читать все
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитывать все требования и пожелания.
    #Кандидатские #Магистерские
    213 Выполненных работ
    Ольга Р. доктор, профессор
    4.2 (13 отзывов)
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласован... Читать все
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласованные сроки и при необходимости дорабатываются по рекомендациям научного руководителя (преподавателя). Буду рада плодотворному и взаимовыгодному сотрудничеству!!! К каждой работе подхожу индивидуально! Всегда готова по любому вопросу договориться с заказчиком! Все работы проверяю на антиплагиат.ру по умолчанию, если в заказе не стоит иное и если это заранее не обговорено!!!
    #Кандидатские #Магистерские
    21 Выполненная работа
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Анна С. СФ ПГУ им. М.В. Ломоносова 2004, филологический, преподав...
    4.8 (9 отзывов)
    Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания... Читать все
    Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания и проверки (в качестве преподавателя) контрольных и курсовых работ.
    #Кандидатские #Магистерские
    16 Выполненных работ
    Екатерина П. студент
    5 (18 отзывов)
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно... Читать все
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно занимаюсь английским языком, уровень владения - Upper-Intermediate.
    #Кандидатские #Магистерские
    39 Выполненных работ
    Елена Л. РЭУ им. Г. В. Плеханова 2009, Управления и коммерции, пре...
    4.8 (211 отзывов)
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно исполь... Читать все
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно использую в работе графический материал (графики рисунки, диаграммы) и таблицы.
    #Кандидатские #Магистерские
    362 Выполненных работы
    Елена С. Таганрогский институт управления и экономики Таганрогский...
    4.4 (93 отзыва)
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на напис... Читать все
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на написании курсовых и дипломных работ, а также диссертационных исследований.
    #Кандидатские #Магистерские
    158 Выполненных работ
    Алёна В. ВГПУ 2013, исторический, преподаватель
    4.2 (5 отзывов)
    Пишу дипломы, курсовые, диссертации по праву, а также истории и педагогике. Закончила исторический факультет ВГПУ. Имею высшее историческое и дополнительное юридическо... Читать все
    Пишу дипломы, курсовые, диссертации по праву, а также истории и педагогике. Закончила исторический факультет ВГПУ. Имею высшее историческое и дополнительное юридическое образование. В данный момент работаю преподавателем.
    #Кандидатские #Магистерские
    25 Выполненных работ
    Дмитрий Л. КНЭУ 2015, Экономики и управления, выпускник
    4.8 (2878 отзывов)
    Занимаю 1 место в рейтинге исполнителей по категориям работ "Научные статьи" и "Эссе". Пишу дипломные работы и магистерские диссертации.
    Занимаю 1 место в рейтинге исполнителей по категориям работ "Научные статьи" и "Эссе". Пишу дипломные работы и магистерские диссертации.
    #Кандидатские #Магистерские
    5125 Выполненных работ

    Другие учебные работы по предмету

    Видовые различия в русской речи польских и чешских студентов
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Фразеологические единицы в политическом дискурсе
    📅 2021год
    🏢 Санкт-Петербургский государственный университет