Автоматическое реферирование научных публикаций средствами синтаксического анализа на материале современных статей по компьютерному синтаксису

Седова Елена Павловна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Современный человек живет в условиях переизбытка информации: Интернет вошел в повседневную жизнь, открыв доступ в том числе к научным работам, накопленным за многие годы. Занимаясь исследованиями, специалист должен прочесть значительное количество публикаций. Как правило, они снабжены аннотаций и списком ключевых слов, но далеко не всегда этого достаточно, чтобы понять, нужно ли читающему углубляться в тот или иной документ. Эту проблему призван решить реферат – вторичный документ, излагающий основное содержание исходного документа. Реферат, однако, в отличие от аннотации, не часто бывает приложен к работе, какой бы объемной она ни была. Здесь на помощь исследователю должна прийти программа для автоматического реферирования текстов, принимающая на входе текст документа и предлагающая на выходе краткий реферат, позволяющий ознакомиться с основным содержанием работы. Данная работа посвящена автоматическому реферированию научных текстов на русском языке. Хотя работы в области автоматического реферирования велись уже во второй половине XX века, эта задача до сих пор не решена, поскольку автоматическое реферирование имеет дело со сложной изменчивой системой – естественным языком. В работе рассматриваются понятия «реферат» и «аннотация» в отечественной и зарубежной практике, приведены основные методы автоматического реферирования. В ходе рассмотрения этих понятий и методов было сформулировано определение реферата, представлены достоинства и недостатки методов реферирования относительно друг друга. На основании определения реферата и требований, представляемых к нему, а также анализа собранной коллекции статей, был разработан алгоритм автоматического реферирования. Материалом исследования стала коллекция научных статей по компьютерному синтаксису на русском языке, в которую входит 62 статьи, собранных вручную с помощью поиска Google и поиска в электронных библиотеках eLibrary и Cyberleninka. Оценка результата предложенного алгоритма проводилась на основании сравнения с результатами реферирования экспертами, а также системами t-CONCEPTUS Open Text Summarizer. Было выявлено, что реферат, составленный при помощи алгоритма, короче, а его применение позволяет избежать включения в реферат названий журналов и газет, где были опубликованы статьи, имен авторов статей, списка использованной литературы, формул. При этом алгоритм не позволяет выбрать желаемый объем реферата, в отличие от t-CONCEPTUS и Open Text: объем реферата зависит только от количества значимых фраз и связей между предложениями. Итогом данного исследования можно считать разработку алгоритма автоматического реферирования научных статей, посвященных компьютерному синтаксису, на русском языке. Данный алгоритм возможно применить в разработке программы для автоматического реферирования. Значимость исследования заключается в изучении понятий «реферат» и «аннотация», предложения определения термина «реферат», предложении оценки смысловой значимость предложения при реферировании на основе вхождения в него значимых фраз и наличия связи с другими предложениями. На базе разработанного алгоритма возможно создание системы автоматического реферирования. Предложенный алгоритм допускает доработки в зависимости от того, в какой области знаний он будет применятся. В работе использовались следующие методы исследования: метод сплошной выборки, описательный метод, метод моделирования, метод сопоставительного анализа, метод экспертных оценок. Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованной литературы и трех приложений. Во Введении приводятся цель и задачи работы, обосновывается актуальность, теоретическая и практическая значимость работы, называются объект, предмет, материал исследования, приводятся положения, которые выносятся на защиту.

Данная выпускная квалификационная работа посвящена проблеме автоматического реферирования текстов при помощи компьютерного синтаксиса.
Актуальность данной темы обусловлена двумя факторами. В наше время человека окружает объем информации, который невозможно полностью переработать, и большая его часть находится в сети Интернет. Исследователь, занимающийся изучением того или иного вопроса, имеет доступ к значительному числу публикаций. Ознакомиться со всеми, однако, бывает сложно, а порой и не нужно: содержание публикации может не отвечать интересу исследователя. Здесь на помощь должны приходить программы автоматического реферирования. В ходе работы было обнаружено только 2 рабочих веб-приложения для автоматического реферирования. Столь малое количество нужных современному пользователю приложений также обуславливает актуальность данной работы.
Степень разработанности проблемы. Работы в области автоматического реферирования велись уже во второй половине XX века. Эту проблему изучали многие исследователи как в России и СССР, так и за рубежом (В.П. Леонов, Д.Г. Лахути, Э. Ф. Скороходько, С.М. Приходько, В.А Яцко, С.А.Тревгода, H.P. Edmundson, J. Kupiec, E. Lloret, U. Hahn, T. Strzalkowski и др.), сформировались разные методы: экстрагирующий, абстрагирующий и гибридный. Первый метод подразумевает извлечение из текста предложений без переформулирования, а основные тенденции этого направления – выделение значимых слов и предложений, определение риторических отношений, оценка связей предложений между собой, работа с тезаурусом. Экстрагирующий метод не требует глубокого анализа текста, а его основным недостатком в сравнении с авторскими рефератами, относительно которых производится оценка машинных рефератов, остается бессвязность, которую часто можно наблюдать на выходе. Второй, абстрагирующий, подход позволяет получить относительно более стройный и структурированный текст. При этом практическая реализация алгоритмов и необходимость задействования существенного объема лингвистических знаний представляет значительную сложность. Гибридные методы, сочетающие абстрагирование и экстрагирование, не уступают в сложности разработки абстрагирующим методам. Они также подразумевают привлечение баз знаний, а в отдельных случаях и сторонних систем. Тем не менее, хотя работы в области автоматического реферирования ведутся длительное время, эта задача не решена, поскольку имеет дело со сложной изменчивой системой – естественным языком.
Цель исследования состоит в разработке алгоритма автоматического реферирования, позволяющего получить стройный текст, отвечающий основным требованиям ГОСТа, в качестве реферата.
Для достижения обозначенной цели поставлены следующие задачи:
• изучить понятия «реферат» и «аннотация» в отечественно и зарубежной практике, выявить их основные функции и признаки
• исследовать различные методы автоматического реферирования текстов на естественном языке
• собрать коллекцию научных статей по компьютерному синтаксису и проанализировать их, выявив значимые фразы и стоп-лексикон;
• составить словари значимых фраз и стоп-лексики на основании собранных статей
• разработать алгоритм автоматического реферирования научных текстов
• опробовать алгоритм реферирования и оценить результаты его применения
Объектом исследования является структура текстов научных статей по компьютерному синтаксису.
Предметом исследования является разработка алгоритма автоматического реферирования текстов на основе выделенных значимых фраз и связей между предложениями.
Материалом исследования является коллекция научных статей по компьютерному синтаксису на русском языке, в которую входит 62 статьи, собранных вручную с помощью поиска Google и поиска в электронных библиотеках eLibrary и Cyberleninka.
Научная новизна работы состоит заключается в разработке алгоритма автоматического реферирования текста на основе выделения значимых фраз и связей между предложениями.
Теоретическая значимость исследования заключается в изучении понятий «реферат» и «аннотация», предложения определения термина «реферат», предложении оценки смысловой значимость предложения при реферировании на основе вхождения в него значимых фраз и наличия связи с другими предложениями.
Практическая значимость исследования заключается в возможности создания на базе разработанного алгоритма системы автоматического реферирования. Предложенный алгоритм допускает доработки в зависимости от того, в какой области знаний он будет применятся.
В работе использовались следующие методы исследования: метод сплошной выборки, описательный метод, метод моделирования, метод сопоставительного анализа, метод экспертных оценок.
На защиту выносятся следующие положения:
Основные методы автоматического реферирования представлены экстрагирующим, абстрагирующим и гибридным методами.
Алгоритм реферирования включает в себя три основных процедуры: а) морфологический и синтаксический анализ текста б) поиск значимых фраз и связей между предложениями в) исключение из текста предложений, не содержащих значимых фраз и связей с другими предложениями.
Алгоритм разработан на основе анализа теоретических исследований в данной области и анализа коллекции собранных статей по компьютерному синтаксису на русском языке.
Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованной литературы и трех приложений. Во Введении приводятся цель и задачи работы, обосновывается актуальность, теоретическая и практическая значимость работы, называются объект, предмет, материал исследования, приводятся положения, которые выносятся на защиту.
В Главе 1 анализируются понятия «реферат» и «аннотация» в российской и зарубежной практике, а также требования, предъявляемые к англоязычным и русскоязычным аннотациям и рефератам. Описываются основные методы автоматического реферирования и примеры их реализации.
В Главе 2 описывается разработанный метод автоматического реферирования и оценка его практического применения.
В Заключении приводятся итоги и выводы по проведенному исследованию.

В данной выпускной квалификационной работе был предложен алгоритм автоматического реферирования научных текстов на русском языке.
В ходе работы были рассмотрены понятия «реферат» и «аннотация» в отечественной и зарубежной практике, приведены основные методы автоматического реферирования. В ходе рассмотрения этих понятий и методов было сформулировано определение реферата, представлены достоинства и недостатки методов реферирования относительно друг друга. На основании определения реферата и требований, представляемых к нему, а также анализа собранной коллекции статей, был разработан алгоритм автоматического реферирования. Оценка результата предложенного алгоритма проводилась на основании сравнения с результатами реферирования экспертами, а также системами t-CONCEPTUS Open Text Summarizer. Было выявлено, что реферат, составленный при помощи алгоритма, короче, его применение позволяет избежать включения в реферат названий журналов и газет, где были опубликованы статьи, имен авторов статей, списка использованной литературы, формул. При этом алгоритм не позволяет выбрать желаемый объем реферата, в отличие от t-CONCEPTUS и Open Text: объем реферата зависит только от количества значимых фраз и связей между предложениями.
Итогом данного исследования можно считать разработку алгоритма автоматического реферирования научных статей, посвященных компьютерному синтаксису, на русском языке. Данный алгоритм возможно применить в разработке программы для автоматического реферирования.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Мария Б. преподаватель, кандидат наук
    5 (22 отзыва)
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальнос... Читать все
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальности "Экономика и управление народным хозяйством". Автор научных статей.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ
    Дарья С. Томский государственный университет 2010, Юридический, в...
    4.8 (13 отзывов)
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссерт... Читать все
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссертационное исследование, которое сейчас находится на рассмотрении в совете.
    #Кандидатские #Магистерские
    18 Выполненных работ
    Глеб С. преподаватель, кандидат наук, доцент
    5 (158 отзывов)
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной с... Читать все
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной специальности 12.00.14 административное право, административный процесс.
    #Кандидатские #Магистерские
    216 Выполненных работ
    Анна С. СФ ПГУ им. М.В. Ломоносова 2004, филологический, преподав...
    4.8 (9 отзывов)
    Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания... Читать все
    Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания и проверки (в качестве преподавателя) контрольных и курсовых работ.
    #Кандидатские #Магистерские
    16 Выполненных работ
    Анна Александровна Б. Воронежский государственный университет инженерных технол...
    4.8 (30 отзывов)
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственно... Читать все
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственном университете инженерных технологий.
    #Кандидатские #Магистерские
    66 Выполненных работ
    Катерина В. преподаватель, кандидат наук
    4.6 (30 отзывов)
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации... Читать все
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации. Опыт работы 7 лет. Всегда на связи и готова прийти на помощь. Вместе удовлетворим самого требовательного научного руководителя. Возможно полное сопровождение: от статуса студента до получения научной степени.
    #Кандидатские #Магистерские
    47 Выполненных работ
    Логик Ф. кандидат наук, доцент
    4.9 (826 отзывов)
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские дисс... Читать все
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские диссертации, рефераты, контрольные) уже много лет. Качество работ гарантирую.
    #Кандидатские #Магистерские
    1486 Выполненных работ
    AleksandrAvdiev Южный федеральный университет, 2010, преподаватель, канд...
    4.1 (20 отзывов)
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    #Кандидатские #Магистерские
    28 Выполненных работ

    Другие учебные работы по предмету

    Видовые различия в русской речи польских и чешских студентов
    📅 2021 год
    🏢 Санкт-Петербургский государственный университет
    Способы достижения эквивалентности при переводе конвенций ООН
    📅 2021 год
    🏢 Санкт-Петербургский государственный университет
    Фразеологические единицы в политическом дискурсе
    📅 2021 год
    🏢 Санкт-Петербургский государственный университет