Автоматическое реферирование научных публикаций средствами синтаксического анализа на материале современных статей по компьютерному синтаксису

Седова Елена Павловна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Современный человек живет в условиях переизбытка информации: Интернет вошел в повседневную жизнь, открыв доступ в том числе к научным работам, накопленным за многие годы. Занимаясь исследованиями, специалист должен прочесть значительное количество публикаций. Как правило, они снабжены аннотаций и списком ключевых слов, но далеко не всегда этого достаточно, чтобы понять, нужно ли читающему углубляться в тот или иной документ. Эту проблему призван решить реферат – вторичный документ, излагающий основное содержание исходного документа. Реферат, однако, в отличие от аннотации, не часто бывает приложен к работе, какой бы объемной она ни была. Здесь на помощь исследователю должна прийти программа для автоматического реферирования текстов, принимающая на входе текст документа и предлагающая на выходе краткий реферат, позволяющий ознакомиться с основным содержанием работы. Данная работа посвящена автоматическому реферированию научных текстов на русском языке. Хотя работы в области автоматического реферирования велись уже во второй половине XX века, эта задача до сих пор не решена, поскольку автоматическое реферирование имеет дело со сложной изменчивой системой – естественным языком. В работе рассматриваются понятия «реферат» и «аннотация» в отечественной и зарубежной практике, приведены основные методы автоматического реферирования. В ходе рассмотрения этих понятий и методов было сформулировано определение реферата, представлены достоинства и недостатки методов реферирования относительно друг друга. На основании определения реферата и требований, представляемых к нему, а также анализа собранной коллекции статей, был разработан алгоритм автоматического реферирования. Материалом исследования стала коллекция научных статей по компьютерному синтаксису на русском языке, в которую входит 62 статьи, собранных вручную с помощью поиска Google и поиска в электронных библиотеках eLibrary и Cyberleninka. Оценка результата предложенного алгоритма проводилась на основании сравнения с результатами реферирования экспертами, а также системами t-CONCEPTUS Open Text Summarizer. Было выявлено, что реферат, составленный при помощи алгоритма, короче, а его применение позволяет избежать включения в реферат названий журналов и газет, где были опубликованы статьи, имен авторов статей, списка использованной литературы, формул. При этом алгоритм не позволяет выбрать желаемый объем реферата, в отличие от t-CONCEPTUS и Open Text: объем реферата зависит только от количества значимых фраз и связей между предложениями. Итогом данного исследования можно считать разработку алгоритма автоматического реферирования научных статей, посвященных компьютерному синтаксису, на русском языке. Данный алгоритм возможно применить в разработке программы для автоматического реферирования. Значимость исследования заключается в изучении понятий «реферат» и «аннотация», предложения определения термина «реферат», предложении оценки смысловой значимость предложения при реферировании на основе вхождения в него значимых фраз и наличия связи с другими предложениями. На базе разработанного алгоритма возможно создание системы автоматического реферирования. Предложенный алгоритм допускает доработки в зависимости от того, в какой области знаний он будет применятся. В работе использовались следующие методы исследования: метод сплошной выборки, описательный метод, метод моделирования, метод сопоставительного анализа, метод экспертных оценок. Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованной литературы и трех приложений. Во Введении приводятся цель и задачи работы, обосновывается актуальность, теоретическая и практическая значимость работы, называются объект, предмет, материал исследования, приводятся положения, которые выносятся на защиту.

Данная выпускная квалификационная работа посвящена проблеме автоматического реферирования текстов при помощи компьютерного синтаксиса.
Актуальность данной темы обусловлена двумя факторами. В наше время человека окружает объем информации, который невозможно полностью переработать, и большая его часть находится в сети Интернет. Исследователь, занимающийся изучением того или иного вопроса, имеет доступ к значительному числу публикаций. Ознакомиться со всеми, однако, бывает сложно, а порой и не нужно: содержание публикации может не отвечать интересу исследователя. Здесь на помощь должны приходить программы автоматического реферирования. В ходе работы было обнаружено только 2 рабочих веб-приложения для автоматического реферирования. Столь малое количество нужных современному пользователю приложений также обуславливает актуальность данной работы.
Степень разработанности проблемы. Работы в области автоматического реферирования велись уже во второй половине XX века. Эту проблему изучали многие исследователи как в России и СССР, так и за рубежом (В.П. Леонов, Д.Г. Лахути, Э. Ф. Скороходько, С.М. Приходько, В.А Яцко, С.А.Тревгода, H.P. Edmundson, J. Kupiec, E. Lloret, U. Hahn, T. Strzalkowski и др.), сформировались разные методы: экстрагирующий, абстрагирующий и гибридный. Первый метод подразумевает извлечение из текста предложений без переформулирования, а основные тенденции этого направления – выделение значимых слов и предложений, определение риторических отношений, оценка связей предложений между собой, работа с тезаурусом. Экстрагирующий метод не требует глубокого анализа текста, а его основным недостатком в сравнении с авторскими рефератами, относительно которых производится оценка машинных рефератов, остается бессвязность, которую часто можно наблюдать на выходе. Второй, абстрагирующий, подход позволяет получить относительно более стройный и структурированный текст. При этом практическая реализация алгоритмов и необходимость задействования существенного объема лингвистических знаний представляет значительную сложность. Гибридные методы, сочетающие абстрагирование и экстрагирование, не уступают в сложности разработки абстрагирующим методам. Они также подразумевают привлечение баз знаний, а в отдельных случаях и сторонних систем. Тем не менее, хотя работы в области автоматического реферирования ведутся длительное время, эта задача не решена, поскольку имеет дело со сложной изменчивой системой – естественным языком.
Цель исследования состоит в разработке алгоритма автоматического реферирования, позволяющего получить стройный текст, отвечающий основным требованиям ГОСТа, в качестве реферата.
Для достижения обозначенной цели поставлены следующие задачи:
• изучить понятия «реферат» и «аннотация» в отечественно и зарубежной практике, выявить их основные функции и признаки
• исследовать различные методы автоматического реферирования текстов на естественном языке
• собрать коллекцию научных статей по компьютерному синтаксису и проанализировать их, выявив значимые фразы и стоп-лексикон;
• составить словари значимых фраз и стоп-лексики на основании собранных статей
• разработать алгоритм автоматического реферирования научных текстов
• опробовать алгоритм реферирования и оценить результаты его применения
Объектом исследования является структура текстов научных статей по компьютерному синтаксису.
Предметом исследования является разработка алгоритма автоматического реферирования текстов на основе выделенных значимых фраз и связей между предложениями.
Материалом исследования является коллекция научных статей по компьютерному синтаксису на русском языке, в которую входит 62 статьи, собранных вручную с помощью поиска Google и поиска в электронных библиотеках eLibrary и Cyberleninka.
Научная новизна работы состоит заключается в разработке алгоритма автоматического реферирования текста на основе выделения значимых фраз и связей между предложениями.
Теоретическая значимость исследования заключается в изучении понятий «реферат» и «аннотация», предложения определения термина «реферат», предложении оценки смысловой значимость предложения при реферировании на основе вхождения в него значимых фраз и наличия связи с другими предложениями.
Практическая значимость исследования заключается в возможности создания на базе разработанного алгоритма системы автоматического реферирования. Предложенный алгоритм допускает доработки в зависимости от того, в какой области знаний он будет применятся.
В работе использовались следующие методы исследования: метод сплошной выборки, описательный метод, метод моделирования, метод сопоставительного анализа, метод экспертных оценок.
На защиту выносятся следующие положения:
Основные методы автоматического реферирования представлены экстрагирующим, абстрагирующим и гибридным методами.
Алгоритм реферирования включает в себя три основных процедуры: а) морфологический и синтаксический анализ текста б) поиск значимых фраз и связей между предложениями в) исключение из текста предложений, не содержащих значимых фраз и связей с другими предложениями.
Алгоритм разработан на основе анализа теоретических исследований в данной области и анализа коллекции собранных статей по компьютерному синтаксису на русском языке.
Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованной литературы и трех приложений. Во Введении приводятся цель и задачи работы, обосновывается актуальность, теоретическая и практическая значимость работы, называются объект, предмет, материал исследования, приводятся положения, которые выносятся на защиту.
В Главе 1 анализируются понятия «реферат» и «аннотация» в российской и зарубежной практике, а также требования, предъявляемые к англоязычным и русскоязычным аннотациям и рефератам. Описываются основные методы автоматического реферирования и примеры их реализации.
В Главе 2 описывается разработанный метод автоматического реферирования и оценка его практического применения.
В Заключении приводятся итоги и выводы по проведенному исследованию.

В данной выпускной квалификационной работе был предложен алгоритм автоматического реферирования научных текстов на русском языке.
В ходе работы были рассмотрены понятия «реферат» и «аннотация» в отечественной и зарубежной практике, приведены основные методы автоматического реферирования. В ходе рассмотрения этих понятий и методов было сформулировано определение реферата, представлены достоинства и недостатки методов реферирования относительно друг друга. На основании определения реферата и требований, представляемых к нему, а также анализа собранной коллекции статей, был разработан алгоритм автоматического реферирования. Оценка результата предложенного алгоритма проводилась на основании сравнения с результатами реферирования экспертами, а также системами t-CONCEPTUS Open Text Summarizer. Было выявлено, что реферат, составленный при помощи алгоритма, короче, его применение позволяет избежать включения в реферат названий журналов и газет, где были опубликованы статьи, имен авторов статей, списка использованной литературы, формул. При этом алгоритм не позволяет выбрать желаемый объем реферата, в отличие от t-CONCEPTUS и Open Text: объем реферата зависит только от количества значимых фраз и связей между предложениями.
Итогом данного исследования можно считать разработку алгоритма автоматического реферирования научных статей, посвященных компьютерному синтаксису, на русском языке. Данный алгоритм возможно применить в разработке программы для автоматического реферирования.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Татьяна Б.
    4.6 (92 отзыва)
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские ди... Читать все
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские диссертации, курсовые работы средний балл - 4,5). Всегда на связи!
    #Кандидатские #Магистерские
    138 Выполненных работ
    Анна Н. Государственный университет управления 2021, Экономика и ...
    0 (13 отзывов)
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.
    #Кандидатские #Магистерские
    0 Выполненных работ
    Анна К. ТГПУ им.ЛН.Толстого 2010, ФИСиГН, выпускник
    4.6 (30 отзывов)
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помог... Читать все
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помогала студентам, вышедшим на меня по рекомендации.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Татьяна М. кандидат наук
    5 (285 отзывов)
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    #Кандидатские #Магистерские
    495 Выполненных работ
    Дарья С. Томский государственный университет 2010, Юридический, в...
    4.8 (13 отзывов)
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссерт... Читать все
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссертационное исследование, которое сейчас находится на рассмотрении в совете.
    #Кандидатские #Магистерские
    18 Выполненных работ
    AleksandrAvdiev Южный федеральный университет, 2010, преподаватель, канд...
    4.1 (20 отзывов)
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    #Кандидатские #Магистерские
    28 Выполненных работ
    Татьяна П.
    4.2 (6 отзывов)
    Помогаю студентам с решением задач по ТОЭ и физике на протяжении 9 лет. Пишу диссертацию на соискание степени кандидата технических наук, имею опыт годовой стажировки ... Читать все
    Помогаю студентам с решением задач по ТОЭ и физике на протяжении 9 лет. Пишу диссертацию на соискание степени кандидата технических наук, имею опыт годовой стажировки в одном из крупнейших университетов Германии.
    #Кандидатские #Магистерские
    9 Выполненных работ
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ
    Логик Ф. кандидат наук, доцент
    4.9 (826 отзывов)
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские дисс... Читать все
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские диссертации, рефераты, контрольные) уже много лет. Качество работ гарантирую.
    #Кандидатские #Магистерские
    1486 Выполненных работ

    Другие учебные работы по предмету

    Видовые различия в русской речи польских и чешских студентов
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Фразеологические единицы в политическом дискурсе
    📅 2021год
    🏢 Санкт-Петербургский государственный университет