Автоматическое реферирование научных публикаций средствами синтаксического анализа на материале современных статей по компьютерному синтаксису

Седова Елена Павловна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Современный человек живет в условиях переизбытка информации: Интернет вошел в повседневную жизнь, открыв доступ в том числе к научным работам, накопленным за многие годы. Занимаясь исследованиями, специалист должен прочесть значительное количество публикаций. Как правило, они снабжены аннотаций и списком ключевых слов, но далеко не всегда этого достаточно, чтобы понять, нужно ли читающему углубляться в тот или иной документ. Эту проблему призван решить реферат – вторичный документ, излагающий основное содержание исходного документа. Реферат, однако, в отличие от аннотации, не часто бывает приложен к работе, какой бы объемной она ни была. Здесь на помощь исследователю должна прийти программа для автоматического реферирования текстов, принимающая на входе текст документа и предлагающая на выходе краткий реферат, позволяющий ознакомиться с основным содержанием работы. Данная работа посвящена автоматическому реферированию научных текстов на русском языке. Хотя работы в области автоматического реферирования велись уже во второй половине XX века, эта задача до сих пор не решена, поскольку автоматическое реферирование имеет дело со сложной изменчивой системой – естественным языком. В работе рассматриваются понятия «реферат» и «аннотация» в отечественной и зарубежной практике, приведены основные методы автоматического реферирования. В ходе рассмотрения этих понятий и методов было сформулировано определение реферата, представлены достоинства и недостатки методов реферирования относительно друг друга. На основании определения реферата и требований, представляемых к нему, а также анализа собранной коллекции статей, был разработан алгоритм автоматического реферирования. Материалом исследования стала коллекция научных статей по компьютерному синтаксису на русском языке, в которую входит 62 статьи, собранных вручную с помощью поиска Google и поиска в электронных библиотеках eLibrary и Cyberleninka. Оценка результата предложенного алгоритма проводилась на основании сравнения с результатами реферирования экспертами, а также системами t-CONCEPTUS Open Text Summarizer. Было выявлено, что реферат, составленный при помощи алгоритма, короче, а его применение позволяет избежать включения в реферат названий журналов и газет, где были опубликованы статьи, имен авторов статей, списка использованной литературы, формул. При этом алгоритм не позволяет выбрать желаемый объем реферата, в отличие от t-CONCEPTUS и Open Text: объем реферата зависит только от количества значимых фраз и связей между предложениями. Итогом данного исследования можно считать разработку алгоритма автоматического реферирования научных статей, посвященных компьютерному синтаксису, на русском языке. Данный алгоритм возможно применить в разработке программы для автоматического реферирования. Значимость исследования заключается в изучении понятий «реферат» и «аннотация», предложения определения термина «реферат», предложении оценки смысловой значимость предложения при реферировании на основе вхождения в него значимых фраз и наличия связи с другими предложениями. На базе разработанного алгоритма возможно создание системы автоматического реферирования. Предложенный алгоритм допускает доработки в зависимости от того, в какой области знаний он будет применятся. В работе использовались следующие методы исследования: метод сплошной выборки, описательный метод, метод моделирования, метод сопоставительного анализа, метод экспертных оценок. Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованной литературы и трех приложений. Во Введении приводятся цель и задачи работы, обосновывается актуальность, теоретическая и практическая значимость работы, называются объект, предмет, материал исследования, приводятся положения, которые выносятся на защиту.

Данная выпускная квалификационная работа посвящена проблеме автоматического реферирования текстов при помощи компьютерного синтаксиса.
Актуальность данной темы обусловлена двумя факторами. В наше время человека окружает объем информации, который невозможно полностью переработать, и большая его часть находится в сети Интернет. Исследователь, занимающийся изучением того или иного вопроса, имеет доступ к значительному числу публикаций. Ознакомиться со всеми, однако, бывает сложно, а порой и не нужно: содержание публикации может не отвечать интересу исследователя. Здесь на помощь должны приходить программы автоматического реферирования. В ходе работы было обнаружено только 2 рабочих веб-приложения для автоматического реферирования. Столь малое количество нужных современному пользователю приложений также обуславливает актуальность данной работы.
Степень разработанности проблемы. Работы в области автоматического реферирования велись уже во второй половине XX века. Эту проблему изучали многие исследователи как в России и СССР, так и за рубежом (В.П. Леонов, Д.Г. Лахути, Э. Ф. Скороходько, С.М. Приходько, В.А Яцко, С.А.Тревгода, H.P. Edmundson, J. Kupiec, E. Lloret, U. Hahn, T. Strzalkowski и др.), сформировались разные методы: экстрагирующий, абстрагирующий и гибридный. Первый метод подразумевает извлечение из текста предложений без переформулирования, а основные тенденции этого направления – выделение значимых слов и предложений, определение риторических отношений, оценка связей предложений между собой, работа с тезаурусом. Экстрагирующий метод не требует глубокого анализа текста, а его основным недостатком в сравнении с авторскими рефератами, относительно которых производится оценка машинных рефератов, остается бессвязность, которую часто можно наблюдать на выходе. Второй, абстрагирующий, подход позволяет получить относительно более стройный и структурированный текст. При этом практическая реализация алгоритмов и необходимость задействования существенного объема лингвистических знаний представляет значительную сложность. Гибридные методы, сочетающие абстрагирование и экстрагирование, не уступают в сложности разработки абстрагирующим методам. Они также подразумевают привлечение баз знаний, а в отдельных случаях и сторонних систем. Тем не менее, хотя работы в области автоматического реферирования ведутся длительное время, эта задача не решена, поскольку имеет дело со сложной изменчивой системой – естественным языком.
Цель исследования состоит в разработке алгоритма автоматического реферирования, позволяющего получить стройный текст, отвечающий основным требованиям ГОСТа, в качестве реферата.
Для достижения обозначенной цели поставлены следующие задачи:
• изучить понятия «реферат» и «аннотация» в отечественно и зарубежной практике, выявить их основные функции и признаки
• исследовать различные методы автоматического реферирования текстов на естественном языке
• собрать коллекцию научных статей по компьютерному синтаксису и проанализировать их, выявив значимые фразы и стоп-лексикон;
• составить словари значимых фраз и стоп-лексики на основании собранных статей
• разработать алгоритм автоматического реферирования научных текстов
• опробовать алгоритм реферирования и оценить результаты его применения
Объектом исследования является структура текстов научных статей по компьютерному синтаксису.
Предметом исследования является разработка алгоритма автоматического реферирования текстов на основе выделенных значимых фраз и связей между предложениями.
Материалом исследования является коллекция научных статей по компьютерному синтаксису на русском языке, в которую входит 62 статьи, собранных вручную с помощью поиска Google и поиска в электронных библиотеках eLibrary и Cyberleninka.
Научная новизна работы состоит заключается в разработке алгоритма автоматического реферирования текста на основе выделения значимых фраз и связей между предложениями.
Теоретическая значимость исследования заключается в изучении понятий «реферат» и «аннотация», предложения определения термина «реферат», предложении оценки смысловой значимость предложения при реферировании на основе вхождения в него значимых фраз и наличия связи с другими предложениями.
Практическая значимость исследования заключается в возможности создания на базе разработанного алгоритма системы автоматического реферирования. Предложенный алгоритм допускает доработки в зависимости от того, в какой области знаний он будет применятся.
В работе использовались следующие методы исследования: метод сплошной выборки, описательный метод, метод моделирования, метод сопоставительного анализа, метод экспертных оценок.
На защиту выносятся следующие положения:
Основные методы автоматического реферирования представлены экстрагирующим, абстрагирующим и гибридным методами.
Алгоритм реферирования включает в себя три основных процедуры: а) морфологический и синтаксический анализ текста б) поиск значимых фраз и связей между предложениями в) исключение из текста предложений, не содержащих значимых фраз и связей с другими предложениями.
Алгоритм разработан на основе анализа теоретических исследований в данной области и анализа коллекции собранных статей по компьютерному синтаксису на русском языке.
Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованной литературы и трех приложений. Во Введении приводятся цель и задачи работы, обосновывается актуальность, теоретическая и практическая значимость работы, называются объект, предмет, материал исследования, приводятся положения, которые выносятся на защиту.
В Главе 1 анализируются понятия «реферат» и «аннотация» в российской и зарубежной практике, а также требования, предъявляемые к англоязычным и русскоязычным аннотациям и рефератам. Описываются основные методы автоматического реферирования и примеры их реализации.
В Главе 2 описывается разработанный метод автоматического реферирования и оценка его практического применения.
В Заключении приводятся итоги и выводы по проведенному исследованию.

В данной выпускной квалификационной работе был предложен алгоритм автоматического реферирования научных текстов на русском языке.
В ходе работы были рассмотрены понятия «реферат» и «аннотация» в отечественной и зарубежной практике, приведены основные методы автоматического реферирования. В ходе рассмотрения этих понятий и методов было сформулировано определение реферата, представлены достоинства и недостатки методов реферирования относительно друг друга. На основании определения реферата и требований, представляемых к нему, а также анализа собранной коллекции статей, был разработан алгоритм автоматического реферирования. Оценка результата предложенного алгоритма проводилась на основании сравнения с результатами реферирования экспертами, а также системами t-CONCEPTUS Open Text Summarizer. Было выявлено, что реферат, составленный при помощи алгоритма, короче, его применение позволяет избежать включения в реферат названий журналов и газет, где были опубликованы статьи, имен авторов статей, списка использованной литературы, формул. При этом алгоритм не позволяет выбрать желаемый объем реферата, в отличие от t-CONCEPTUS и Open Text: объем реферата зависит только от количества значимых фраз и связей между предложениями.
Итогом данного исследования можно считать разработку алгоритма автоматического реферирования научных статей, посвященных компьютерному синтаксису, на русском языке. Данный алгоритм возможно применить в разработке программы для автоматического реферирования.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Катерина М. кандидат наук, доцент
    4.9 (522 отзыва)
    Кандидат технических наук. Специализируюсь на выполнении работ по метрологии и стандартизации
    Кандидат технических наук. Специализируюсь на выполнении работ по метрологии и стандартизации
    #Кандидатские #Магистерские
    836 Выполненных работ
    Анна Н. Государственный университет управления 2021, Экономика и ...
    0 (13 отзывов)
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.
    #Кандидатские #Магистерские
    0 Выполненных работ
    Анна К. ТГПУ им.ЛН.Толстого 2010, ФИСиГН, выпускник
    4.6 (30 отзывов)
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помог... Читать все
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помогала студентам, вышедшим на меня по рекомендации.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Елена Л. РЭУ им. Г. В. Плеханова 2009, Управления и коммерции, пре...
    4.8 (211 отзывов)
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно исполь... Читать все
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно использую в работе графический материал (графики рисунки, диаграммы) и таблицы.
    #Кандидатские #Магистерские
    362 Выполненных работы
    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    Олег Н. Томский политехнический университет 2000, Инженерно-эконо...
    4.7 (96 отзывов)
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Явл... Читать все
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Являюсь действующим преподавателем одного из ВУЗов.
    #Кандидатские #Магистерские
    177 Выполненных работ
    Мария А. кандидат наук
    4.7 (18 отзывов)
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет... Читать все
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет, реклама, журналистика, педагогика, право)
    #Кандидатские #Магистерские
    39 Выполненных работ
    Татьяна М. кандидат наук
    5 (285 отзывов)
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    #Кандидатские #Магистерские
    495 Выполненных работ
    Сергей Е. МГУ 2012, физический, выпускник, кандидат наук
    4.9 (5 отзывов)
    Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым напра... Читать все
    Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым направлениям физики, математики, химии и других естественных наук.
    #Кандидатские #Магистерские
    5 Выполненных работ

    Другие учебные работы по предмету

    Видовые различия в русской речи польских и чешских студентов
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Фразеологические единицы в политическом дискурсе
    📅 2021год
    🏢 Санкт-Петербургский государственный университет