Top.Mail.Ru

Автоматическое реферирование научных публикаций средствами синтаксического анализа на материале современных статей по компьютерному синтаксису

Седова Елена Павловна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Современный человек живет в условиях переизбытка информации: Интернет вошел в повседневную жизнь, открыв доступ в том числе к научным работам, накопленным за многие годы. Занимаясь исследованиями, специалист должен прочесть значительное количество публикаций. Как правило, они снабжены аннотаций и списком ключевых слов, но далеко не всегда этого достаточно, чтобы понять, нужно ли читающему углубляться в тот или иной документ. Эту проблему призван решить реферат – вторичный документ, излагающий основное содержание исходного документа. Реферат, однако, в отличие от аннотации, не часто бывает приложен к работе, какой бы объемной она ни была. Здесь на помощь исследователю должна прийти программа для автоматического реферирования текстов, принимающая на входе текст документа и предлагающая на выходе краткий реферат, позволяющий ознакомиться с основным содержанием работы. Данная работа посвящена автоматическому реферированию научных текстов на русском языке. Хотя работы в области автоматического реферирования велись уже во второй половине XX века, эта задача до сих пор не решена, поскольку автоматическое реферирование имеет дело со сложной изменчивой системой – естественным языком. В работе рассматриваются понятия «реферат» и «аннотация» в отечественной и зарубежной практике, приведены основные методы автоматического реферирования. В ходе рассмотрения этих понятий и методов было сформулировано определение реферата, представлены достоинства и недостатки методов реферирования относительно друг друга. На основании определения реферата и требований, представляемых к нему, а также анализа собранной коллекции статей, был разработан алгоритм автоматического реферирования. Материалом исследования стала коллекция научных статей по компьютерному синтаксису на русском языке, в которую входит 62 статьи, собранных вручную с помощью поиска Google и поиска в электронных библиотеках eLibrary и Cyberleninka. Оценка результата предложенного алгоритма проводилась на основании сравнения с результатами реферирования экспертами, а также системами t-CONCEPTUS Open Text Summarizer. Было выявлено, что реферат, составленный при помощи алгоритма, короче, а его применение позволяет избежать включения в реферат названий журналов и газет, где были опубликованы статьи, имен авторов статей, списка использованной литературы, формул. При этом алгоритм не позволяет выбрать желаемый объем реферата, в отличие от t-CONCEPTUS и Open Text: объем реферата зависит только от количества значимых фраз и связей между предложениями. Итогом данного исследования можно считать разработку алгоритма автоматического реферирования научных статей, посвященных компьютерному синтаксису, на русском языке. Данный алгоритм возможно применить в разработке программы для автоматического реферирования. Значимость исследования заключается в изучении понятий «реферат» и «аннотация», предложения определения термина «реферат», предложении оценки смысловой значимость предложения при реферировании на основе вхождения в него значимых фраз и наличия связи с другими предложениями. На базе разработанного алгоритма возможно создание системы автоматического реферирования. Предложенный алгоритм допускает доработки в зависимости от того, в какой области знаний он будет применятся. В работе использовались следующие методы исследования: метод сплошной выборки, описательный метод, метод моделирования, метод сопоставительного анализа, метод экспертных оценок. Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованной литературы и трех приложений. Во Введении приводятся цель и задачи работы, обосновывается актуальность, теоретическая и практическая значимость работы, называются объект, предмет, материал исследования, приводятся положения, которые выносятся на защиту.

Данная выпускная квалификационная работа посвящена проблеме автоматического реферирования текстов при помощи компьютерного синтаксиса.
Актуальность данной темы обусловлена двумя факторами. В наше время человека окружает объем информации, который невозможно полностью переработать, и большая его часть находится в сети Интернет. Исследователь, занимающийся изучением того или иного вопроса, имеет доступ к значительному числу публикаций. Ознакомиться со всеми, однако, бывает сложно, а порой и не нужно: содержание публикации может не отвечать интересу исследователя. Здесь на помощь должны приходить программы автоматического реферирования. В ходе работы было обнаружено только 2 рабочих веб-приложения для автоматического реферирования. Столь малое количество нужных современному пользователю приложений также обуславливает актуальность данной работы.
Степень разработанности проблемы. Работы в области автоматического реферирования велись уже во второй половине XX века. Эту проблему изучали многие исследователи как в России и СССР, так и за рубежом (В.П. Леонов, Д.Г. Лахути, Э. Ф. Скороходько, С.М. Приходько, В.А Яцко, С.А.Тревгода, H.P. Edmundson, J. Kupiec, E. Lloret, U. Hahn, T. Strzalkowski и др.), сформировались разные методы: экстрагирующий, абстрагирующий и гибридный. Первый метод подразумевает извлечение из текста предложений без переформулирования, а основные тенденции этого направления – выделение значимых слов и предложений, определение риторических отношений, оценка связей предложений между собой, работа с тезаурусом. Экстрагирующий метод не требует глубокого анализа текста, а его основным недостатком в сравнении с авторскими рефератами, относительно которых производится оценка машинных рефератов, остается бессвязность, которую часто можно наблюдать на выходе. Второй, абстрагирующий, подход позволяет получить относительно более стройный и структурированный текст. При этом практическая реализация алгоритмов и необходимость задействования существенного объема лингвистических знаний представляет значительную сложность. Гибридные методы, сочетающие абстрагирование и экстрагирование, не уступают в сложности разработки абстрагирующим методам. Они также подразумевают привлечение баз знаний, а в отдельных случаях и сторонних систем. Тем не менее, хотя работы в области автоматического реферирования ведутся длительное время, эта задача не решена, поскольку имеет дело со сложной изменчивой системой – естественным языком.
Цель исследования состоит в разработке алгоритма автоматического реферирования, позволяющего получить стройный текст, отвечающий основным требованиям ГОСТа, в качестве реферата.
Для достижения обозначенной цели поставлены следующие задачи:
• изучить понятия «реферат» и «аннотация» в отечественно и зарубежной практике, выявить их основные функции и признаки
• исследовать различные методы автоматического реферирования текстов на естественном языке
• собрать коллекцию научных статей по компьютерному синтаксису и проанализировать их, выявив значимые фразы и стоп-лексикон;
• составить словари значимых фраз и стоп-лексики на основании собранных статей
• разработать алгоритм автоматического реферирования научных текстов
• опробовать алгоритм реферирования и оценить результаты его применения
Объектом исследования является структура текстов научных статей по компьютерному синтаксису.
Предметом исследования является разработка алгоритма автоматического реферирования текстов на основе выделенных значимых фраз и связей между предложениями.
Материалом исследования является коллекция научных статей по компьютерному синтаксису на русском языке, в которую входит 62 статьи, собранных вручную с помощью поиска Google и поиска в электронных библиотеках eLibrary и Cyberleninka.
Научная новизна работы состоит заключается в разработке алгоритма автоматического реферирования текста на основе выделения значимых фраз и связей между предложениями.
Теоретическая значимость исследования заключается в изучении понятий «реферат» и «аннотация», предложения определения термина «реферат», предложении оценки смысловой значимость предложения при реферировании на основе вхождения в него значимых фраз и наличия связи с другими предложениями.
Практическая значимость исследования заключается в возможности создания на базе разработанного алгоритма системы автоматического реферирования. Предложенный алгоритм допускает доработки в зависимости от того, в какой области знаний он будет применятся.
В работе использовались следующие методы исследования: метод сплошной выборки, описательный метод, метод моделирования, метод сопоставительного анализа, метод экспертных оценок.
На защиту выносятся следующие положения:
Основные методы автоматического реферирования представлены экстрагирующим, абстрагирующим и гибридным методами.
Алгоритм реферирования включает в себя три основных процедуры: а) морфологический и синтаксический анализ текста б) поиск значимых фраз и связей между предложениями в) исключение из текста предложений, не содержащих значимых фраз и связей с другими предложениями.
Алгоритм разработан на основе анализа теоретических исследований в данной области и анализа коллекции собранных статей по компьютерному синтаксису на русском языке.
Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованной литературы и трех приложений. Во Введении приводятся цель и задачи работы, обосновывается актуальность, теоретическая и практическая значимость работы, называются объект, предмет, материал исследования, приводятся положения, которые выносятся на защиту.
В Главе 1 анализируются понятия «реферат» и «аннотация» в российской и зарубежной практике, а также требования, предъявляемые к англоязычным и русскоязычным аннотациям и рефератам. Описываются основные методы автоматического реферирования и примеры их реализации.
В Главе 2 описывается разработанный метод автоматического реферирования и оценка его практического применения.
В Заключении приводятся итоги и выводы по проведенному исследованию.

В данной выпускной квалификационной работе был предложен алгоритм автоматического реферирования научных текстов на русском языке.
В ходе работы были рассмотрены понятия «реферат» и «аннотация» в отечественной и зарубежной практике, приведены основные методы автоматического реферирования. В ходе рассмотрения этих понятий и методов было сформулировано определение реферата, представлены достоинства и недостатки методов реферирования относительно друг друга. На основании определения реферата и требований, представляемых к нему, а также анализа собранной коллекции статей, был разработан алгоритм автоматического реферирования. Оценка результата предложенного алгоритма проводилась на основании сравнения с результатами реферирования экспертами, а также системами t-CONCEPTUS Open Text Summarizer. Было выявлено, что реферат, составленный при помощи алгоритма, короче, его применение позволяет избежать включения в реферат названий журналов и газет, где были опубликованы статьи, имен авторов статей, списка использованной литературы, формул. При этом алгоритм не позволяет выбрать желаемый объем реферата, в отличие от t-CONCEPTUS и Open Text: объем реферата зависит только от количества значимых фраз и связей между предложениями.
Итогом данного исследования можно считать разработку алгоритма автоматического реферирования научных статей, посвященных компьютерному синтаксису, на русском языке. Данный алгоритм возможно применить в разработке программы для автоматического реферирования.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Дарья С. Томский государственный университет 2010, Юридический, в...
    4.8 (13 отзывов)
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссерт... Читать все
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссертационное исследование, которое сейчас находится на рассмотрении в совете.
    #Кандидатские #Магистерские
    18 Выполненных работ
    Дмитрий М. БГАТУ 2001, электрификации, выпускник
    4.8 (17 отзывов)
    Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал стать... Читать все
    Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал статьи, патенты, кандидатскую диссертацию, преподавал. Занимаюсь этим с 2003.
    #Кандидатские #Магистерские
    19 Выполненных работ
    Ольга Р. доктор, профессор
    4.2 (13 отзывов)
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласован... Читать все
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласованные сроки и при необходимости дорабатываются по рекомендациям научного руководителя (преподавателя). Буду рада плодотворному и взаимовыгодному сотрудничеству!!! К каждой работе подхожу индивидуально! Всегда готова по любому вопросу договориться с заказчиком! Все работы проверяю на антиплагиат.ру по умолчанию, если в заказе не стоит иное и если это заранее не обговорено!!!
    #Кандидатские #Магистерские
    21 Выполненная работа
    Александр Р. ВоГТУ 2003, Экономический, преподаватель, кандидат наук
    4.5 (80 отзывов)
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфин... Читать все
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфинансы (Казначейство). Работаю в финансовой сфере более 10 лет. Банки,риски
    #Кандидатские #Магистерские
    123 Выполненных работы
    Вики Р.
    5 (44 отзыва)
    Наличие красного диплома УрГЮУ по специальности юрист. Опыт работы в профессии - сфера банкротства. Уровень выполняемых работ - до магистерских диссертаций. Написан... Читать все
    Наличие красного диплома УрГЮУ по специальности юрист. Опыт работы в профессии - сфера банкротства. Уровень выполняемых работ - до магистерских диссертаций. Написание письменных работ для меня в удовольствие.Всегда качественно.
    #Кандидатские #Магистерские
    60 Выполненных работ
    Елена С. Таганрогский институт управления и экономики Таганрогский...
    4.4 (93 отзыва)
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на напис... Читать все
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на написании курсовых и дипломных работ, а также диссертационных исследований.
    #Кандидатские #Магистерские
    158 Выполненных работ
    Рима С.
    5 (18 отзывов)
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный универси... Читать все
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный университет, являюсь бакалавром, магистром юриспруденции (с отличием)
    #Кандидатские #Магистерские
    38 Выполненных работ
    Андрей С. Тверской государственный университет 2011, математический...
    4.7 (82 отзыва)
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на... Читать все
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на продолжение диссертационной работы... Всегда готов помочь! ;)
    #Кандидатские #Магистерские
    164 Выполненных работы
    Татьяна П. МГУ им. Ломоносова 1930, выпускник
    5 (9 отзывов)
    Журналист. Младший научный сотрудник в институте РАН. Репетитор по английскому языку (стаж 6 лет). Также знаю французский. Сейчас занимаюсь написанием диссертации по и... Читать все
    Журналист. Младший научный сотрудник в институте РАН. Репетитор по английскому языку (стаж 6 лет). Также знаю французский. Сейчас занимаюсь написанием диссертации по истории. Увлекаюсь литературой и темой космоса.
    #Кандидатские #Магистерские
    11 Выполненных работ

    Другие учебные работы по предмету

    Видовые различия в русской речи польских и чешских студентов
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Фразеологические единицы в политическом дискурсе
    📅 2021год
    🏢 Санкт-Петербургский государственный университет