Автоматическое реферирование научных публикаций средствами синтаксического анализа на материале современных статей по компьютерному синтаксису

Седова Елена Павловна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Современный человек живет в условиях переизбытка информации: Интернет вошел в повседневную жизнь, открыв доступ в том числе к научным работам, накопленным за многие годы. Занимаясь исследованиями, специалист должен прочесть значительное количество публикаций. Как правило, они снабжены аннотаций и списком ключевых слов, но далеко не всегда этого достаточно, чтобы понять, нужно ли читающему углубляться в тот или иной документ. Эту проблему призван решить реферат – вторичный документ, излагающий основное содержание исходного документа. Реферат, однако, в отличие от аннотации, не часто бывает приложен к работе, какой бы объемной она ни была. Здесь на помощь исследователю должна прийти программа для автоматического реферирования текстов, принимающая на входе текст документа и предлагающая на выходе краткий реферат, позволяющий ознакомиться с основным содержанием работы. Данная работа посвящена автоматическому реферированию научных текстов на русском языке. Хотя работы в области автоматического реферирования велись уже во второй половине XX века, эта задача до сих пор не решена, поскольку автоматическое реферирование имеет дело со сложной изменчивой системой – естественным языком. В работе рассматриваются понятия «реферат» и «аннотация» в отечественной и зарубежной практике, приведены основные методы автоматического реферирования. В ходе рассмотрения этих понятий и методов было сформулировано определение реферата, представлены достоинства и недостатки методов реферирования относительно друг друга. На основании определения реферата и требований, представляемых к нему, а также анализа собранной коллекции статей, был разработан алгоритм автоматического реферирования. Материалом исследования стала коллекция научных статей по компьютерному синтаксису на русском языке, в которую входит 62 статьи, собранных вручную с помощью поиска Google и поиска в электронных библиотеках eLibrary и Cyberleninka. Оценка результата предложенного алгоритма проводилась на основании сравнения с результатами реферирования экспертами, а также системами t-CONCEPTUS Open Text Summarizer. Было выявлено, что реферат, составленный при помощи алгоритма, короче, а его применение позволяет избежать включения в реферат названий журналов и газет, где были опубликованы статьи, имен авторов статей, списка использованной литературы, формул. При этом алгоритм не позволяет выбрать желаемый объем реферата, в отличие от t-CONCEPTUS и Open Text: объем реферата зависит только от количества значимых фраз и связей между предложениями. Итогом данного исследования можно считать разработку алгоритма автоматического реферирования научных статей, посвященных компьютерному синтаксису, на русском языке. Данный алгоритм возможно применить в разработке программы для автоматического реферирования. Значимость исследования заключается в изучении понятий «реферат» и «аннотация», предложения определения термина «реферат», предложении оценки смысловой значимость предложения при реферировании на основе вхождения в него значимых фраз и наличия связи с другими предложениями. На базе разработанного алгоритма возможно создание системы автоматического реферирования. Предложенный алгоритм допускает доработки в зависимости от того, в какой области знаний он будет применятся. В работе использовались следующие методы исследования: метод сплошной выборки, описательный метод, метод моделирования, метод сопоставительного анализа, метод экспертных оценок. Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованной литературы и трех приложений. Во Введении приводятся цель и задачи работы, обосновывается актуальность, теоретическая и практическая значимость работы, называются объект, предмет, материал исследования, приводятся положения, которые выносятся на защиту.

Данная выпускная квалификационная работа посвящена проблеме автоматического реферирования текстов при помощи компьютерного синтаксиса.
Актуальность данной темы обусловлена двумя факторами. В наше время человека окружает объем информации, который невозможно полностью переработать, и большая его часть находится в сети Интернет. Исследователь, занимающийся изучением того или иного вопроса, имеет доступ к значительному числу публикаций. Ознакомиться со всеми, однако, бывает сложно, а порой и не нужно: содержание публикации может не отвечать интересу исследователя. Здесь на помощь должны приходить программы автоматического реферирования. В ходе работы было обнаружено только 2 рабочих веб-приложения для автоматического реферирования. Столь малое количество нужных современному пользователю приложений также обуславливает актуальность данной работы.
Степень разработанности проблемы. Работы в области автоматического реферирования велись уже во второй половине XX века. Эту проблему изучали многие исследователи как в России и СССР, так и за рубежом (В.П. Леонов, Д.Г. Лахути, Э. Ф. Скороходько, С.М. Приходько, В.А Яцко, С.А.Тревгода, H.P. Edmundson, J. Kupiec, E. Lloret, U. Hahn, T. Strzalkowski и др.), сформировались разные методы: экстрагирующий, абстрагирующий и гибридный. Первый метод подразумевает извлечение из текста предложений без переформулирования, а основные тенденции этого направления – выделение значимых слов и предложений, определение риторических отношений, оценка связей предложений между собой, работа с тезаурусом. Экстрагирующий метод не требует глубокого анализа текста, а его основным недостатком в сравнении с авторскими рефератами, относительно которых производится оценка машинных рефератов, остается бессвязность, которую часто можно наблюдать на выходе. Второй, абстрагирующий, подход позволяет получить относительно более стройный и структурированный текст. При этом практическая реализация алгоритмов и необходимость задействования существенного объема лингвистических знаний представляет значительную сложность. Гибридные методы, сочетающие абстрагирование и экстрагирование, не уступают в сложности разработки абстрагирующим методам. Они также подразумевают привлечение баз знаний, а в отдельных случаях и сторонних систем. Тем не менее, хотя работы в области автоматического реферирования ведутся длительное время, эта задача не решена, поскольку имеет дело со сложной изменчивой системой – естественным языком.
Цель исследования состоит в разработке алгоритма автоматического реферирования, позволяющего получить стройный текст, отвечающий основным требованиям ГОСТа, в качестве реферата.
Для достижения обозначенной цели поставлены следующие задачи:
• изучить понятия «реферат» и «аннотация» в отечественно и зарубежной практике, выявить их основные функции и признаки
• исследовать различные методы автоматического реферирования текстов на естественном языке
• собрать коллекцию научных статей по компьютерному синтаксису и проанализировать их, выявив значимые фразы и стоп-лексикон;
• составить словари значимых фраз и стоп-лексики на основании собранных статей
• разработать алгоритм автоматического реферирования научных текстов
• опробовать алгоритм реферирования и оценить результаты его применения
Объектом исследования является структура текстов научных статей по компьютерному синтаксису.
Предметом исследования является разработка алгоритма автоматического реферирования текстов на основе выделенных значимых фраз и связей между предложениями.
Материалом исследования является коллекция научных статей по компьютерному синтаксису на русском языке, в которую входит 62 статьи, собранных вручную с помощью поиска Google и поиска в электронных библиотеках eLibrary и Cyberleninka.
Научная новизна работы состоит заключается в разработке алгоритма автоматического реферирования текста на основе выделения значимых фраз и связей между предложениями.
Теоретическая значимость исследования заключается в изучении понятий «реферат» и «аннотация», предложения определения термина «реферат», предложении оценки смысловой значимость предложения при реферировании на основе вхождения в него значимых фраз и наличия связи с другими предложениями.
Практическая значимость исследования заключается в возможности создания на базе разработанного алгоритма системы автоматического реферирования. Предложенный алгоритм допускает доработки в зависимости от того, в какой области знаний он будет применятся.
В работе использовались следующие методы исследования: метод сплошной выборки, описательный метод, метод моделирования, метод сопоставительного анализа, метод экспертных оценок.
На защиту выносятся следующие положения:
Основные методы автоматического реферирования представлены экстрагирующим, абстрагирующим и гибридным методами.
Алгоритм реферирования включает в себя три основных процедуры: а) морфологический и синтаксический анализ текста б) поиск значимых фраз и связей между предложениями в) исключение из текста предложений, не содержащих значимых фраз и связей с другими предложениями.
Алгоритм разработан на основе анализа теоретических исследований в данной области и анализа коллекции собранных статей по компьютерному синтаксису на русском языке.
Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованной литературы и трех приложений. Во Введении приводятся цель и задачи работы, обосновывается актуальность, теоретическая и практическая значимость работы, называются объект, предмет, материал исследования, приводятся положения, которые выносятся на защиту.
В Главе 1 анализируются понятия «реферат» и «аннотация» в российской и зарубежной практике, а также требования, предъявляемые к англоязычным и русскоязычным аннотациям и рефератам. Описываются основные методы автоматического реферирования и примеры их реализации.
В Главе 2 описывается разработанный метод автоматического реферирования и оценка его практического применения.
В Заключении приводятся итоги и выводы по проведенному исследованию.

В данной выпускной квалификационной работе был предложен алгоритм автоматического реферирования научных текстов на русском языке.
В ходе работы были рассмотрены понятия «реферат» и «аннотация» в отечественной и зарубежной практике, приведены основные методы автоматического реферирования. В ходе рассмотрения этих понятий и методов было сформулировано определение реферата, представлены достоинства и недостатки методов реферирования относительно друг друга. На основании определения реферата и требований, представляемых к нему, а также анализа собранной коллекции статей, был разработан алгоритм автоматического реферирования. Оценка результата предложенного алгоритма проводилась на основании сравнения с результатами реферирования экспертами, а также системами t-CONCEPTUS Open Text Summarizer. Было выявлено, что реферат, составленный при помощи алгоритма, короче, его применение позволяет избежать включения в реферат названий журналов и газет, где были опубликованы статьи, имен авторов статей, списка использованной литературы, формул. При этом алгоритм не позволяет выбрать желаемый объем реферата, в отличие от t-CONCEPTUS и Open Text: объем реферата зависит только от количества значимых фраз и связей между предложениями.
Итогом данного исследования можно считать разработку алгоритма автоматического реферирования научных статей, посвященных компьютерному синтаксису, на русском языке. Данный алгоритм возможно применить в разработке программы для автоматического реферирования.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Елена С. Таганрогский институт управления и экономики Таганрогский...
    4.4 (93 отзыва)
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на напис... Читать все
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на написании курсовых и дипломных работ, а также диссертационных исследований.
    #Кандидатские #Магистерские
    158 Выполненных работ
    Мария Б. преподаватель, кандидат наук
    5 (22 отзыва)
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальнос... Читать все
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальности "Экономика и управление народным хозяйством". Автор научных статей.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Шагали Е. УрГЭУ 2007, Экономика, преподаватель
    4.4 (59 отзывов)
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и... Читать все
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и диссертаций, Есть любимые темы - они дешевле обойдутся, ибо в радость)
    #Кандидатские #Магистерские
    76 Выполненных работ
    Рима С.
    5 (18 отзывов)
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный универси... Читать все
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный университет, являюсь бакалавром, магистром юриспруденции (с отличием)
    #Кандидатские #Магистерские
    38 Выполненных работ
    Дарья Б. МГУ 2017, Журналистики, выпускник
    4.9 (35 отзывов)
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных ко... Читать все
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных компаниях, сейчас работаю редактором. Готова помогать вам с учёбой!
    #Кандидатские #Магистерские
    50 Выполненных работ
    Ксения М. Курганский Государственный Университет 2009, Юридический...
    4.8 (105 отзывов)
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитыв... Читать все
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитывать все требования и пожелания.
    #Кандидатские #Магистерские
    213 Выполненных работ
    Кирилл Ч. ИНЖЭКОН 2010, экономика и управление на предприятии транс...
    4.9 (343 отзыва)
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). С... Читать все
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). Сейчас пишу диссертацию на соискание степени кандидата экономических наук.
    #Кандидатские #Магистерские
    692 Выполненных работы
    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    Дмитрий К. преподаватель, кандидат наук
    5 (1241 отзыв)
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполня... Читать все
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполняю уже 30 лет.
    #Кандидатские #Магистерские
    2271 Выполненная работа

    Другие учебные работы по предмету

    Видовые различия в русской речи польских и чешских студентов
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Фразеологические единицы в политическом дискурсе
    📅 2021год
    🏢 Санкт-Петербургский государственный университет