Выравнивание русских предложных конструкций и их эквивалентов в агглютинативных языках при создании параллельных корпусов

Эгервари Кристиан Эрик
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В представленном исследовании рассмотрена проблема выравнивания предложных конструкций в параллельном русско-венгерском корпусе.
Цель исследования: разработка подходящего алгоритма для извлечения предложных конструкций из русскоязычной части корпуса и поиска их эквивалентов для перевода в венгерской части корпуса. Алгоритм, разработанный на языке Python, включает в себя автоматический анализ морфологических, грамматических и синтаксических характеристик текстов.
В работе подняты теоретические вопросы, связанные с областью выравнивания текстов, рассмотрены особенности существующих подходов к задаче, приведено описание автоматических инструментов выравнивания и указаны сферы их применения, а также представлены морфосинтаксические особенности изучаемых языков.
В практической части исследования подробно описан разработанный алгоритм и экспериментальный процесс выравнивания предложных конструкций. Авторский подход протестирован и оценен, кроме того, названы предположения по возможности усовершенствования и развития алгоритма.

Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Глава 1. Проблема выравнивания . . . . . . . . . . . . . . . . . . . 8
1.1. Выравнивание в контексте обработки естественного языка . 8
1.2. Определение выравнивания . . . . . . . . . . . . . . . . . . 11
1.3. Уровни выравнивания . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1. Выравнивание на уровне морфем . . . . . . . . . . . 12
1.3.2. Выравнивание на уровне лексем . . . . . . . . . . . . 14
1.3.3. Выравнивание на уровне словосочетаний . . . . . . 15
1.3.4. Выравнивание на уровне предложений . . . . . . . . 17
1.4. Сложности при выравнивании . . . . . . . . . . . . . . . . . 18
1.5. Системы выравнивания параллельных текстов . . . . . . . . 19
1.6. Статистические модели выравнивания . . . . . . . . . . . . 21
1.6.1. Giza++ . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.6.2. fast_align . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.6.3. eflomal . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.7. Нейронные модели выравнивания . . . . . . . . . . . . . . . 24
1.8. Выводы по главе 1 . . . . . . . . . . . . . . . . . . . . . . . . 26

Глава 2. Описание изучаемых языков . . . . . . . . . . . . . . . . . 27
2.1. Роль словоизменительных и словообразовательных особен­
ностей языков в выравнивании . . . . . . . . . . . . . . . . . 27
2.2. Словоизменение и словообразование в русском языке . . . . 27
2.3. Предлоги и предложные конструкции в русском языке . . . 30
2.4. Словообразование и словоизменение в венгерском языке . . 35
2.5. Способы классификации русских предложных конструкций
и их эквивалентов в венгерском языке . . . . . . . . . . . . . 39
2.6. Выводы по главе 2 . . . . . . . . . . . . . . . . . . . . . . . . 42

Глава 3. Создание системы выравнивания русских предложных
конструкций и их эквивалентов в венгерском . . . . . . . 44
3.1. Описание системы для выравнивания русских предложных
конструкций и их эквивалентов в венгерском . . . . . . . . . 44
3.2. Сбор и составление русско­венгерского параллельного кор­
пуса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3. Предварительная обработка корпуса . . . . . . . . . . . . . 48
3.4. Применение алгоритма сжатия цветков для выравнивания
параллельных словосочетаний . . . . . . . . . . . . . . . . . 57
3.5. Результаты анализа и проблемы метода . . . . . . . . . . . . 66
3.6. Выводы по главе 3 . . . . . . . . . . . . . . . . . . . . . . . . 72

Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

В дисциплине корпусной лингвистики в последние годы набирают
большую популярность параллельные корпусы, которые позволяют прово­
дить различные лингвистические исследования на основе многоязычного
текстового материала. В публичном доступе имеются многочисленные па­
раллельные корпусы, например, в составе Национального корпуса русского
языка, Чешского национального корпуса, системы Sketch Engine и др., тем
не менее, составление многоязычных параллельных корпусов является бо­
лее сложной задачей, чем составление одноязычных корпусов. Кроме типич­
ных задач, решаемых при составлении корпусов, таких как сбор текстовых
данных, лингвистическая разметка и мета­разметка материала, также встают
такие задачи, как выравнивание предложений и выравнивание словосочета­
ний, слов или морфем внутри предложений.
Проблема автоматического выравнивания параллельных текстов явля­
ется одной из более важных задач современной компьютерной лингвистики,
потому что высококачественное выполнение этой задачи является предвари­
тельным условием проведении большинства компаративных исследований:
для изучения того, как те или иные лингвистические явления передаются раз­
ными языками, необходимо определить, какие конструкции в одном языке ка­
ким конструкциям другого соответствуют. Соответственно, для большинства
многоязычных морфологических и синтаксических исследований, выравни­
вание – ахиллесова пята: от качества выравнивания зависит успех последу­
ющих шагов. Кроме теоретических задачах, выравнивание играет большую
роль и во многих практических задач, например, в статистическом машинном
переводе.
Для выравнивания параллельных текстов существует ряд распростра­
нённых методов, но эффективность и надёжность этих методов в большой
мере зависит от морфо­синтаксического сходства и близости изучаемых язы­
ков. Для пар языков из одной и той же семьи языков, как, например, немецкий
и голландский, настоящие методы достигают удовлетворительной точности
и полноты, но для более далёких друг от друга языков, как русский и венгер­
ский, проблема выравнивания параллельных текстов до сих пор не решена.
Целью настоящей работы является создание и выравнивание дву­
язычного, русско­венгерского параллельного корпуса, на основе которо­
го появляется возможность провести компаративное исследование русских
предложно­падежных конструкций и эквивалентных им конструкций в вен­
герском языке. Для достижения данной цели необходимо решать следующие
задачи:

Данная работа посвящена изучению и раработке методов автоматиче­
ского выравнивания русских предложно­падежных конструкций и их экви­
валентов в венгерском языке.
В рамках настоящей работы были изучены особенности, проблемы
и методы автоматического выравнивания параллельных текстов на разных
уровнях и были представлены разные системы выравнивания – 3 на основе
статистических и 1 на основе нейронных моделей выравнивания.
Были рассмотрены главные словоизменительные и словообразователь­
ные процессы русского и венгерского языка с точки зрения задачи автомати­
ческого выравнивания параллельных текстов и была создана классификация
соответствия русских предложных конструкций и их эквивалентов в венгер­
ском языке.
Был создан русско­венгерский параллельный корпус, позволяющий
изучать русские предложные конструкции и их эквиваленты в венгерском
языке и был вручную размечен тестовый подкорпус, на основе которого мож­
но оценить и сравнить разные методы выравнивания параллельных текстов.
Корпус является подмножеством параллельных корпусов InterCorp, который
содержит тексты литературного, научного и разговорного языка.
В рамках данной работы была создана система выравнивания на основе
теории графов, которая с высокой эффективностью решает проблему вырав­
нивания русских предложных конструкций и их эквивалентов в венгерском
языке. Была проведена оценка метода и сравнение с уже существующими ме­
тодами, которая показала его эффективность. Данная система была примене­
на для вычета распределения венгерских переводных эквивалентов русских
предложных конструкций и результаты были представлены в виде матрицы.
Таким образом, основные задачи настоящей работы были выполнены и
в результате проведенного исследования можно заключить, что созданный в
рамках данной работы метод выравнивания выполняет задачу выравнивания
русских предложных конструкций и их эквивалентов в венгерском языке с
высокой эффективностью.
Наш метод выравнивания достигает 81.3 процент точности, то есть, по
сравнению с уже существующими, универсальными системами выравнива­
ния, данный специализированный для работы с русским и венгерским языка­
ми метод более чем 2 с половиной раза эффективнее альтернативных мето­
дов. Для получения таких высоких показателей были использованы морфо­
синтаксические параметры для выделения русских предложных конструкций
и их эквивалентов в венгерском, был создан двудольный взвешенный граф из
выделенных словосочетаний. Был применён алгоритм теории графов, алго­
ритм сжатия цветков для определения наибольших паросочетаний на графах.
Несмотря на высокие показатели оценки метода, у него также суще­
ствует некое ограничение: данный метод был создан для работы с русским и
венгерским языками, то есть, его применение за рамками изучения данных
языков является ограниченным.
Планируется расширения метода для большего числа языков, для то­
го чтобы его можно было бы использовать для решения ряда теоретических
и практических задач компьютерной лингвистики, в том числе для изучения
определённых конструкций в разных языках и для улучшения методов авто­
матического машинного перевода.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Шагали Е. УрГЭУ 2007, Экономика, преподаватель
    4.4 (59 отзывов)
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и... Читать все
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и диссертаций, Есть любимые темы - они дешевле обойдутся, ибо в радость)
    #Кандидатские #Магистерские
    76 Выполненных работ
    Татьяна С. кандидат наук
    4.9 (298 отзывов)
    Большой опыт работы. Кандидаты химических, биологических, технических, экономических, юридических, философских наук. Участие в НИОКР, Только актуальная литература (пос... Читать все
    Большой опыт работы. Кандидаты химических, биологических, технических, экономических, юридических, философских наук. Участие в НИОКР, Только актуальная литература (поставки напрямую с издательств), доступ к библиотеке диссертаций РГБ
    #Кандидатские #Магистерские
    551 Выполненная работа
    Катерина В. преподаватель, кандидат наук
    4.6 (30 отзывов)
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации... Читать все
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации. Опыт работы 7 лет. Всегда на связи и готова прийти на помощь. Вместе удовлетворим самого требовательного научного руководителя. Возможно полное сопровождение: от статуса студента до получения научной степени.
    #Кандидатские #Магистерские
    47 Выполненных работ
    Анна В. Инжэкон, студент, кандидат наук
    5 (21 отзыв)
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссе... Читать все
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссертаций. Работала в маркетинге. Практикующий бизнес-консультант.
    #Кандидатские #Магистерские
    31 Выполненная работа
    Мария А. кандидат наук
    4.7 (18 отзывов)
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет... Читать все
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет, реклама, журналистика, педагогика, право)
    #Кандидатские #Магистерские
    39 Выполненных работ
    Татьяна Б.
    4.6 (92 отзыва)
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские ди... Читать все
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские диссертации, курсовые работы средний балл - 4,5). Всегда на связи!
    #Кандидатские #Магистерские
    138 Выполненных работ
    Анна С. СФ ПГУ им. М.В. Ломоносова 2004, филологический, преподав...
    4.8 (9 отзывов)
    Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания... Читать все
    Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания и проверки (в качестве преподавателя) контрольных и курсовых работ.
    #Кандидатские #Магистерские
    16 Выполненных работ
    Сергей Е. МГУ 2012, физический, выпускник, кандидат наук
    4.9 (5 отзывов)
    Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым напра... Читать все
    Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым направлениям физики, математики, химии и других естественных наук.
    #Кандидатские #Магистерские
    5 Выполненных работ
    Сергей Н.
    4.8 (40 отзывов)
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных с... Читать все
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных статей в области экономики.
    #Кандидатские #Магистерские
    56 Выполненных работ

    Другие учебные работы по предмету

    Фразеологические единицы в политическом дискурсе
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Менеджер онлайн в Telegram Написать