Выравнивание русских предложных конструкций и их эквивалентов в агглютинативных языках при создании параллельных корпусов

Эгервари Кристиан Эрик
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В представленном исследовании рассмотрена проблема выравнивания предложных конструкций в параллельном русско-венгерском корпусе.
Цель исследования: разработка подходящего алгоритма для извлечения предложных конструкций из русскоязычной части корпуса и поиска их эквивалентов для перевода в венгерской части корпуса. Алгоритм, разработанный на языке Python, включает в себя автоматический анализ морфологических, грамматических и синтаксических характеристик текстов.
В работе подняты теоретические вопросы, связанные с областью выравнивания текстов, рассмотрены особенности существующих подходов к задаче, приведено описание автоматических инструментов выравнивания и указаны сферы их применения, а также представлены морфосинтаксические особенности изучаемых языков.
В практической части исследования подробно описан разработанный алгоритм и экспериментальный процесс выравнивания предложных конструкций. Авторский подход протестирован и оценен, кроме того, названы предположения по возможности усовершенствования и развития алгоритма.

Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Глава 1. Проблема выравнивания . . . . . . . . . . . . . . . . . . . 8
1.1. Выравнивание в контексте обработки естественного языка . 8
1.2. Определение выравнивания . . . . . . . . . . . . . . . . . . 11
1.3. Уровни выравнивания . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1. Выравнивание на уровне морфем . . . . . . . . . . . 12
1.3.2. Выравнивание на уровне лексем . . . . . . . . . . . . 14
1.3.3. Выравнивание на уровне словосочетаний . . . . . . 15
1.3.4. Выравнивание на уровне предложений . . . . . . . . 17
1.4. Сложности при выравнивании . . . . . . . . . . . . . . . . . 18
1.5. Системы выравнивания параллельных текстов . . . . . . . . 19
1.6. Статистические модели выравнивания . . . . . . . . . . . . 21
1.6.1. Giza++ . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.6.2. fast_align . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.6.3. eflomal . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.7. Нейронные модели выравнивания . . . . . . . . . . . . . . . 24
1.8. Выводы по главе 1 . . . . . . . . . . . . . . . . . . . . . . . . 26

Глава 2. Описание изучаемых языков . . . . . . . . . . . . . . . . . 27
2.1. Роль словоизменительных и словообразовательных особен­
ностей языков в выравнивании . . . . . . . . . . . . . . . . . 27
2.2. Словоизменение и словообразование в русском языке . . . . 27
2.3. Предлоги и предложные конструкции в русском языке . . . 30
2.4. Словообразование и словоизменение в венгерском языке . . 35
2.5. Способы классификации русских предложных конструкций
и их эквивалентов в венгерском языке . . . . . . . . . . . . . 39
2.6. Выводы по главе 2 . . . . . . . . . . . . . . . . . . . . . . . . 42

Глава 3. Создание системы выравнивания русских предложных
конструкций и их эквивалентов в венгерском . . . . . . . 44
3.1. Описание системы для выравнивания русских предложных
конструкций и их эквивалентов в венгерском . . . . . . . . . 44
3.2. Сбор и составление русско­венгерского параллельного кор­
пуса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3. Предварительная обработка корпуса . . . . . . . . . . . . . 48
3.4. Применение алгоритма сжатия цветков для выравнивания
параллельных словосочетаний . . . . . . . . . . . . . . . . . 57
3.5. Результаты анализа и проблемы метода . . . . . . . . . . . . 66
3.6. Выводы по главе 3 . . . . . . . . . . . . . . . . . . . . . . . . 72

Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

В дисциплине корпусной лингвистики в последние годы набирают
большую популярность параллельные корпусы, которые позволяют прово­
дить различные лингвистические исследования на основе многоязычного
текстового материала. В публичном доступе имеются многочисленные па­
раллельные корпусы, например, в составе Национального корпуса русского
языка, Чешского национального корпуса, системы Sketch Engine и др., тем
не менее, составление многоязычных параллельных корпусов является бо­
лее сложной задачей, чем составление одноязычных корпусов. Кроме типич­
ных задач, решаемых при составлении корпусов, таких как сбор текстовых
данных, лингвистическая разметка и мета­разметка материала, также встают
такие задачи, как выравнивание предложений и выравнивание словосочета­
ний, слов или морфем внутри предложений.
Проблема автоматического выравнивания параллельных текстов явля­
ется одной из более важных задач современной компьютерной лингвистики,
потому что высококачественное выполнение этой задачи является предвари­
тельным условием проведении большинства компаративных исследований:
для изучения того, как те или иные лингвистические явления передаются раз­
ными языками, необходимо определить, какие конструкции в одном языке ка­
ким конструкциям другого соответствуют. Соответственно, для большинства
многоязычных морфологических и синтаксических исследований, выравни­
вание – ахиллесова пята: от качества выравнивания зависит успех последу­
ющих шагов. Кроме теоретических задачах, выравнивание играет большую
роль и во многих практических задач, например, в статистическом машинном
переводе.
Для выравнивания параллельных текстов существует ряд распростра­
нённых методов, но эффективность и надёжность этих методов в большой
мере зависит от морфо­синтаксического сходства и близости изучаемых язы­
ков. Для пар языков из одной и той же семьи языков, как, например, немецкий
и голландский, настоящие методы достигают удовлетворительной точности
и полноты, но для более далёких друг от друга языков, как русский и венгер­
ский, проблема выравнивания параллельных текстов до сих пор не решена.
Целью настоящей работы является создание и выравнивание дву­
язычного, русско­венгерского параллельного корпуса, на основе которо­
го появляется возможность провести компаративное исследование русских
предложно­падежных конструкций и эквивалентных им конструкций в вен­
герском языке. Для достижения данной цели необходимо решать следующие
задачи:

Данная работа посвящена изучению и раработке методов автоматиче­
ского выравнивания русских предложно­падежных конструкций и их экви­
валентов в венгерском языке.
В рамках настоящей работы были изучены особенности, проблемы
и методы автоматического выравнивания параллельных текстов на разных
уровнях и были представлены разные системы выравнивания – 3 на основе
статистических и 1 на основе нейронных моделей выравнивания.
Были рассмотрены главные словоизменительные и словообразователь­
ные процессы русского и венгерского языка с точки зрения задачи автомати­
ческого выравнивания параллельных текстов и была создана классификация
соответствия русских предложных конструкций и их эквивалентов в венгер­
ском языке.
Был создан русско­венгерский параллельный корпус, позволяющий
изучать русские предложные конструкции и их эквиваленты в венгерском
языке и был вручную размечен тестовый подкорпус, на основе которого мож­
но оценить и сравнить разные методы выравнивания параллельных текстов.
Корпус является подмножеством параллельных корпусов InterCorp, который
содержит тексты литературного, научного и разговорного языка.
В рамках данной работы была создана система выравнивания на основе
теории графов, которая с высокой эффективностью решает проблему вырав­
нивания русских предложных конструкций и их эквивалентов в венгерском
языке. Была проведена оценка метода и сравнение с уже существующими ме­
тодами, которая показала его эффективность. Данная система была примене­
на для вычета распределения венгерских переводных эквивалентов русских
предложных конструкций и результаты были представлены в виде матрицы.
Таким образом, основные задачи настоящей работы были выполнены и
в результате проведенного исследования можно заключить, что созданный в
рамках данной работы метод выравнивания выполняет задачу выравнивания
русских предложных конструкций и их эквивалентов в венгерском языке с
высокой эффективностью.
Наш метод выравнивания достигает 81.3 процент точности, то есть, по
сравнению с уже существующими, универсальными системами выравнива­
ния, данный специализированный для работы с русским и венгерским языка­
ми метод более чем 2 с половиной раза эффективнее альтернативных мето­
дов. Для получения таких высоких показателей были использованы морфо­
синтаксические параметры для выделения русских предложных конструкций
и их эквивалентов в венгерском, был создан двудольный взвешенный граф из
выделенных словосочетаний. Был применён алгоритм теории графов, алго­
ритм сжатия цветков для определения наибольших паросочетаний на графах.
Несмотря на высокие показатели оценки метода, у него также суще­
ствует некое ограничение: данный метод был создан для работы с русским и
венгерским языками, то есть, его применение за рамками изучения данных
языков является ограниченным.
Планируется расширения метода для большего числа языков, для то­
го чтобы его можно было бы использовать для решения ряда теоретических
и практических задач компьютерной лингвистики, в том числе для изучения
определённых конструкций в разных языках и для улучшения методов авто­
матического машинного перевода.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Екатерина Б. кандидат наук, доцент
    5 (174 отзыва)
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподав... Читать все
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподавала учебные дисциплины: Бюджетная система Украины, Статистика.
    #Кандидатские #Магистерские
    300 Выполненных работ
    Татьяна М. кандидат наук
    5 (285 отзывов)
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    #Кандидатские #Магистерские
    495 Выполненных работ
    Екатерина Д.
    4.8 (37 отзывов)
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два об... Читать все
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два образования: экономист-менеджер и маркетолог. Буду рада помочь и Вам.
    #Кандидатские #Магистерские
    55 Выполненных работ
    Логик Ф. кандидат наук, доцент
    4.9 (826 отзывов)
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские дисс... Читать все
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские диссертации, рефераты, контрольные) уже много лет. Качество работ гарантирую.
    #Кандидатские #Магистерские
    1486 Выполненных работ
    Евгения Р.
    5 (188 отзывов)
    Мой опыт в написании работ - 9 лет. Я специализируюсь на написании курсовых работ, ВКР и магистерских диссертаций, также пишу научные статьи, провожу исследования и со... Читать все
    Мой опыт в написании работ - 9 лет. Я специализируюсь на написании курсовых работ, ВКР и магистерских диссертаций, также пишу научные статьи, провожу исследования и создаю красивые презентации. Сопровождаю работы до сдачи, на связи 24/7 ?
    #Кандидатские #Магистерские
    359 Выполненных работ
    Александр О. Спб государственный университет 1972, мат - мех, преподав...
    4.9 (66 отзывов)
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальн... Читать все
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальных уравнений. Умею быстро и четко выполнять сложные вычислительные работ
    #Кандидатские #Магистерские
    117 Выполненных работ
    Дарья Б. МГУ 2017, Журналистики, выпускник
    4.9 (35 отзывов)
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных ко... Читать все
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных компаниях, сейчас работаю редактором. Готова помогать вам с учёбой!
    #Кандидатские #Магистерские
    50 Выполненных работ
    Катерина В. преподаватель, кандидат наук
    4.6 (30 отзывов)
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации... Читать все
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации. Опыт работы 7 лет. Всегда на связи и готова прийти на помощь. Вместе удовлетворим самого требовательного научного руководителя. Возможно полное сопровождение: от статуса студента до получения научной степени.
    #Кандидатские #Магистерские
    47 Выполненных работ
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ

    Другие учебные работы по предмету

    Видовые различия в русской речи польских и чешских студентов
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Фразеологические единицы в политическом дискурсе
    📅 2021год
    🏢 Санкт-Петербургский государственный университет