Выравнивание русских предложных конструкций и их эквивалентов в агглютинативных языках при создании параллельных корпусов

Эгервари Кристиан Эрик
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В представленном исследовании рассмотрена проблема выравнивания предложных конструкций в параллельном русско-венгерском корпусе.
Цель исследования: разработка подходящего алгоритма для извлечения предложных конструкций из русскоязычной части корпуса и поиска их эквивалентов для перевода в венгерской части корпуса. Алгоритм, разработанный на языке Python, включает в себя автоматический анализ морфологических, грамматических и синтаксических характеристик текстов.
В работе подняты теоретические вопросы, связанные с областью выравнивания текстов, рассмотрены особенности существующих подходов к задаче, приведено описание автоматических инструментов выравнивания и указаны сферы их применения, а также представлены морфосинтаксические особенности изучаемых языков.
В практической части исследования подробно описан разработанный алгоритм и экспериментальный процесс выравнивания предложных конструкций. Авторский подход протестирован и оценен, кроме того, названы предположения по возможности усовершенствования и развития алгоритма.

Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Глава 1. Проблема выравнивания . . . . . . . . . . . . . . . . . . . 8
1.1. Выравнивание в контексте обработки естественного языка . 8
1.2. Определение выравнивания . . . . . . . . . . . . . . . . . . 11
1.3. Уровни выравнивания . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1. Выравнивание на уровне морфем . . . . . . . . . . . 12
1.3.2. Выравнивание на уровне лексем . . . . . . . . . . . . 14
1.3.3. Выравнивание на уровне словосочетаний . . . . . . 15
1.3.4. Выравнивание на уровне предложений . . . . . . . . 17
1.4. Сложности при выравнивании . . . . . . . . . . . . . . . . . 18
1.5. Системы выравнивания параллельных текстов . . . . . . . . 19
1.6. Статистические модели выравнивания . . . . . . . . . . . . 21
1.6.1. Giza++ . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.6.2. fast_align . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.6.3. eflomal . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.7. Нейронные модели выравнивания . . . . . . . . . . . . . . . 24
1.8. Выводы по главе 1 . . . . . . . . . . . . . . . . . . . . . . . . 26

Глава 2. Описание изучаемых языков . . . . . . . . . . . . . . . . . 27
2.1. Роль словоизменительных и словообразовательных особен­
ностей языков в выравнивании . . . . . . . . . . . . . . . . . 27
2.2. Словоизменение и словообразование в русском языке . . . . 27
2.3. Предлоги и предложные конструкции в русском языке . . . 30
2.4. Словообразование и словоизменение в венгерском языке . . 35
2.5. Способы классификации русских предложных конструкций
и их эквивалентов в венгерском языке . . . . . . . . . . . . . 39
2.6. Выводы по главе 2 . . . . . . . . . . . . . . . . . . . . . . . . 42

Глава 3. Создание системы выравнивания русских предложных
конструкций и их эквивалентов в венгерском . . . . . . . 44
3.1. Описание системы для выравнивания русских предложных
конструкций и их эквивалентов в венгерском . . . . . . . . . 44
3.2. Сбор и составление русско­венгерского параллельного кор­
пуса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3. Предварительная обработка корпуса . . . . . . . . . . . . . 48
3.4. Применение алгоритма сжатия цветков для выравнивания
параллельных словосочетаний . . . . . . . . . . . . . . . . . 57
3.5. Результаты анализа и проблемы метода . . . . . . . . . . . . 66
3.6. Выводы по главе 3 . . . . . . . . . . . . . . . . . . . . . . . . 72

Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

В дисциплине корпусной лингвистики в последние годы набирают
большую популярность параллельные корпусы, которые позволяют прово­
дить различные лингвистические исследования на основе многоязычного
текстового материала. В публичном доступе имеются многочисленные па­
раллельные корпусы, например, в составе Национального корпуса русского
языка, Чешского национального корпуса, системы Sketch Engine и др., тем
не менее, составление многоязычных параллельных корпусов является бо­
лее сложной задачей, чем составление одноязычных корпусов. Кроме типич­
ных задач, решаемых при составлении корпусов, таких как сбор текстовых
данных, лингвистическая разметка и мета­разметка материала, также встают
такие задачи, как выравнивание предложений и выравнивание словосочета­
ний, слов или морфем внутри предложений.
Проблема автоматического выравнивания параллельных текстов явля­
ется одной из более важных задач современной компьютерной лингвистики,
потому что высококачественное выполнение этой задачи является предвари­
тельным условием проведении большинства компаративных исследований:
для изучения того, как те или иные лингвистические явления передаются раз­
ными языками, необходимо определить, какие конструкции в одном языке ка­
ким конструкциям другого соответствуют. Соответственно, для большинства
многоязычных морфологических и синтаксических исследований, выравни­
вание – ахиллесова пята: от качества выравнивания зависит успех последу­
ющих шагов. Кроме теоретических задачах, выравнивание играет большую
роль и во многих практических задач, например, в статистическом машинном
переводе.
Для выравнивания параллельных текстов существует ряд распростра­
нённых методов, но эффективность и надёжность этих методов в большой
мере зависит от морфо­синтаксического сходства и близости изучаемых язы­
ков. Для пар языков из одной и той же семьи языков, как, например, немецкий
и голландский, настоящие методы достигают удовлетворительной точности
и полноты, но для более далёких друг от друга языков, как русский и венгер­
ский, проблема выравнивания параллельных текстов до сих пор не решена.
Целью настоящей работы является создание и выравнивание дву­
язычного, русско­венгерского параллельного корпуса, на основе которо­
го появляется возможность провести компаративное исследование русских
предложно­падежных конструкций и эквивалентных им конструкций в вен­
герском языке. Для достижения данной цели необходимо решать следующие
задачи:

Данная работа посвящена изучению и раработке методов автоматиче­
ского выравнивания русских предложно­падежных конструкций и их экви­
валентов в венгерском языке.
В рамках настоящей работы были изучены особенности, проблемы
и методы автоматического выравнивания параллельных текстов на разных
уровнях и были представлены разные системы выравнивания – 3 на основе
статистических и 1 на основе нейронных моделей выравнивания.
Были рассмотрены главные словоизменительные и словообразователь­
ные процессы русского и венгерского языка с точки зрения задачи автомати­
ческого выравнивания параллельных текстов и была создана классификация
соответствия русских предложных конструкций и их эквивалентов в венгер­
ском языке.
Был создан русско­венгерский параллельный корпус, позволяющий
изучать русские предложные конструкции и их эквиваленты в венгерском
языке и был вручную размечен тестовый подкорпус, на основе которого мож­
но оценить и сравнить разные методы выравнивания параллельных текстов.
Корпус является подмножеством параллельных корпусов InterCorp, который
содержит тексты литературного, научного и разговорного языка.
В рамках данной работы была создана система выравнивания на основе
теории графов, которая с высокой эффективностью решает проблему вырав­
нивания русских предложных конструкций и их эквивалентов в венгерском
языке. Была проведена оценка метода и сравнение с уже существующими ме­
тодами, которая показала его эффективность. Данная система была примене­
на для вычета распределения венгерских переводных эквивалентов русских
предложных конструкций и результаты были представлены в виде матрицы.
Таким образом, основные задачи настоящей работы были выполнены и
в результате проведенного исследования можно заключить, что созданный в
рамках данной работы метод выравнивания выполняет задачу выравнивания
русских предложных конструкций и их эквивалентов в венгерском языке с
высокой эффективностью.
Наш метод выравнивания достигает 81.3 процент точности, то есть, по
сравнению с уже существующими, универсальными системами выравнива­
ния, данный специализированный для работы с русским и венгерским языка­
ми метод более чем 2 с половиной раза эффективнее альтернативных мето­
дов. Для получения таких высоких показателей были использованы морфо­
синтаксические параметры для выделения русских предложных конструкций
и их эквивалентов в венгерском, был создан двудольный взвешенный граф из
выделенных словосочетаний. Был применён алгоритм теории графов, алго­
ритм сжатия цветков для определения наибольших паросочетаний на графах.
Несмотря на высокие показатели оценки метода, у него также суще­
ствует некое ограничение: данный метод был создан для работы с русским и
венгерским языками, то есть, его применение за рамками изучения данных
языков является ограниченным.
Планируется расширения метода для большего числа языков, для то­
го чтобы его можно было бы использовать для решения ряда теоретических
и практических задач компьютерной лингвистики, в том числе для изучения
определённых конструкций в разных языках и для улучшения методов авто­
матического машинного перевода.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Егор В. кандидат наук, доцент
    5 (428 отзывов)
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Ск... Читать все
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Скорее всего Ваш заказ будет выполнен раньше срока.
    #Кандидатские #Магистерские
    694 Выполненных работы
    Александр О. Спб государственный университет 1972, мат - мех, преподав...
    4.9 (66 отзывов)
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальн... Читать все
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальных уравнений. Умею быстро и четко выполнять сложные вычислительные работ
    #Кандидатские #Магистерские
    117 Выполненных работ
    Дарья Б. МГУ 2017, Журналистики, выпускник
    4.9 (35 отзывов)
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных ко... Читать все
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных компаниях, сейчас работаю редактором. Готова помогать вам с учёбой!
    #Кандидатские #Магистерские
    50 Выполненных работ
    Мария А. кандидат наук
    4.7 (18 отзывов)
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет... Читать все
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет, реклама, журналистика, педагогика, право)
    #Кандидатские #Магистерские
    39 Выполненных работ
    Глеб С. преподаватель, кандидат наук, доцент
    5 (158 отзывов)
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной с... Читать все
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной специальности 12.00.14 административное право, административный процесс.
    #Кандидатские #Магистерские
    216 Выполненных работ
    Елена Л. РЭУ им. Г. В. Плеханова 2009, Управления и коммерции, пре...
    4.8 (211 отзывов)
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно исполь... Читать все
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно использую в работе графический материал (графики рисунки, диаграммы) и таблицы.
    #Кандидатские #Магистерские
    362 Выполненных работы
    Александр Р. ВоГТУ 2003, Экономический, преподаватель, кандидат наук
    4.5 (80 отзывов)
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфин... Читать все
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфинансы (Казначейство). Работаю в финансовой сфере более 10 лет. Банки,риски
    #Кандидатские #Магистерские
    123 Выполненных работы
    Рима С.
    5 (18 отзывов)
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный универси... Читать все
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный университет, являюсь бакалавром, магистром юриспруденции (с отличием)
    #Кандидатские #Магистерские
    38 Выполненных работ
    Виктор В. Смоленская государственная медицинская академия 1997, Леч...
    4.7 (46 отзывов)
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выв... Читать все
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выводы).Пишу статьи в РИНЦ, ВАК.Оформление патентов от идеи до регистрации.
    #Кандидатские #Магистерские
    100 Выполненных работ

    Другие учебные работы по предмету

    Видовые различия в русской речи польских и чешских студентов
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Фразеологические единицы в политическом дискурсе
    📅 2021год
    🏢 Санкт-Петербургский государственный университет