Лингвистические проблемы корпуса старославянского языка

Афанасьев Илья Андреевич
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В работе исследуется создание корпуса старославянского языка, и проводится подробный анализ лингвистических проблем, с которыми исследователь может столкнуться в этом процессе. Даётся краткая характеристика состояния корпусной лингвистики к концу I четверти XXI века. Старославянский язык характеризуется как языковой идиом, обладающий рядом ключевых особенностей, отделяющих его от иных славянских языков, среди которых особенно выделяется ряд фонетических характеристик. С их учётом был сформирован текстовый состав корпуса старославянского языка. Написан ряд регулярных выражений, помогающих в предобработке текста. Был создан уникальный набор тэгов, базирующийся на U-POS, наборе тэгов Universal Dependencies, и была проведена частеречная разметка при помощи скрытой марковской модели, усиленной набором правил. Точность частеречной разметки составила 81% на тестовом наборе данных, и 51% – на значительно отличающимся от него тексте Киевских листков. С учётом результатов частеречной разметки была проведена лемматизация при помощи рекуррентной нейронной сети. Для вычисления её точности были применены раннее почти не применявшиеся метрики, меры сходства строк: расстояния Левенштейна, Дамерау-Левенштейна и Джаро-Винклера. Обоснована необходимость их использования. Точность на тренировочном наборе данных достигла 85%, на тексте Киевских листков – 55%. Ряд текстов был размечен и помещён в базу данных, откуда может быть доступен через веб-приложение, написанное на C#, Python и JavaScript. Таким образом, был описан пайплайн разработки корпуса старославянского языка, выявлены лингвистические проблемы, с которыми исследователь сталкивается при его практическом осуществлении.

За то время, пока данная работа находилась в процессе написания, из сети исчезло несколько корпусов старославянского языка. Последним из них ненадолго стал Corpus Cyrillo-Methodianum Helsingiense, корпус старославянского языка университета Хельсинки [CCMH]. Этот корпус и работа с ним были главным источником вдохновения при написании данной работы. Сама возможность его исчезновения сделала эту работу существенно более важной, чем казалось в момент её начала: в данный момент проблемой выступает не только создание нового корпуса, но и сохранение уже существующих.
Корпусы языков с небольшим количеством известного текстологического материала, к каковым относится старославянский, уязвимы: понимание этого сейчас сильно, как никогда, как и понимание того, что некоторые корпусы, возможно, придётся пересоздавать.
Актуальность данной работы обусловлена необходимостью репродукции и усовершенствования существующих электронных корпусов старославянского языка. Теоретическое значение работы заключается в описании процесса создания корпуса старославянского языка и проблем, которые возникают в ходе данного процесса в связи со специфическими чертами старославянского языка как языкового идиома (как следствие, теоретическое значение работы состоит в том числе в лингвистическом описании данных черт).
Исследовательская гипотеза может быть сформулирована следующим образом: старославянский язык, обладая достаточно высокой гетерогенностью лингвистических особенностей конкретных своих реализаций, может быть обработан и помещён в корпус как единый идиом, представленный некоторым количеством наиболее близких лингвистически текстов.
На защиту выносятся следующие положения:
Существующие ресурсы для исследования старославянского языка нуждаются в развитии и пополнении.
Тексты для корпуса старославянских языков необходимо отбирать по строго определённым, формализованным лингвистическим критериям. В работе используются критерии, данные в различных теоретических работах по старославянскому языку, в частности, исследовании [Kamphuis, 2020].
Не все тексты, прежде определённые как старославянские, соответствуют данным критериям.
Старославянский канон отличается высокой степенью лингвистической гетерогенности [Поливанова, 2013, XV], что влияет на эффективность применения методов машинного обучения при его разметке.
При адаптации существующих методов машинного обучения возможно создать модели, способные, обучившись на одном тексте старославянского языка, успешно размечать остальные.
Прежде многие работы характеризовали существующие корпусы старославянского языка, однако непосредственно процесс создания, в совокупности с описанием индивидуального подхода к решению задач, возникающих в ходе него, достаточно подробно рассматривается впервые. Это обуславливает новизну работы.
Практическая значимость работы состоит, в первую очередь, в создании корпуса старославянского языка на базе универсальной системы создания корпусов. Этот корпус будет возможно использовать в дальнейших лингвистических исследованиях [Egbert и др., 2020], моделировании языка на основании узуса [Divjak и др., 2017, с. 177], лингводидактике [Romer, 2011], а также при составлении словарей [БФССЯ, 2021].
Целью является выявление и решение лингвистических проблем, с которыми исследователь сталкивается при создании корпуса старославянского языка. К числу таких проблем могут быть отнесены, в частности, определение текстового состава и выбор моделей машинного обучения для осуществления автоматической разметки.
Задачами работы, соответственно, становятся:
Анализ опыта создания электронных корпусов старославянского языка, а также актуальных подходов к созданию корпусов и обработке естественного языка (на данном этапе конкретных её областей: предобработки, токенизации, частеречной разметки и лемматизации) в современной лингвистике.
Характеристика старославянского языка как языкового идиома, а также его особенностей, которые необходимо учитывать при создании корпуса.
Структуризация информации о проблемах, которые лингвист-исследователь должен решить при создании корпуса старославянского языка, с учётом особенностей последнего как языкового идиома.
Описание способов решения лингвистических проблем, возникающих при создании корпуса старославянского языка.
Описание процесса создания корпуса старославянского языка.
Работа состоит из 4 глав.
В первой главе характеризуется состояние корпусной лингвистики в начале XXI века (параграф 1.1; подпараграфы описывают корпусы конкретных языков, а именно старославянского (1.1.1), других индоевропейских языков (1.1.2), языков других семей (1.1.3); также подводятся краткие итоги (1.1.4)). В параграфе 1.2. даётся описание существующих методик предварительной обработки текстов (сбор текстов в подпараграфе 1.2.1, графическое представление в подпараграфе 1.2.2, токенизация в подпараграфе 1.2.3). Параграф 1.3 предлагает характеристику подходов к частеречной разметке (общую в подпараграфе 1.3.1, особенности формирования набора тэгов в 1.3.2, обзор тэггеров в 1.3.3, краткие выводы в 1.3.4). В параграфе 1.4 характеризуются подходы к лемматизации (лемматизация как лингвистеская задача описана в подпараграфе 1.4.1, как задача обработки естественного языка – в подпараграфе 1.4.2, существующие лемматизаторы старославянского языка – в подпараграфе 1.4.3, краткие выводы даны в подпараграфе 1.4.4). Параграф 1.5 представляет собой промежуточные выводы по данному разделу.
В главе 2 описывается старославянский язык как языковой идиом (параграф 2.1), репрезентирующие его графические системы (параграф 2.2), его частеречный состав (параграф 2.3), а также даётся общее описание сложностей, возникающих при работе с его текстами (параграф 2.4).

В работе был выявлен ряд ключевых лингвистических проблем, с которыми исследователь может столкнуться при исследовании старославянского языка, а также определены методы, которыми возможно данные проблемы решить.
В первую очередь, были охарактеризованы существующие корпусы старославянского языка. Ни один из них в полной мере не удовлетворяет критериям полноты представления старославянского языка. Возникла необходимость создания собственного корпуса.
Следует заметить, что выработка методологии создания корпуса с нуля выглядит тяжёлой и иррелевантной задачей. Корпусы для крупных индоевропейских языков создавались сушественно раньше, с использованием совершенно иных технологий, нежели тех, что доступны исследователям сейчас. Представляется возможным обратиться к опыту создания корпусов неиндоевропейских языков, в частности, арабского языка и языка паэс.
В работе предпринята попытка краткой характеристики старославянского языка как языкового идиома, отличного от других славянских языков. Представлены основные особенности, по которым возможно идентифицировать старославянские тексты, среди которых – особый рефлекс праславянского сочетания *tj/*dj.
Полностью определить текстовый состав корпуса старославянского языка не удалось: два текста во время написания соответствующих разделов работы находились вне доступа исследователей. Поставлен вопрос о языковой принадлежности ряда текстов, считающихся определяющими для старославянского канона (прежде всего – Киевских листков). Некоторые тексты (к примеру, Остромирово евангелие) были исключены из массива старославянских текстов в силу радикального отличия их языковых особенностей от языковых особенностей, указанных исследователями для старославянского языка как языкового идиома. Ещё одна группа текстов (например, Преславская надпись) на данный момент не может быть определена ни как тексты старославянского языка, ни как тексты какого-то другого идиома. Провести их анализ по существующим критериям в данный момент невозможно. Требуется разработка дополнительных критериев, что будет сделано в последующих исследованиях.
Старославянские тексты представлены в нескольких системах письменности. Для упрощения частеречной разметки и лемматизации потребовалось решить задачу унификации, приведения к кириллическому написанию глаголических рукописей, а также рукописей, переведённых исследователями в ASCII-кодировку. Основным методом решения этой задачи стали регулярные выражения.
Были проанализированы существующие подходы к токенизации, частеречной разметке и лемматизации.
В практической части токенизация осуществлялась путём разделения предварительно обработанного текста по пробельным символам. Это нарушило построчную схему представления текста, однако позволило дать более точное лингвистическое его представление.
Был создан расширенный набор тэгов для наиболее адекватного представления частеречного состава старославянского языка. Проведена частеречная разметка моделью, структурно схожей с TreeTagger, демонстрирующей результат в 81% точности на Мариинском евангелии, а также наибольшую надёжность на гетерогенном массиве текста.
Выявлено, что скрытая марковская модель, усиленная n-граммной, способна к относительно высокой генерализации. На Киевских листках она продемонстрировала преимущество над более современными методами, в частности, рекуррентными нейросетями. Точность zero-shot разметки (разметки «с нуля») достигла значения в 51%. При улучшении модели и увеличении тренировочных данных ожидается повышение как этих конкретных результатов, так и улучшение способности модели к генерализации.
Лемматизация была выполнена рекуррентной нейронной сетью.
Точность модели, при помощи которой осуществлялась лемматизация, на тестовом наборе данных из Мариинского евангелия достигла 85%. Этот показатель оказался меньше, чем у моделей, обученных на нескольких десятках языков, представленных в наборах данных UD, однако гораздо более важным оказалось то, что, будучи оснащённой дополнительной системой правил, эта модель показала высокую степень способности к генерализации на гетерогенных массивах текстов.
Для подсчёта точности были привлечены и дополнительные метрики, меры сходства строк, а именно расстояния Левенштейна, Дамерау-Левенштейна и Джаро-Винклера. Данный подход в лингвистике для оценки эффективности моделей, осуществляющих преобразование «последовательность-в-последовательность», ранее практически не применялся. Он позволил более точно оценить то, насколько результаты, показанные моделью, посимвольно отличались от золотого стандарта. Помимо этого, при помощи выбросов, обнаруженных по данным метрикам, удалось идентифицировать источник неточностей модели, а именно – её склонность к генерации коротких последовательностей.
Точность модели на Киевских листках приблизилась к 50–55%. Основываясь на этих данных, видится возможным утверждать, что была доказана её способность к генерализации. Модель с дальнейшими усовершенствованиями будет применена для разметки и иных текстов старославянского языка.
И модуль частеречной разметки, и модуль лемматизации предстоит улучшать в дальнейшем, возможно, с применением новых технологий и новых архитектур нейронных сетей.
Результаты работы представлены в формате .json-файлов, полученных через написанное на C# приложение с подключаемыми модулями на Python, отображаемых через универсальную систему представления текстовых корпусов, написанную на C#/JavaScript/Python. К настоящему моменту обработаны и автоматически размечены тексты Ассеманиева, Мариинского, Зографского (включая рукопись Б) евангелий, Супрасльской рукописи, Саввиной книги и Киевских листков. Данная разметка сейчас корректируется вручную. Объём корпуса будет увеличиваться за счёт включения иных старославянских рукописей. В данный момент работа ведётся над текстом Енинского апостола.
Исследовательская гипотеза может считаться доказанной: несмотря на высокую степень гетерогенности, старославянский язык может быть обработан и помещён в корпус как единый идиом.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Дарья С. Томский государственный университет 2010, Юридический, в...
    4.8 (13 отзывов)
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссерт... Читать все
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссертационное исследование, которое сейчас находится на рассмотрении в совете.
    #Кандидатские #Магистерские
    18 Выполненных работ
    Анна В. Инжэкон, студент, кандидат наук
    5 (21 отзыв)
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссе... Читать все
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссертаций. Работала в маркетинге. Практикующий бизнес-консультант.
    #Кандидатские #Магистерские
    31 Выполненная работа
    Кирилл Ч. ИНЖЭКОН 2010, экономика и управление на предприятии транс...
    4.9 (343 отзыва)
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). С... Читать все
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). Сейчас пишу диссертацию на соискание степени кандидата экономических наук.
    #Кандидатские #Магистерские
    692 Выполненных работы
    Логик Ф. кандидат наук, доцент
    4.9 (826 отзывов)
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские дисс... Читать все
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские диссертации, рефераты, контрольные) уже много лет. Качество работ гарантирую.
    #Кандидатские #Магистерские
    1486 Выполненных работ
    Мария А. кандидат наук
    4.7 (18 отзывов)
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет... Читать все
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет, реклама, журналистика, педагогика, право)
    #Кандидатские #Магистерские
    39 Выполненных работ
    Дарья П. кандидат наук, доцент
    4.9 (20 отзывов)
    Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных... Читать все
    Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных исследований, связанных с журналистикой, филологией и литературой
    #Кандидатские #Магистерские
    33 Выполненных работы
    Екатерина Д.
    4.8 (37 отзывов)
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два об... Читать все
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два образования: экономист-менеджер и маркетолог. Буду рада помочь и Вам.
    #Кандидатские #Магистерские
    55 Выполненных работ
    Мария Б. преподаватель, кандидат наук
    5 (22 отзыва)
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальнос... Читать все
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальности "Экономика и управление народным хозяйством". Автор научных статей.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Вики Р.
    5 (44 отзыва)
    Наличие красного диплома УрГЮУ по специальности юрист. Опыт работы в профессии - сфера банкротства. Уровень выполняемых работ - до магистерских диссертаций. Написан... Читать все
    Наличие красного диплома УрГЮУ по специальности юрист. Опыт работы в профессии - сфера банкротства. Уровень выполняемых работ - до магистерских диссертаций. Написание письменных работ для меня в удовольствие.Всегда качественно.
    #Кандидатские #Магистерские
    60 Выполненных работ

    Другие учебные работы по предмету

    Влияние И.С. Тургенева на раннее творчество А.П. Чехова
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Поток сознания как кинематографический прием
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Поэтика женских образов в прозе А.П. Чехова
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Каноны Косьмы Маюмского: опыт филологического анализа
    📅 2021год
    🏢 Санкт-Петербургский государственный университет