В работе исследуется создание корпуса старославянского языка, и проводится подробный анализ лингвистических проблем, с которыми исследователь может столкнуться в этом процессе. Даётся краткая характеристика состояния корпусной лингвистики к концу I четверти XXI века. Старославянский язык характеризуется как языковой идиом, обладающий рядом ключевых особенностей, отделяющих его от иных славянских языков, среди которых особенно выделяется ряд фонетических характеристик. С их учётом был сформирован текстовый состав корпуса старославянского языка. Написан ряд регулярных выражений, помогающих в предобработке текста. Был создан уникальный набор тэгов, базирующийся на U-POS, наборе тэгов Universal Dependencies, и была проведена частеречная разметка при помощи скрытой марковской модели, усиленной набором правил. Точность частеречной разметки составила 81% на тестовом наборе данных, и 51% – на значительно отличающимся от него тексте Киевских листков. С учётом результатов частеречной разметки была проведена лемматизация при помощи рекуррентной нейронной сети. Для вычисления её точности были применены раннее почти не применявшиеся метрики, меры сходства строк: расстояния Левенштейна, Дамерау-Левенштейна и Джаро-Винклера. Обоснована необходимость их использования. Точность на тренировочном наборе данных достигла 85%, на тексте Киевских листков – 55%. Ряд текстов был размечен и помещён в базу данных, откуда может быть доступен через веб-приложение, написанное на C#, Python и JavaScript. Таким образом, был описан пайплайн разработки корпуса старославянского языка, выявлены лингвистические проблемы, с которыми исследователь сталкивается при его практическом осуществлении.

За то время, пока данная работа находилась в процессе написания, из сети исчезло несколько корпусов старославянского языка. Последним из них ненадолго стал Corpus Cyrillo-Methodianum Helsingiense, корпус старославянского языка университета Хельсинки [CCMH]. Этот корпус и работа с ним были главным источником вдохновения при написании данной работы. Сама возможность его исчезновения сделала эту работу существенно более важной, чем казалось в момент её начала: в данный момент проблемой выступает не только создание нового корпуса, но и сохранение уже существующих.
Корпусы языков с небольшим количеством известного текстологического материала, к каковым относится старославянский, уязвимы: понимание этого сейчас сильно, как никогда, как и понимание того, что некоторые корпусы, возможно, придётся пересоздавать.
Актуальность данной работы обусловлена необходимостью репродукции и усовершенствования существующих электронных корпусов старославянского языка. Теоретическое значение работы заключается в описании процесса создания корпуса старославянского языка и проблем, которые возникают в ходе данного процесса в связи со специфическими чертами старославянского языка как языкового идиома (как следствие, теоретическое значение работы состоит в том числе в лингвистическом описании данных черт).
Исследовательская гипотеза может быть сформулирована следующим образом: старославянский язык, обладая достаточно высокой гетерогенностью лингвистических особенностей конкретных своих реализаций, может быть обработан и помещён в корпус как единый идиом, представленный некоторым количеством наиболее близких лингвистически текстов.
На защиту выносятся следующие положения:
Существующие ресурсы для исследования старославянского языка нуждаются в развитии и пополнении.
Тексты для корпуса старославянских языков необходимо отбирать по строго определённым, формализованным лингвистическим критериям. В работе используются критерии, данные в различных теоретических работах по старославянскому языку, в частности, исследовании [Kamphuis, 2020].
Не все тексты, прежде определённые как старославянские, соответствуют данным критериям.
Старославянский канон отличается высокой степенью лингвистической гетерогенности [Поливанова, 2013, XV], что влияет на эффективность применения методов машинного обучения при его разметке.
При адаптации существующих методов машинного обучения возможно создать модели, способные, обучившись на одном тексте старославянского языка, успешно размечать остальные.
Прежде многие работы характеризовали существующие корпусы старославянского языка, однако непосредственно процесс создания, в совокупности с описанием индивидуального подхода к решению задач, возникающих в ходе него, достаточно подробно рассматривается впервые. Это обуславливает новизну работы.
Практическая значимость работы состоит, в первую очередь, в создании корпуса старославянского языка на базе универсальной системы создания корпусов. Этот корпус будет возможно использовать в дальнейших лингвистических исследованиях [Egbert и др., 2020], моделировании языка на основании узуса [Divjak и др., 2017, с. 177], лингводидактике [Romer, 2011], а также при составлении словарей [БФССЯ, 2021].
Целью является выявление и решение лингвистических проблем, с которыми исследователь сталкивается при создании корпуса старославянского языка. К числу таких проблем могут быть отнесены, в частности, определение текстового состава и выбор моделей машинного обучения для осуществления автоматической разметки.
Задачами работы, соответственно, становятся:
Анализ опыта создания электронных корпусов старославянского языка, а также актуальных подходов к созданию корпусов и обработке естественного языка (на данном этапе конкретных её областей: предобработки, токенизации, частеречной разметки и лемматизации) в современной лингвистике.
Характеристика старославянского языка как языкового идиома, а также его особенностей, которые необходимо учитывать при создании корпуса.
Структуризация информации о проблемах, которые лингвист-исследователь должен решить при создании корпуса старославянского языка, с учётом особенностей последнего как языкового идиома.
Описание способов решения лингвистических проблем, возникающих при создании корпуса старославянского языка.
Описание процесса создания корпуса старославянского языка.
Работа состоит из 4 глав.
В первой главе характеризуется состояние корпусной лингвистики в начале XXI века (параграф 1.1; подпараграфы описывают корпусы конкретных языков, а именно старославянского (1.1.1), других индоевропейских языков (1.1.2), языков других семей (1.1.3); также подводятся краткие итоги (1.1.4)). В параграфе 1.2. даётся описание существующих методик предварительной обработки текстов (сбор текстов в подпараграфе 1.2.1, графическое представление в подпараграфе 1.2.2, токенизация в подпараграфе 1.2.3). Параграф 1.3 предлагает характеристику подходов к частеречной разметке (общую в подпараграфе 1.3.1, особенности формирования набора тэгов в 1.3.2, обзор тэггеров в 1.3.3, краткие выводы в 1.3.4). В параграфе 1.4 характеризуются подходы к лемматизации (лемматизация как лингвистеская задача описана в подпараграфе 1.4.1, как задача обработки естественного языка – в подпараграфе 1.4.2, существующие лемматизаторы старославянского языка – в подпараграфе 1.4.3, краткие выводы даны в подпараграфе 1.4.4). Параграф 1.5 представляет собой промежуточные выводы по данному разделу.
В главе 2 описывается старославянский язык как языковой идиом (параграф 2.1), репрезентирующие его графические системы (параграф 2.2), его частеречный состав (параграф 2.3), а также даётся общее описание сложностей, возникающих при работе с его текстами (параграф 2.4).

В работе был выявлен ряд ключевых лингвистических проблем, с которыми исследователь может столкнуться при исследовании старославянского языка, а также определены методы, которыми возможно данные проблемы решить.
В первую очередь, были охарактеризованы существующие корпусы старославянского языка. Ни один из них в полной мере не удовлетворяет критериям полноты представления старославянского языка. Возникла необходимость создания собственного корпуса.
Следует заметить, что выработка методологии создания корпуса с нуля выглядит тяжёлой и иррелевантной задачей. Корпусы для крупных индоевропейских языков создавались сушественно раньше, с использованием совершенно иных технологий, нежели тех, что доступны исследователям сейчас. Представляется возможным обратиться к опыту создания корпусов неиндоевропейских языков, в частности, арабского языка и языка паэс.
В работе предпринята попытка краткой характеристики старославянского языка как языкового идиома, отличного от других славянских языков. Представлены основные особенности, по которым возможно идентифицировать старославянские тексты, среди которых – особый рефлекс праславянского сочетания *tj/*dj.
Полностью определить текстовый состав корпуса старославянского языка не удалось: два текста во время написания соответствующих разделов работы находились вне доступа исследователей. Поставлен вопрос о языковой принадлежности ряда текстов, считающихся определяющими для старославянского канона (прежде всего – Киевских листков). Некоторые тексты (к примеру, Остромирово евангелие) были исключены из массива старославянских текстов в силу радикального отличия их языковых особенностей от языковых особенностей, указанных исследователями для старославянского языка как языкового идиома. Ещё одна группа текстов (например, Преславская надпись) на данный момент не может быть определена ни как тексты старославянского языка, ни как тексты какого-то другого идиома. Провести их анализ по существующим критериям в данный момент невозможно. Требуется разработка дополнительных критериев, что будет сделано в последующих исследованиях.
Старославянские тексты представлены в нескольких системах письменности. Для упрощения частеречной разметки и лемматизации потребовалось решить задачу унификации, приведения к кириллическому написанию глаголических рукописей, а также рукописей, переведённых исследователями в ASCII-кодировку. Основным методом решения этой задачи стали регулярные выражения.
Были проанализированы существующие подходы к токенизации, частеречной разметке и лемматизации.
В практической части токенизация осуществлялась путём разделения предварительно обработанного текста по пробельным символам. Это нарушило построчную схему представления текста, однако позволило дать более точное лингвистическое его представление.
Был создан расширенный набор тэгов для наиболее адекватного представления частеречного состава старославянского языка. Проведена частеречная разметка моделью, структурно схожей с TreeTagger, демонстрирующей результат в 81% точности на Мариинском евангелии, а также наибольшую надёжность на гетерогенном массиве текста.
Выявлено, что скрытая марковская модель, усиленная n-граммной, способна к относительно высокой генерализации. На Киевских листках она продемонстрировала преимущество над более современными методами, в частности, рекуррентными нейросетями. Точность zero-shot разметки (разметки «с нуля») достигла значения в 51%. При улучшении модели и увеличении тренировочных данных ожидается повышение как этих конкретных результатов, так и улучшение способности модели к генерализации.
Лемматизация была выполнена рекуррентной нейронной сетью.
Точность модели, при помощи которой осуществлялась лемматизация, на тестовом наборе данных из Мариинского евангелия достигла 85%. Этот показатель оказался меньше, чем у моделей, обученных на нескольких десятках языков, представленных в наборах данных UD, однако гораздо более важным оказалось то, что, будучи оснащённой дополнительной системой правил, эта модель показала высокую степень способности к генерализации на гетерогенных массивах текстов.
Для подсчёта точности были привлечены и дополнительные метрики, меры сходства строк, а именно расстояния Левенштейна, Дамерау-Левенштейна и Джаро-Винклера. Данный подход в лингвистике для оценки эффективности моделей, осуществляющих преобразование «последовательность-в-последовательность», ранее практически не применялся. Он позволил более точно оценить то, насколько результаты, показанные моделью, посимвольно отличались от золотого стандарта. Помимо этого, при помощи выбросов, обнаруженных по данным метрикам, удалось идентифицировать источник неточностей модели, а именно – её склонность к генерации коротких последовательностей.
Точность модели на Киевских листках приблизилась к 50–55%. Основываясь на этих данных, видится возможным утверждать, что была доказана её способность к генерализации. Модель с дальнейшими усовершенствованиями будет применена для разметки и иных текстов старославянского языка.
И модуль частеречной разметки, и модуль лемматизации предстоит улучшать в дальнейшем, возможно, с применением новых технологий и новых архитектур нейронных сетей.
Результаты работы представлены в формате .json-файлов, полученных через написанное на C# приложение с подключаемыми модулями на Python, отображаемых через универсальную систему представления текстовых корпусов, написанную на C#/JavaScript/Python. К настоящему моменту обработаны и автоматически размечены тексты Ассеманиева, Мариинского, Зографского (включая рукопись Б) евангелий, Супрасльской рукописи, Саввиной книги и Киевских листков. Данная разметка сейчас корректируется вручную. Объём корпуса будет увеличиваться за счёт включения иных старославянских рукописей. В данный момент работа ведётся над текстом Енинского апостола.
Исследовательская гипотеза может считаться доказанной: несмотря на высокую степень гетерогенности, старославянский язык может быть обработан и помещён в корпус как единый идиом.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Хочешь уникальную работу?

Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

Наличие красного диплома УрГЮУ по специальности юрист. Опыт работы в профессии - сфера банкротства. Уровень выполняемых работ - до магистерских диссертаций. Написан... Читать все

Наличие красного диплома УрГЮУ по специальности юрист. Опыт работы в профессии - сфера банкротства. Уровень выполняемых работ - до магистерских диссертаций. Написание письменных работ для меня в удовольствие.Всегда качественно.

#Кандидатские #Магистерские

60 Выполненных работ

Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных с... Читать все

Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных статей в области экономики.

#Кандидатские #Магистерские

56 Выполненных работ

Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выв... Читать все

Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выводы).Пишу статьи в РИНЦ, ВАК.Оформление патентов от идеи до регистрации.

#Кандидатские #Магистерские

100 Выполненных работ

Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных... Читать все

Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных исследований, связанных с журналистикой, филологией и литературой

#Кандидатские #Магистерские

33 Выполненных работы

Занимаю 1 место в рейтинге исполнителей по категориям работ "Научные статьи" и "Эссе". Пишу дипломные работы и магистерские диссертации.

#Кандидатские #Магистерские

5125 Выполненных работ

Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым напра... Читать все

Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым направлениям физики, математики, химии и других естественных наук.

#Кандидатские #Магистерские

5 Выполненных работ

Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственно... Читать все

Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственном университете инженерных технологий.

#Кандидатские #Магистерские

66 Выполненных работ

Большой опыт работы. Кандидаты химических, биологических, технических, экономических, юридических, философских наук. Участие в НИОКР, Только актуальная литература (пос... Читать все

#Кандидатские #Магистерские

551 Выполненная работа