В работе исследуется создание корпуса старославянского языка, и проводится подробный анализ лингвистических проблем, с которыми исследователь может столкнуться в этом процессе. Даётся краткая характеристика состояния корпусной лингвистики к концу I четверти XXI века. Старославянский язык характеризуется как языковой идиом, обладающий рядом ключевых особенностей, отделяющих его от иных славянских языков, среди которых особенно выделяется ряд фонетических характеристик. С их учётом был сформирован текстовый состав корпуса старославянского языка. Написан ряд регулярных выражений, помогающих в предобработке текста. Был создан уникальный набор тэгов, базирующийся на U-POS, наборе тэгов Universal Dependencies, и была проведена частеречная разметка при помощи скрытой марковской модели, усиленной набором правил. Точность частеречной разметки составила 81% на тестовом наборе данных, и 51% – на значительно отличающимся от него тексте Киевских листков. С учётом результатов частеречной разметки была проведена лемматизация при помощи рекуррентной нейронной сети. Для вычисления её точности были применены раннее почти не применявшиеся метрики, меры сходства строк: расстояния Левенштейна, Дамерау-Левенштейна и Джаро-Винклера. Обоснована необходимость их использования. Точность на тренировочном наборе данных достигла 85%, на тексте Киевских листков – 55%. Ряд текстов был размечен и помещён в базу данных, откуда может быть доступен через веб-приложение, написанное на C#, Python и JavaScript. Таким образом, был описан пайплайн разработки корпуса старославянского языка, выявлены лингвистические проблемы, с которыми исследователь сталкивается при его практическом осуществлении.

За то время, пока данная работа находилась в процессе написания, из сети исчезло несколько корпусов старославянского языка. Последним из них ненадолго стал Corpus Cyrillo-Methodianum Helsingiense, корпус старославянского языка университета Хельсинки [CCMH]. Этот корпус и работа с ним были главным источником вдохновения при написании данной работы. Сама возможность его исчезновения сделала эту работу существенно более важной, чем казалось в момент её начала: в данный момент проблемой выступает не только создание нового корпуса, но и сохранение уже существующих.
Корпусы языков с небольшим количеством известного текстологического материала, к каковым относится старославянский, уязвимы: понимание этого сейчас сильно, как никогда, как и понимание того, что некоторые корпусы, возможно, придётся пересоздавать.
Актуальность данной работы обусловлена необходимостью репродукции и усовершенствования существующих электронных корпусов старославянского языка. Теоретическое значение работы заключается в описании процесса создания корпуса старославянского языка и проблем, которые возникают в ходе данного процесса в связи со специфическими чертами старославянского языка как языкового идиома (как следствие, теоретическое значение работы состоит в том числе в лингвистическом описании данных черт).
Исследовательская гипотеза может быть сформулирована следующим образом: старославянский язык, обладая достаточно высокой гетерогенностью лингвистических особенностей конкретных своих реализаций, может быть обработан и помещён в корпус как единый идиом, представленный некоторым количеством наиболее близких лингвистически текстов.
На защиту выносятся следующие положения:
Существующие ресурсы для исследования старославянского языка нуждаются в развитии и пополнении.
Тексты для корпуса старославянских языков необходимо отбирать по строго определённым, формализованным лингвистическим критериям. В работе используются критерии, данные в различных теоретических работах по старославянскому языку, в частности, исследовании [Kamphuis, 2020].
Не все тексты, прежде определённые как старославянские, соответствуют данным критериям.
Старославянский канон отличается высокой степенью лингвистической гетерогенности [Поливанова, 2013, XV], что влияет на эффективность применения методов машинного обучения при его разметке.
При адаптации существующих методов машинного обучения возможно создать модели, способные, обучившись на одном тексте старославянского языка, успешно размечать остальные.
Прежде многие работы характеризовали существующие корпусы старославянского языка, однако непосредственно процесс создания, в совокупности с описанием индивидуального подхода к решению задач, возникающих в ходе него, достаточно подробно рассматривается впервые. Это обуславливает новизну работы.
Практическая значимость работы состоит, в первую очередь, в создании корпуса старославянского языка на базе универсальной системы создания корпусов. Этот корпус будет возможно использовать в дальнейших лингвистических исследованиях [Egbert и др., 2020], моделировании языка на основании узуса [Divjak и др., 2017, с. 177], лингводидактике [Romer, 2011], а также при составлении словарей [БФССЯ, 2021].
Целью является выявление и решение лингвистических проблем, с которыми исследователь сталкивается при создании корпуса старославянского языка. К числу таких проблем могут быть отнесены, в частности, определение текстового состава и выбор моделей машинного обучения для осуществления автоматической разметки.
Задачами работы, соответственно, становятся:
Анализ опыта создания электронных корпусов старославянского языка, а также актуальных подходов к созданию корпусов и обработке естественного языка (на данном этапе конкретных её областей: предобработки, токенизации, частеречной разметки и лемматизации) в современной лингвистике.
Характеристика старославянского языка как языкового идиома, а также его особенностей, которые необходимо учитывать при создании корпуса.
Структуризация информации о проблемах, которые лингвист-исследователь должен решить при создании корпуса старославянского языка, с учётом особенностей последнего как языкового идиома.
Описание способов решения лингвистических проблем, возникающих при создании корпуса старославянского языка.
Описание процесса создания корпуса старославянского языка.
Работа состоит из 4 глав.
В первой главе характеризуется состояние корпусной лингвистики в начале XXI века (параграф 1.1; подпараграфы описывают корпусы конкретных языков, а именно старославянского (1.1.1), других индоевропейских языков (1.1.2), языков других семей (1.1.3); также подводятся краткие итоги (1.1.4)). В параграфе 1.2. даётся описание существующих методик предварительной обработки текстов (сбор текстов в подпараграфе 1.2.1, графическое представление в подпараграфе 1.2.2, токенизация в подпараграфе 1.2.3). Параграф 1.3 предлагает характеристику подходов к частеречной разметке (общую в подпараграфе 1.3.1, особенности формирования набора тэгов в 1.3.2, обзор тэггеров в 1.3.3, краткие выводы в 1.3.4). В параграфе 1.4 характеризуются подходы к лемматизации (лемматизация как лингвистеская задача описана в подпараграфе 1.4.1, как задача обработки естественного языка – в подпараграфе 1.4.2, существующие лемматизаторы старославянского языка – в подпараграфе 1.4.3, краткие выводы даны в подпараграфе 1.4.4). Параграф 1.5 представляет собой промежуточные выводы по данному разделу.
В главе 2 описывается старославянский язык как языковой идиом (параграф 2.1), репрезентирующие его графические системы (параграф 2.2), его частеречный состав (параграф 2.3), а также даётся общее описание сложностей, возникающих при работе с его текстами (параграф 2.4).

В работе был выявлен ряд ключевых лингвистических проблем, с которыми исследователь может столкнуться при исследовании старославянского языка, а также определены методы, которыми возможно данные проблемы решить.
В первую очередь, были охарактеризованы существующие корпусы старославянского языка. Ни один из них в полной мере не удовлетворяет критериям полноты представления старославянского языка. Возникла необходимость создания собственного корпуса.
Следует заметить, что выработка методологии создания корпуса с нуля выглядит тяжёлой и иррелевантной задачей. Корпусы для крупных индоевропейских языков создавались сушественно раньше, с использованием совершенно иных технологий, нежели тех, что доступны исследователям сейчас. Представляется возможным обратиться к опыту создания корпусов неиндоевропейских языков, в частности, арабского языка и языка паэс.
В работе предпринята попытка краткой характеристики старославянского языка как языкового идиома, отличного от других славянских языков. Представлены основные особенности, по которым возможно идентифицировать старославянские тексты, среди которых – особый рефлекс праславянского сочетания *tj/*dj.
Полностью определить текстовый состав корпуса старославянского языка не удалось: два текста во время написания соответствующих разделов работы находились вне доступа исследователей. Поставлен вопрос о языковой принадлежности ряда текстов, считающихся определяющими для старославянского канона (прежде всего – Киевских листков). Некоторые тексты (к примеру, Остромирово евангелие) были исключены из массива старославянских текстов в силу радикального отличия их языковых особенностей от языковых особенностей, указанных исследователями для старославянского языка как языкового идиома. Ещё одна группа текстов (например, Преславская надпись) на данный момент не может быть определена ни как тексты старославянского языка, ни как тексты какого-то другого идиома. Провести их анализ по существующим критериям в данный момент невозможно. Требуется разработка дополнительных критериев, что будет сделано в последующих исследованиях.
Старославянские тексты представлены в нескольких системах письменности. Для упрощения частеречной разметки и лемматизации потребовалось решить задачу унификации, приведения к кириллическому написанию глаголических рукописей, а также рукописей, переведённых исследователями в ASCII-кодировку. Основным методом решения этой задачи стали регулярные выражения.
Были проанализированы существующие подходы к токенизации, частеречной разметке и лемматизации.
В практической части токенизация осуществлялась путём разделения предварительно обработанного текста по пробельным символам. Это нарушило построчную схему представления текста, однако позволило дать более точное лингвистическое его представление.
Был создан расширенный набор тэгов для наиболее адекватного представления частеречного состава старославянского языка. Проведена частеречная разметка моделью, структурно схожей с TreeTagger, демонстрирующей результат в 81% точности на Мариинском евангелии, а также наибольшую надёжность на гетерогенном массиве текста.
Выявлено, что скрытая марковская модель, усиленная n-граммной, способна к относительно высокой генерализации. На Киевских листках она продемонстрировала преимущество над более современными методами, в частности, рекуррентными нейросетями. Точность zero-shot разметки (разметки «с нуля») достигла значения в 51%. При улучшении модели и увеличении тренировочных данных ожидается повышение как этих конкретных результатов, так и улучшение способности модели к генерализации.
Лемматизация была выполнена рекуррентной нейронной сетью.
Точность модели, при помощи которой осуществлялась лемматизация, на тестовом наборе данных из Мариинского евангелия достигла 85%. Этот показатель оказался меньше, чем у моделей, обученных на нескольких десятках языков, представленных в наборах данных UD, однако гораздо более важным оказалось то, что, будучи оснащённой дополнительной системой правил, эта модель показала высокую степень способности к генерализации на гетерогенных массивах текстов.
Для подсчёта точности были привлечены и дополнительные метрики, меры сходства строк, а именно расстояния Левенштейна, Дамерау-Левенштейна и Джаро-Винклера. Данный подход в лингвистике для оценки эффективности моделей, осуществляющих преобразование «последовательность-в-последовательность», ранее практически не применялся. Он позволил более точно оценить то, насколько результаты, показанные моделью, посимвольно отличались от золотого стандарта. Помимо этого, при помощи выбросов, обнаруженных по данным метрикам, удалось идентифицировать источник неточностей модели, а именно – её склонность к генерации коротких последовательностей.
Точность модели на Киевских листках приблизилась к 50–55%. Основываясь на этих данных, видится возможным утверждать, что была доказана её способность к генерализации. Модель с дальнейшими усовершенствованиями будет применена для разметки и иных текстов старославянского языка.
И модуль частеречной разметки, и модуль лемматизации предстоит улучшать в дальнейшем, возможно, с применением новых технологий и новых архитектур нейронных сетей.
Результаты работы представлены в формате .json-файлов, полученных через написанное на C# приложение с подключаемыми модулями на Python, отображаемых через универсальную систему представления текстовых корпусов, написанную на C#/JavaScript/Python. К настоящему моменту обработаны и автоматически размечены тексты Ассеманиева, Мариинского, Зографского (включая рукопись Б) евангелий, Супрасльской рукописи, Саввиной книги и Киевских листков. Данная разметка сейчас корректируется вручную. Объём корпуса будет увеличиваться за счёт включения иных старославянских рукописей. В данный момент работа ведётся над текстом Енинского апостола.
Исследовательская гипотеза может считаться доказанной: несмотря на высокую степень гетерогенности, старославянский язык может быть обработан и помещён в корпус как единый идиом.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Последние выполненные заказы

Хочешь уникальную работу?

Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

Специализация: диссертации; дипломные и курсовые работы; научные статьи.

#Кандидатские #Магистерские

335 Выполненных работ

Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфин... Читать все

Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфинансы (Казначейство). Работаю в финансовой сфере более 10 лет. Банки,риски

#Кандидатские #Магистерские

123 Выполненных работы

Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публик... Читать все

#Кандидатские #Магистерские

1386 Выполненных работ

Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет... Читать все

Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет, реклама, журналистика, педагогика, право)

#Кандидатские #Магистерские

39 Выполненных работ

Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два об... Читать все

Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два образования: экономист-менеджер и маркетолог. Буду рада помочь и Вам.

#Кандидатские #Магистерские

55 Выполненных работ

Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все

Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.

#Кандидатские #Магистерские

33 Выполненных работы

Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственно... Читать все

Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственном университете инженерных технологий.

#Кандидатские #Магистерские

66 Выполненных работ

Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.

#Кандидатские #Магистерские

108 Выполненных работ

Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на... Читать все

Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на продолжение диссертационной работы... Всегда готов помочь! ;)

#Кандидатские #Магистерские

164 Выполненных работы