Разработка программного приложения классификации текста на базе машинного обучения
АННОТАЦИЯ 2
Введение 4
1 АНАЛИЗ ПРЕДМЕТНОЙ ТЕМАТИКЕ ИССЛЕДОВАНИЯ 7
1.1 Анализ особенностей компьютерной лингвистики, ее функций и методологий 7
1.2 Анализ задач, решаемых с помощью машинного обучения 15
1.3 Анализ возможностей современных средств разработки программного обеспечения с использованием алгоритмов машинного обучения 25
1.4 Выводы по первому разделу 35
2 ВЫБОР И ОПИСАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ЗАДАЧИ КЛАССИФИКАЦИИ ТЕКСТОВЫХ НОВОСТЕЙ 36
2.1 Постановка задачи классификации 36
2.2 Сравнительный анализ и выбор алгоритма классификатору 39
2.3 Предварительная обработка и анализ данных 48
2.4 Выводы второго раздела 51
3 РАЗРАБОТКА ПРИЛОЖЕНИЯ КЛАССИФИКАЦИИ ТЕКСТА НА БАЗЕ МАШИННОГО ОБУЧЕНИЯ 52
3.1 Разработка проекта программного обеспечения 52
3.2 Разработка и описание основной программной структуры проекта 62
3.3 Разработка и описание интерфейса программного обеспечения 64
3.4 Выводы по третьей главы 80
4 ИССЛЕДОВАНИЕ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВЫХ НОВОСТЕЙ 81
4.1 Исследование результатов классификации на основе различных алгоритмов машинного обучения 81
4.2 Исследование результатов классификации методом опорных векторов с подбором гиперпараметров 91
4.3 Выводы четвертого раздела 94
ВЫВОДЫ 95
ЛИТЕРАТУРА 97
ПРИЛОЖЕНИЕ А Код программного обеспечения 101
Актуальность работы заключается в объективной необходимости исследования существующих алгоритмов машинного обучения для задач классификации текста с целью повышения точности классификации.
Задачами дипломной работы являются:
– анализ особенностей компьютерной лингвистики, ее функций и методологий;
– анализ задач, решаемых с помощью машинного обучения;
– анализ возможностей современных средств разработки программного обеспечения с использованием алгоритмов машинного обучения;
– постановка задачи классификации;
– разработка алгоритма классификатора;
– предварительная обработка и анализ данных;
– разработка и описание основной программной структуры проекта;
– разработка и описание интерфейса программного обеспечения;
– исследования результатов классификации на основе различных алгоритмов машинного обучения;
– исследования результатов классификации методом опорных векторов с подбором гиперпараметров.
Практической ценностью работы выступает возможность использования разработанного программного обеспечения, реализующего классификацию текста используя усовершенствованный алгоритм машинного обучения.
1. Белоногов Г.Г. Компьютерная лингвистика и перспективные информационные технологии / Г.Г. Белоногов, Ю.П. Калинин, А.А. Хорошилов. М .: Экмо, 2004. – 313 с.
2. Белоногов Г.Г. Системы фразеологического машинного перевода / Г.Г. Белоногов, Ю.Г. Зеленков, А. П. Новоселов // Состояние и перспективы развития. «Нано-техническая информация». – 1998. – №12. – С.56-69.
3. Зеленков Ю.Г. Метод аналогии в компьютерной лингвистике / Ю.Г. Зеленков // Состояние и перспективы развития. «Научно-техническая информация». – 2000. – №11. – С.131-140.
4. Панов Д.Ю. Автоматизация перевода с одного языка на другой: Сессия по научным проблемам автоматизации производства / Д.Ю. Панов, А. А. Ляпунов, И.С. Мухин. – М .: АН СССР, 1986. – 214 с.
5. Убин И.И. Современные средства автоматизации перевода: надежды, разочарования и реальность / И.И. Убин. – СПб: ВЦП, 2001. – 311 с.
и еще 34 ссылки
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!