Классификатор эмоционального тона сообщений пользователей социальной сети Twitter
Работа посвящена разработке классификатора сообщений пользователей социальной сети на основе анализа естественного языка. Программная реализация включает инструменты формирования тренировочного набора данных, выполнения классификатора сообщений и своевременного обновления его состояния.
Сокращения и обозначения ………………………………………………………………………. 11
Введение ………………………………………………………………………………………………….. 16
1 Обзор технологии и решений ………………………………………………………………… 18
1.1 Существующие исследования ……………………………………………………. 18
1.2 Предварительная обработка и способы кодирования данных ……… 18
1.3 Обзор методов классификации текста основанные на методе
обучения с учителем ……………………………………………………………………….. 21
1.3.1 Наивный байесовский классификатор ………………………………. 22
1.3.2 Метод опорных векторов …………………………………………………. 23
1.3.3 Алгоритм случайный лес …………………………………………………. 24
1.3.4 Нейронные сети……………………………………………………………….. 24
1.3.5 Свёрточные нейронные сети ……………………………………………. 26
1.3.6 Архитектура свёрточных нейронных сетей ………………………. 26
2 Архитектура программного обеспечения ……………………………………………….. 31
2.1 Хранилище данных ……………………………………………………………………. 32
2.1.1 Выбор средств реализации……………………………………………….. 32
2.1.2 Схема данных ………………………………………………………………….. 33
2.1.3 Создание коллекций для хранения данных ……………………….. 34
2.2 Классификатор ………………………………………………………………………….. 35
2.2.1 Проектирование архитектуры классификатора …………………. 36
2.2.2 Выбор средств разработки ……………………………………………….. 38
2.2.3 Реализация ………………………………………………………………………. 39
2.3 Веб-приложение ………………………………………………………………………… 43
2.3.1 Проектирование схемы интерфейса ………………………………… 43
2.3.2 Выбор средств реализации ……………………………………………… 49
2.3.3 Реализация ……………………………………………………………………… 49
2.4 Планировщик обучения нейронной сети…………………………………….. 52
2.4.1 Выбор средств реализации……………………………………………….. 53
2.4.2 Реализация ………………………………………………………………………. 53
3 Тестирование ………………………………………………………………………………………… 55
4 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение… 58
4.1 Предпроектный анализ ………………………………………………………………. 58
4.1.1 Потенциальные потребители результатов проекта ……………. 58
4.1.2 Анализ конкурентных технических решений ……………………. 59
4.1.3 SWOT – анализ ………………………………………………………………… 61
4.1.4 Оценка готовности проекта к коммерциализации …………….. 64
4.1.5 Методы коммерциализации результатов научно–
технического исследования ……………………………………………………… 65
4.2 Инициация проекта ……………………………………………………………………. 65
4.2.1 Цели и результаты проекта ………………………………………………. 66
4.2.2 Организационная структура проекта ………………………………… 67
4.2.3 Ограничения и допущения проекта ………………………………….. 67
4.3 Планирование управления научно – техническим проектом ……….. 68
4.3.1 Иерархическая структура работ проекта …………………………… 68
4.3.2 План проекта …………………………………………………………………… 69
4.3.3 Бюджет научного исследования ……………………………………….. 72
4.3.3.1 Расчет материальных затрат ………………………………………. 72
4.3.3.2 Основная заработная плата ………………………………………… 74
4.3.3.3 Дополнительная заработная плата научно-
производственного персонала ………………………………………………. 76
4.3.3.4 Отчисления на социальные нужды …………………………….. 77
4.3.3.5 Накладные расходы …………………………………………………… 77
4.3.3.6 Формирование бюджета затрат научно-
исследовательского проекта …………………………………………………. 78
4.3.4 Организационная структура проекта ………………………………… 78
4.3.5 План управления коммуникациями проекта……………………… 79
4.3.6 Реестр рисков проекта ……………………………………………………… 80
4.4 Определение ресурсной (ресурсосберегающей), финансовой,
бюджетной, социальной и экономической эффективности разработки 80
4.4.1 Динамические методы экономической оценки инвестиций . 81
4.4.1.1 Чистая текущая стоимость (NPV) ………………………………. 81
4.4.1.2 Дисконтированный срок окупаемости ……………………….. 83
4.4.1.3 Внутренняя ставка доходности (IRR) …………………………. 84
4.4.1.4 Индекс доходности (рентабельности) инвестиций (PI) .. 85
4.4.2 Оценка сравнительной эффективности исследования ……….. 86
4.4.3 Оценка абсолютной эффективности проекта ……………………. 89
5 Социальная ответственность …………………………………………………………………. 91
5.1 Производственная безопасность …………………………………………………. 91
5.1.1 Анализ вредных и опасных факторов, которые могут
возникнуть на рабочем месте при выполнении проекта ……………. 91
5.1.2 Производственная санитария …………………………………………… 92
5.1.2.1 Производственный шум …………………………………………….. 93
5.1.2.2 Электромагнитные поля …………………………………………….. 94
5.1.2.3 Психофизиологические факторы ……………………………….. 95
5.1.2.4 Микроклимат в помещении ……………………………………….. 97
5.1.3 Экологическая безопасность ……………………………………………. 98
5.1.3.1 Безопасность в чрезвычайных ситуациях …………………… 98
5.1.3.2 Мероприятия по предотвращению ЧС ……………………… 100
5.1.4 Правовые и организационные вопросы обеспечения
безопасности ………………………………………………………………………….. 102
Заключение ……………………………………………………………………………………………. 103
Conclusion ………………………………………………………………………………………………. 104
Список использованной литературы ……………………………………………………….. 105
Приложение А ……………………………………………………………………………………….. 109
Приложение Б ………………………………………………………………………………………… 112
Приложение В………………………………………………………………………………………… 131
За последнее десятилетие значительно возросло использование
различных онлайн-ресурсов, в частности, социальных сетей, таких как Twitter.
Многие компании и организации определяют эти ресурсы как значимые для
маркетинговых исследований [1]. Обычно, чтобы получить обратную связь и
понимание того, как покупатели относятся к их продукции, компании
проводят интервью, анкетирования и опросы. Эти стандартные методы часто
требуют больших затрат времени и денег; более того, они не всегда приносят
желаемый результат.
Для решения задачи автоматического определения эмоциональной
окраски текста используются алгоритмы обработки естественных языков.
Среди которых на данный момент наиболее популярными являются
алгоритмы глубокого обучения. Существует большое количество работ,
посвящённых обработке естественного языка и, в частности, анализу
тональности с использованием нейронных сетей. Но большая часть из них
адаптирована для применения к английскому языку [2].
На данный момент существуют такие веб-сервисы Tone Analyzer [3] и
для определения тональности текста, но большинство из них работают только
с английским языком. Существуют также сервис Repustate [4], который
поддерживает русскоязычные тексты, но данный сервис является доступным
пользователям по платной подписке. В данной работе затронуты основные
моменты связанные с реализацией задачи анализа тональности текстов на
русском языке. Актуальность работы обусловлена тем, что на текущий момент
существует малое количество систем, способных анализировать тональность
текста на русском языке.
Также, по причине того, что разговорный язык, использующийся в
социальных сетях постоянно развивается, чтобы обеспечить наилучшую
точность классификатора, необходимо периодически обновлять
тренировочный набор данных.
Целями данной работы являются:
разработка классификатора эмоционального тона русскоязычных
сообщений пользователей социальной сети Twitter;
разработать способ формирования тренировочных данных с
участием самих пользователей.
Для достижения целей, требуется выполнить следующие задачи:
Проанализировать существующие методы решения задачи
анализа тональности текста;
Провести анализ существующих алгоритмов машинного
обучения;
Выбор архитектуры машинного обучения;
Реализовать кодирование входных данных;
Разработать классификатор тональности сообщений социальной
сети Twitter;
Обеспечить точность классификации не менее 75%;
Протестировать и сравнить полученную модель с существующими
методами решения;
Разработать веб-приложение для взаимодействия пользователя с
системой для определения эмоционального тона сообщений пользователей
социальной сети;
Разработать способ формирования тренировочных данных с
участием пользователей.
1 Обзор технологии и решений
Результатом настоящей работы является спроектированное и
реализованное программное обеспечение для классификации эмоционального
тона сообщений пользователей социальной сети Twitter.
В данной работе проводилось исследование основных методов
классификации текстов.
В результате были разработаны:
классификатор тональности сообщений социальной сети Twitter
работающий на русскоязычных текстах;
веб-приложение для взаимодействия пользователя с системой для
определения эмоционального класса сообщений пользователей социальной
сети.
способ формирования тренировочных данных с участием
пользователей. Участие пользователей позволяет обновлять тренировочный
набор данных новыми текстами из социальной сети, что в свою очередь
способствует повышению точности классификации.
В результате исследования было выяснено, что для достижения
приемлемых показателей точности больше 75%, с использованием свёрточных
нейронных сетей с посимвольным кодированием, требуется не менее 200 000
данных для обучения сети. В рамках исследования была получена точность
классификации 76,37% для текстов на русском языке. Разработанный
классификатор может быть использован для анализа текстов социальных сетей
на других языках, где нет обширных баз векторных представлений слов.
Кроме того, созданный классификатор может быть использован для создания
и анализа социальных графов пользователей с учетом тональности их
сообщений.
Conclusion
The result of this work is designed and implemented software for the
emotional tone classifier of Twitter social media users’ messages.
In this paper, the main methods of classification of texts were considered.
As a result, the following were developed components:
the tone classifier of the social network Twitter messages working on
Russian-language texts;
a web application for interacting with a network user to determine the
emotional class of messages for social network users.
a way of forming training data with the participation of users. User
participation allows you to update the training set of data from social networks,
which in turn contributes to the observance of the classification.
As a result of the study it was found that to achieve acceptable accuracy rates
of 75%, using convolutional networks with binding, at least 200 000 data are
required for network training.
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!