Классификатор эмоционального тона сообщений пользователей социальной сети Twitter

Байкадир, Жансерик Багдатулы Отделение информационных технологий (ОИТ)
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Работа посвящена разработке классификатора сообщений пользователей социальной сети на основе анализа естественного языка. Программная реализация включает инструменты формирования тренировочного набора данных, выполнения классификатора сообщений и своевременного обновления его состояния.

Сокращения и обозначения ………………………………………………………………………. 11
Введение ………………………………………………………………………………………………….. 16
1 Обзор технологии и решений ………………………………………………………………… 18
1.1 Существующие исследования ……………………………………………………. 18
1.2 Предварительная обработка и способы кодирования данных ……… 18
1.3 Обзор методов классификации текста основанные на методе
обучения с учителем ……………………………………………………………………….. 21

1.3.1 Наивный байесовский классификатор ………………………………. 22
1.3.2 Метод опорных векторов …………………………………………………. 23
1.3.3 Алгоритм случайный лес …………………………………………………. 24
1.3.4 Нейронные сети……………………………………………………………….. 24
1.3.5 Свёрточные нейронные сети ……………………………………………. 26
1.3.6 Архитектура свёрточных нейронных сетей ………………………. 26

2 Архитектура программного обеспечения ……………………………………………….. 31
2.1 Хранилище данных ……………………………………………………………………. 32

2.1.1 Выбор средств реализации……………………………………………….. 32
2.1.2 Схема данных ………………………………………………………………….. 33
2.1.3 Создание коллекций для хранения данных ……………………….. 34

2.2 Классификатор ………………………………………………………………………….. 35

2.2.1 Проектирование архитектуры классификатора …………………. 36
2.2.2 Выбор средств разработки ……………………………………………….. 38
2.2.3 Реализация ………………………………………………………………………. 39

2.3 Веб-приложение ………………………………………………………………………… 43

2.3.1 Проектирование схемы интерфейса ………………………………… 43
2.3.2 Выбор средств реализации ……………………………………………… 49
2.3.3 Реализация ……………………………………………………………………… 49

2.4 Планировщик обучения нейронной сети…………………………………….. 52
2.4.1 Выбор средств реализации……………………………………………….. 53
2.4.2 Реализация ………………………………………………………………………. 53

3 Тестирование ………………………………………………………………………………………… 55
4 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение… 58
4.1 Предпроектный анализ ………………………………………………………………. 58

4.1.1 Потенциальные потребители результатов проекта ……………. 58
4.1.2 Анализ конкурентных технических решений ……………………. 59
4.1.3 SWOT – анализ ………………………………………………………………… 61
4.1.4 Оценка готовности проекта к коммерциализации …………….. 64
4.1.5 Методы коммерциализации результатов научно–
технического исследования ……………………………………………………… 65

4.2 Инициация проекта ……………………………………………………………………. 65

4.2.1 Цели и результаты проекта ………………………………………………. 66
4.2.2 Организационная структура проекта ………………………………… 67
4.2.3 Ограничения и допущения проекта ………………………………….. 67

4.3 Планирование управления научно – техническим проектом ……….. 68

4.3.1 Иерархическая структура работ проекта …………………………… 68
4.3.2 План проекта …………………………………………………………………… 69
4.3.3 Бюджет научного исследования ……………………………………….. 72

4.3.3.1 Расчет материальных затрат ………………………………………. 72
4.3.3.2 Основная заработная плата ………………………………………… 74
4.3.3.3 Дополнительная заработная плата научно-
производственного персонала ………………………………………………. 76
4.3.3.4 Отчисления на социальные нужды …………………………….. 77
4.3.3.5 Накладные расходы …………………………………………………… 77
4.3.3.6 Формирование бюджета затрат научно-
исследовательского проекта …………………………………………………. 78

4.3.4 Организационная структура проекта ………………………………… 78
4.3.5 План управления коммуникациями проекта……………………… 79
4.3.6 Реестр рисков проекта ……………………………………………………… 80

4.4 Определение ресурсной (ресурсосберегающей), финансовой,
бюджетной, социальной и экономической эффективности разработки 80

4.4.1 Динамические методы экономической оценки инвестиций . 81

4.4.1.1 Чистая текущая стоимость (NPV) ………………………………. 81
4.4.1.2 Дисконтированный срок окупаемости ……………………….. 83
4.4.1.3 Внутренняя ставка доходности (IRR) …………………………. 84
4.4.1.4 Индекс доходности (рентабельности) инвестиций (PI) .. 85

4.4.2 Оценка сравнительной эффективности исследования ……….. 86
4.4.3 Оценка абсолютной эффективности проекта ……………………. 89

5 Социальная ответственность …………………………………………………………………. 91
5.1 Производственная безопасность …………………………………………………. 91

5.1.1 Анализ вредных и опасных факторов, которые могут
возникнуть на рабочем месте при выполнении проекта ……………. 91
5.1.2 Производственная санитария …………………………………………… 92

5.1.2.1 Производственный шум …………………………………………….. 93
5.1.2.2 Электромагнитные поля …………………………………………….. 94
5.1.2.3 Психофизиологические факторы ……………………………….. 95
5.1.2.4 Микроклимат в помещении ……………………………………….. 97

5.1.3 Экологическая безопасность ……………………………………………. 98

5.1.3.1 Безопасность в чрезвычайных ситуациях …………………… 98
5.1.3.2 Мероприятия по предотвращению ЧС ……………………… 100

5.1.4 Правовые и организационные вопросы обеспечения
безопасности ………………………………………………………………………….. 102

Заключение ……………………………………………………………………………………………. 103
Conclusion ………………………………………………………………………………………………. 104
Список использованной литературы ……………………………………………………….. 105
Приложение А ……………………………………………………………………………………….. 109
Приложение Б ………………………………………………………………………………………… 112
Приложение В………………………………………………………………………………………… 131

За последнее десятилетие значительно возросло использование
различных онлайн-ресурсов, в частности, социальных сетей, таких как Twitter.
Многие компании и организации определяют эти ресурсы как значимые для
маркетинговых исследований [1]. Обычно, чтобы получить обратную связь и
понимание того, как покупатели относятся к их продукции, компании
проводят интервью, анкетирования и опросы. Эти стандартные методы часто
требуют больших затрат времени и денег; более того, они не всегда приносят
желаемый результат.
Для решения задачи автоматического определения эмоциональной
окраски текста используются алгоритмы обработки естественных языков.
Среди которых на данный момент наиболее популярными являются
алгоритмы глубокого обучения. Существует большое количество работ,
посвящённых обработке естественного языка и, в частности, анализу
тональности с использованием нейронных сетей. Но большая часть из них
адаптирована для применения к английскому языку [2].
На данный момент существуют такие веб-сервисы Tone Analyzer [3] и
для определения тональности текста, но большинство из них работают только
с английским языком. Существуют также сервис Repustate [4], который
поддерживает русскоязычные тексты, но данный сервис является доступным
пользователям по платной подписке. В данной работе затронуты основные
моменты связанные с реализацией задачи анализа тональности текстов на
русском языке. Актуальность работы обусловлена тем, что на текущий момент
существует малое количество систем, способных анализировать тональность
текста на русском языке.
Также, по причине того, что разговорный язык, использующийся в
социальных сетях постоянно развивается, чтобы обеспечить наилучшую
точность классификатора, необходимо периодически обновлять
тренировочный набор данных.
Целями данной работы являются:
 разработка классификатора эмоционального тона русскоязычных
сообщений пользователей социальной сети Twitter;
 разработать способ формирования тренировочных данных с
участием самих пользователей.
Для достижения целей, требуется выполнить следующие задачи:
 Проанализировать существующие методы решения задачи
анализа тональности текста;
 Провести анализ существующих алгоритмов машинного
обучения;
 Выбор архитектуры машинного обучения;
 Реализовать кодирование входных данных;
 Разработать классификатор тональности сообщений социальной
сети Twitter;
 Обеспечить точность классификации не менее 75%;
 Протестировать и сравнить полученную модель с существующими
методами решения;
 Разработать веб-приложение для взаимодействия пользователя с
системой для определения эмоционального тона сообщений пользователей
социальной сети;
 Разработать способ формирования тренировочных данных с
участием пользователей.
1 Обзор технологии и решений

Результатом настоящей работы является спроектированное и
реализованное программное обеспечение для классификации эмоционального
тона сообщений пользователей социальной сети Twitter.
В данной работе проводилось исследование основных методов
классификации текстов.
В результате были разработаны:
 классификатор тональности сообщений социальной сети Twitter
работающий на русскоязычных текстах;
 веб-приложение для взаимодействия пользователя с системой для
определения эмоционального класса сообщений пользователей социальной
сети.
 способ формирования тренировочных данных с участием
пользователей. Участие пользователей позволяет обновлять тренировочный
набор данных новыми текстами из социальной сети, что в свою очередь
способствует повышению точности классификации.
В результате исследования было выяснено, что для достижения
приемлемых показателей точности больше 75%, с использованием свёрточных
нейронных сетей с посимвольным кодированием, требуется не менее 200 000
данных для обучения сети. В рамках исследования была получена точность
классификации 76,37% для текстов на русском языке. Разработанный
классификатор может быть использован для анализа текстов социальных сетей
на других языках, где нет обширных баз векторных представлений слов.
Кроме того, созданный классификатор может быть использован для создания
и анализа социальных графов пользователей с учетом тональности их
сообщений.
Conclusion

The result of this work is designed and implemented software for the
emotional tone classifier of Twitter social media users’ messages.
In this paper, the main methods of classification of texts were considered.
As a result, the following were developed components:
 the tone classifier of the social network Twitter messages working on
Russian-language texts;
 a web application for interacting with a network user to determine the
emotional class of messages for social network users.
 a way of forming training data with the participation of users. User
participation allows you to update the training set of data from social networks,
which in turn contributes to the observance of the classification.
As a result of the study it was found that to achieve acceptable accuracy rates
of 75%, using convolutional networks with binding, at least 200 000 data are
required for network training.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Ольга Б. кандидат наук, доцент
    4.8 (373 отзыва)
    Работаю на сайте четвертый год. Действующий преподаватель вуза. Основные направления: микробиология, биология и медицина. Написано несколько кандидатских, магистерских... Читать все
    Работаю на сайте четвертый год. Действующий преподаватель вуза. Основные направления: микробиология, биология и медицина. Написано несколько кандидатских, магистерских диссертаций, дипломных и курсовых работ. Слежу за новинками в медицине.
    #Кандидатские #Магистерские
    566 Выполненных работ
    Александра С.
    5 (91 отзыв)
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повы... Читать все
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повышении уникальности текста и оформлении библиографических ссылок по ГОСТу.
    #Кандидатские #Магистерские
    132 Выполненных работы
    Екатерина Б. кандидат наук, доцент
    5 (174 отзыва)
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподав... Читать все
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподавала учебные дисциплины: Бюджетная система Украины, Статистика.
    #Кандидатские #Магистерские
    300 Выполненных работ
    Татьяна С. кандидат наук
    4.9 (298 отзывов)
    Большой опыт работы. Кандидаты химических, биологических, технических, экономических, юридических, философских наук. Участие в НИОКР, Только актуальная литература (пос... Читать все
    Большой опыт работы. Кандидаты химических, биологических, технических, экономических, юридических, философских наук. Участие в НИОКР, Только актуальная литература (поставки напрямую с издательств), доступ к библиотеке диссертаций РГБ
    #Кандидатские #Магистерские
    551 Выполненная работа
    Дмитрий К. преподаватель, кандидат наук
    5 (1241 отзыв)
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполня... Читать все
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполняю уже 30 лет.
    #Кандидатские #Магистерские
    2271 Выполненная работа
    Александр Р. ВоГТУ 2003, Экономический, преподаватель, кандидат наук
    4.5 (80 отзывов)
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфин... Читать все
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфинансы (Казначейство). Работаю в финансовой сфере более 10 лет. Банки,риски
    #Кандидатские #Магистерские
    123 Выполненных работы
    Анна Александровна Б. Воронежский государственный университет инженерных технол...
    4.8 (30 отзывов)
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственно... Читать все
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственном университете инженерных технологий.
    #Кандидатские #Магистерские
    66 Выполненных работ
    Антон П. преподаватель, доцент
    4.8 (1033 отзыва)
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публик... Читать все
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публикуюсь, имею высокий индекс цитирования. Спикер.
    #Кандидатские #Магистерские
    1386 Выполненных работ
    Дмитрий М. БГАТУ 2001, электрификации, выпускник
    4.8 (17 отзывов)
    Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал стать... Читать все
    Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал статьи, патенты, кандидатскую диссертацию, преподавал. Занимаюсь этим с 2003.
    #Кандидатские #Магистерские
    19 Выполненных работ

    Другие учебные работы по предмету