Классификатор эмоционального тона сообщений пользователей социальной сети Twitter

Байкадир, Жансерик Багдатулы Отделение информационных технологий (ОИТ)
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Работа посвящена разработке классификатора сообщений пользователей социальной сети на основе анализа естественного языка. Программная реализация включает инструменты формирования тренировочного набора данных, выполнения классификатора сообщений и своевременного обновления его состояния.

Сокращения и обозначения ………………………………………………………………………. 11
Введение ………………………………………………………………………………………………….. 16
1 Обзор технологии и решений ………………………………………………………………… 18
1.1 Существующие исследования ……………………………………………………. 18
1.2 Предварительная обработка и способы кодирования данных ……… 18
1.3 Обзор методов классификации текста основанные на методе
обучения с учителем ……………………………………………………………………….. 21

1.3.1 Наивный байесовский классификатор ………………………………. 22
1.3.2 Метод опорных векторов …………………………………………………. 23
1.3.3 Алгоритм случайный лес …………………………………………………. 24
1.3.4 Нейронные сети……………………………………………………………….. 24
1.3.5 Свёрточные нейронные сети ……………………………………………. 26
1.3.6 Архитектура свёрточных нейронных сетей ………………………. 26

2 Архитектура программного обеспечения ……………………………………………….. 31
2.1 Хранилище данных ……………………………………………………………………. 32

2.1.1 Выбор средств реализации……………………………………………….. 32
2.1.2 Схема данных ………………………………………………………………….. 33
2.1.3 Создание коллекций для хранения данных ……………………….. 34

2.2 Классификатор ………………………………………………………………………….. 35

2.2.1 Проектирование архитектуры классификатора …………………. 36
2.2.2 Выбор средств разработки ……………………………………………….. 38
2.2.3 Реализация ………………………………………………………………………. 39

2.3 Веб-приложение ………………………………………………………………………… 43

2.3.1 Проектирование схемы интерфейса ………………………………… 43
2.3.2 Выбор средств реализации ……………………………………………… 49
2.3.3 Реализация ……………………………………………………………………… 49

2.4 Планировщик обучения нейронной сети…………………………………….. 52
2.4.1 Выбор средств реализации……………………………………………….. 53
2.4.2 Реализация ………………………………………………………………………. 53

3 Тестирование ………………………………………………………………………………………… 55
4 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение… 58
4.1 Предпроектный анализ ………………………………………………………………. 58

4.1.1 Потенциальные потребители результатов проекта ……………. 58
4.1.2 Анализ конкурентных технических решений ……………………. 59
4.1.3 SWOT – анализ ………………………………………………………………… 61
4.1.4 Оценка готовности проекта к коммерциализации …………….. 64
4.1.5 Методы коммерциализации результатов научно–
технического исследования ……………………………………………………… 65

4.2 Инициация проекта ……………………………………………………………………. 65

4.2.1 Цели и результаты проекта ………………………………………………. 66
4.2.2 Организационная структура проекта ………………………………… 67
4.2.3 Ограничения и допущения проекта ………………………………….. 67

4.3 Планирование управления научно – техническим проектом ……….. 68

4.3.1 Иерархическая структура работ проекта …………………………… 68
4.3.2 План проекта …………………………………………………………………… 69
4.3.3 Бюджет научного исследования ……………………………………….. 72

4.3.3.1 Расчет материальных затрат ………………………………………. 72
4.3.3.2 Основная заработная плата ………………………………………… 74
4.3.3.3 Дополнительная заработная плата научно-
производственного персонала ………………………………………………. 76
4.3.3.4 Отчисления на социальные нужды …………………………….. 77
4.3.3.5 Накладные расходы …………………………………………………… 77
4.3.3.6 Формирование бюджета затрат научно-
исследовательского проекта …………………………………………………. 78

4.3.4 Организационная структура проекта ………………………………… 78
4.3.5 План управления коммуникациями проекта……………………… 79
4.3.6 Реестр рисков проекта ……………………………………………………… 80

4.4 Определение ресурсной (ресурсосберегающей), финансовой,
бюджетной, социальной и экономической эффективности разработки 80

4.4.1 Динамические методы экономической оценки инвестиций . 81

4.4.1.1 Чистая текущая стоимость (NPV) ………………………………. 81
4.4.1.2 Дисконтированный срок окупаемости ……………………….. 83
4.4.1.3 Внутренняя ставка доходности (IRR) …………………………. 84
4.4.1.4 Индекс доходности (рентабельности) инвестиций (PI) .. 85

4.4.2 Оценка сравнительной эффективности исследования ……….. 86
4.4.3 Оценка абсолютной эффективности проекта ……………………. 89

5 Социальная ответственность …………………………………………………………………. 91
5.1 Производственная безопасность …………………………………………………. 91

5.1.1 Анализ вредных и опасных факторов, которые могут
возникнуть на рабочем месте при выполнении проекта ……………. 91
5.1.2 Производственная санитария …………………………………………… 92

5.1.2.1 Производственный шум …………………………………………….. 93
5.1.2.2 Электромагнитные поля …………………………………………….. 94
5.1.2.3 Психофизиологические факторы ……………………………….. 95
5.1.2.4 Микроклимат в помещении ……………………………………….. 97

5.1.3 Экологическая безопасность ……………………………………………. 98

5.1.3.1 Безопасность в чрезвычайных ситуациях …………………… 98
5.1.3.2 Мероприятия по предотвращению ЧС ……………………… 100

5.1.4 Правовые и организационные вопросы обеспечения
безопасности ………………………………………………………………………….. 102

Заключение ……………………………………………………………………………………………. 103
Conclusion ………………………………………………………………………………………………. 104
Список использованной литературы ……………………………………………………….. 105
Приложение А ……………………………………………………………………………………….. 109
Приложение Б ………………………………………………………………………………………… 112
Приложение В………………………………………………………………………………………… 131

За последнее десятилетие значительно возросло использование
различных онлайн-ресурсов, в частности, социальных сетей, таких как Twitter.
Многие компании и организации определяют эти ресурсы как значимые для
маркетинговых исследований [1]. Обычно, чтобы получить обратную связь и
понимание того, как покупатели относятся к их продукции, компании
проводят интервью, анкетирования и опросы. Эти стандартные методы часто
требуют больших затрат времени и денег; более того, они не всегда приносят
желаемый результат.
Для решения задачи автоматического определения эмоциональной
окраски текста используются алгоритмы обработки естественных языков.
Среди которых на данный момент наиболее популярными являются
алгоритмы глубокого обучения. Существует большое количество работ,
посвящённых обработке естественного языка и, в частности, анализу
тональности с использованием нейронных сетей. Но большая часть из них
адаптирована для применения к английскому языку [2].
На данный момент существуют такие веб-сервисы Tone Analyzer [3] и
для определения тональности текста, но большинство из них работают только
с английским языком. Существуют также сервис Repustate [4], который
поддерживает русскоязычные тексты, но данный сервис является доступным
пользователям по платной подписке. В данной работе затронуты основные
моменты связанные с реализацией задачи анализа тональности текстов на
русском языке. Актуальность работы обусловлена тем, что на текущий момент
существует малое количество систем, способных анализировать тональность
текста на русском языке.
Также, по причине того, что разговорный язык, использующийся в
социальных сетях постоянно развивается, чтобы обеспечить наилучшую
точность классификатора, необходимо периодически обновлять
тренировочный набор данных.
Целями данной работы являются:
 разработка классификатора эмоционального тона русскоязычных
сообщений пользователей социальной сети Twitter;
 разработать способ формирования тренировочных данных с
участием самих пользователей.
Для достижения целей, требуется выполнить следующие задачи:
 Проанализировать существующие методы решения задачи
анализа тональности текста;
 Провести анализ существующих алгоритмов машинного
обучения;
 Выбор архитектуры машинного обучения;
 Реализовать кодирование входных данных;
 Разработать классификатор тональности сообщений социальной
сети Twitter;
 Обеспечить точность классификации не менее 75%;
 Протестировать и сравнить полученную модель с существующими
методами решения;
 Разработать веб-приложение для взаимодействия пользователя с
системой для определения эмоционального тона сообщений пользователей
социальной сети;
 Разработать способ формирования тренировочных данных с
участием пользователей.
1 Обзор технологии и решений

Результатом настоящей работы является спроектированное и
реализованное программное обеспечение для классификации эмоционального
тона сообщений пользователей социальной сети Twitter.
В данной работе проводилось исследование основных методов
классификации текстов.
В результате были разработаны:
 классификатор тональности сообщений социальной сети Twitter
работающий на русскоязычных текстах;
 веб-приложение для взаимодействия пользователя с системой для
определения эмоционального класса сообщений пользователей социальной
сети.
 способ формирования тренировочных данных с участием
пользователей. Участие пользователей позволяет обновлять тренировочный
набор данных новыми текстами из социальной сети, что в свою очередь
способствует повышению точности классификации.
В результате исследования было выяснено, что для достижения
приемлемых показателей точности больше 75%, с использованием свёрточных
нейронных сетей с посимвольным кодированием, требуется не менее 200 000
данных для обучения сети. В рамках исследования была получена точность
классификации 76,37% для текстов на русском языке. Разработанный
классификатор может быть использован для анализа текстов социальных сетей
на других языках, где нет обширных баз векторных представлений слов.
Кроме того, созданный классификатор может быть использован для создания
и анализа социальных графов пользователей с учетом тональности их
сообщений.
Conclusion

The result of this work is designed and implemented software for the
emotional tone classifier of Twitter social media users’ messages.
In this paper, the main methods of classification of texts were considered.
As a result, the following were developed components:
 the tone classifier of the social network Twitter messages working on
Russian-language texts;
 a web application for interacting with a network user to determine the
emotional class of messages for social network users.
 a way of forming training data with the participation of users. User
participation allows you to update the training set of data from social networks,
which in turn contributes to the observance of the classification.
As a result of the study it was found that to achieve acceptable accuracy rates
of 75%, using convolutional networks with binding, at least 200 000 data are
required for network training.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Анна Н. Государственный университет управления 2021, Экономика и ...
    0 (13 отзывов)
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.
    #Кандидатские #Магистерские
    0 Выполненных работ
    Олег Н. Томский политехнический университет 2000, Инженерно-эконо...
    4.7 (96 отзывов)
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Явл... Читать все
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Являюсь действующим преподавателем одного из ВУЗов.
    #Кандидатские #Магистерские
    177 Выполненных работ
    Родион М. БГУ, выпускник
    4.6 (71 отзыв)
    Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.
    Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.
    #Кандидатские #Магистерские
    108 Выполненных работ
    Лидия К.
    4.5 (330 отзывов)
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии ... Читать все
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии и педагогики. Написание диссертаций, ВКР, курсовых и иных видов работ.
    #Кандидатские #Магистерские
    592 Выполненных работы
    Дмитрий Л. КНЭУ 2015, Экономики и управления, выпускник
    4.8 (2878 отзывов)
    Занимаю 1 место в рейтинге исполнителей по категориям работ "Научные статьи" и "Эссе". Пишу дипломные работы и магистерские диссертации.
    Занимаю 1 место в рейтинге исполнителей по категориям работ "Научные статьи" и "Эссе". Пишу дипломные работы и магистерские диссертации.
    #Кандидатские #Магистерские
    5125 Выполненных работ
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ
    Анастасия Л. аспирант
    5 (8 отзывов)
    Работаю в сфере метрологического обеспечения. Защищаю кандидатскую диссертацию. Основной профиль: Метрология, стандартизация и сертификация. Оптико-электронное прибост... Читать все
    Работаю в сфере метрологического обеспечения. Защищаю кандидатскую диссертацию. Основной профиль: Метрология, стандартизация и сертификация. Оптико-электронное прибостроение, управление качеством
    #Кандидатские #Магистерские
    10 Выполненных работ
    Вирсавия А. медицинский 1981, стоматологический, преподаватель, канди...
    4.5 (9 отзывов)
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - ... Читать все
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - медицина, биология, антропология, биогидродинамика
    #Кандидатские #Магистерские
    12 Выполненных работ
    Дмитрий М. БГАТУ 2001, электрификации, выпускник
    4.8 (17 отзывов)
    Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал стать... Читать все
    Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал статьи, патенты, кандидатскую диссертацию, преподавал. Занимаюсь этим с 2003.
    #Кандидатские #Магистерские
    19 Выполненных работ

    Другие учебные работы по предмету