Классификатор эмоционального тона сообщений пользователей социальной сети Twitter

Байкадир, Жансерик Багдатулы Отделение информационных технологий (ОИТ)
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Работа посвящена разработке классификатора сообщений пользователей социальной сети на основе анализа естественного языка. Программная реализация включает инструменты формирования тренировочного набора данных, выполнения классификатора сообщений и своевременного обновления его состояния.

Сокращения и обозначения ………………………………………………………………………. 11
Введение ………………………………………………………………………………………………….. 16
1 Обзор технологии и решений ………………………………………………………………… 18
1.1 Существующие исследования ……………………………………………………. 18
1.2 Предварительная обработка и способы кодирования данных ……… 18
1.3 Обзор методов классификации текста основанные на методе
обучения с учителем ……………………………………………………………………….. 21

1.3.1 Наивный байесовский классификатор ………………………………. 22
1.3.2 Метод опорных векторов …………………………………………………. 23
1.3.3 Алгоритм случайный лес …………………………………………………. 24
1.3.4 Нейронные сети……………………………………………………………….. 24
1.3.5 Свёрточные нейронные сети ……………………………………………. 26
1.3.6 Архитектура свёрточных нейронных сетей ………………………. 26

2 Архитектура программного обеспечения ……………………………………………….. 31
2.1 Хранилище данных ……………………………………………………………………. 32

2.1.1 Выбор средств реализации……………………………………………….. 32
2.1.2 Схема данных ………………………………………………………………….. 33
2.1.3 Создание коллекций для хранения данных ……………………….. 34

2.2 Классификатор ………………………………………………………………………….. 35

2.2.1 Проектирование архитектуры классификатора …………………. 36
2.2.2 Выбор средств разработки ……………………………………………….. 38
2.2.3 Реализация ………………………………………………………………………. 39

2.3 Веб-приложение ………………………………………………………………………… 43

2.3.1 Проектирование схемы интерфейса ………………………………… 43
2.3.2 Выбор средств реализации ……………………………………………… 49
2.3.3 Реализация ……………………………………………………………………… 49

2.4 Планировщик обучения нейронной сети…………………………………….. 52
2.4.1 Выбор средств реализации……………………………………………….. 53
2.4.2 Реализация ………………………………………………………………………. 53

3 Тестирование ………………………………………………………………………………………… 55
4 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение… 58
4.1 Предпроектный анализ ………………………………………………………………. 58

4.1.1 Потенциальные потребители результатов проекта ……………. 58
4.1.2 Анализ конкурентных технических решений ……………………. 59
4.1.3 SWOT – анализ ………………………………………………………………… 61
4.1.4 Оценка готовности проекта к коммерциализации …………….. 64
4.1.5 Методы коммерциализации результатов научно–
технического исследования ……………………………………………………… 65

4.2 Инициация проекта ……………………………………………………………………. 65

4.2.1 Цели и результаты проекта ………………………………………………. 66
4.2.2 Организационная структура проекта ………………………………… 67
4.2.3 Ограничения и допущения проекта ………………………………….. 67

4.3 Планирование управления научно – техническим проектом ……….. 68

4.3.1 Иерархическая структура работ проекта …………………………… 68
4.3.2 План проекта …………………………………………………………………… 69
4.3.3 Бюджет научного исследования ……………………………………….. 72

4.3.3.1 Расчет материальных затрат ………………………………………. 72
4.3.3.2 Основная заработная плата ………………………………………… 74
4.3.3.3 Дополнительная заработная плата научно-
производственного персонала ………………………………………………. 76
4.3.3.4 Отчисления на социальные нужды …………………………….. 77
4.3.3.5 Накладные расходы …………………………………………………… 77
4.3.3.6 Формирование бюджета затрат научно-
исследовательского проекта …………………………………………………. 78

4.3.4 Организационная структура проекта ………………………………… 78
4.3.5 План управления коммуникациями проекта……………………… 79
4.3.6 Реестр рисков проекта ……………………………………………………… 80

4.4 Определение ресурсной (ресурсосберегающей), финансовой,
бюджетной, социальной и экономической эффективности разработки 80

4.4.1 Динамические методы экономической оценки инвестиций . 81

4.4.1.1 Чистая текущая стоимость (NPV) ………………………………. 81
4.4.1.2 Дисконтированный срок окупаемости ……………………….. 83
4.4.1.3 Внутренняя ставка доходности (IRR) …………………………. 84
4.4.1.4 Индекс доходности (рентабельности) инвестиций (PI) .. 85

4.4.2 Оценка сравнительной эффективности исследования ……….. 86
4.4.3 Оценка абсолютной эффективности проекта ……………………. 89

5 Социальная ответственность …………………………………………………………………. 91
5.1 Производственная безопасность …………………………………………………. 91

5.1.1 Анализ вредных и опасных факторов, которые могут
возникнуть на рабочем месте при выполнении проекта ……………. 91
5.1.2 Производственная санитария …………………………………………… 92

5.1.2.1 Производственный шум …………………………………………….. 93
5.1.2.2 Электромагнитные поля …………………………………………….. 94
5.1.2.3 Психофизиологические факторы ……………………………….. 95
5.1.2.4 Микроклимат в помещении ……………………………………….. 97

5.1.3 Экологическая безопасность ……………………………………………. 98

5.1.3.1 Безопасность в чрезвычайных ситуациях …………………… 98
5.1.3.2 Мероприятия по предотвращению ЧС ……………………… 100

5.1.4 Правовые и организационные вопросы обеспечения
безопасности ………………………………………………………………………….. 102

Заключение ……………………………………………………………………………………………. 103
Conclusion ………………………………………………………………………………………………. 104
Список использованной литературы ……………………………………………………….. 105
Приложение А ……………………………………………………………………………………….. 109
Приложение Б ………………………………………………………………………………………… 112
Приложение В………………………………………………………………………………………… 131

За последнее десятилетие значительно возросло использование
различных онлайн-ресурсов, в частности, социальных сетей, таких как Twitter.
Многие компании и организации определяют эти ресурсы как значимые для
маркетинговых исследований [1]. Обычно, чтобы получить обратную связь и
понимание того, как покупатели относятся к их продукции, компании
проводят интервью, анкетирования и опросы. Эти стандартные методы часто
требуют больших затрат времени и денег; более того, они не всегда приносят
желаемый результат.
Для решения задачи автоматического определения эмоциональной
окраски текста используются алгоритмы обработки естественных языков.
Среди которых на данный момент наиболее популярными являются
алгоритмы глубокого обучения. Существует большое количество работ,
посвящённых обработке естественного языка и, в частности, анализу
тональности с использованием нейронных сетей. Но большая часть из них
адаптирована для применения к английскому языку [2].
На данный момент существуют такие веб-сервисы Tone Analyzer [3] и
для определения тональности текста, но большинство из них работают только
с английским языком. Существуют также сервис Repustate [4], который
поддерживает русскоязычные тексты, но данный сервис является доступным
пользователям по платной подписке. В данной работе затронуты основные
моменты связанные с реализацией задачи анализа тональности текстов на
русском языке. Актуальность работы обусловлена тем, что на текущий момент
существует малое количество систем, способных анализировать тональность
текста на русском языке.
Также, по причине того, что разговорный язык, использующийся в
социальных сетях постоянно развивается, чтобы обеспечить наилучшую
точность классификатора, необходимо периодически обновлять
тренировочный набор данных.
Целями данной работы являются:
 разработка классификатора эмоционального тона русскоязычных
сообщений пользователей социальной сети Twitter;
 разработать способ формирования тренировочных данных с
участием самих пользователей.
Для достижения целей, требуется выполнить следующие задачи:
 Проанализировать существующие методы решения задачи
анализа тональности текста;
 Провести анализ существующих алгоритмов машинного
обучения;
 Выбор архитектуры машинного обучения;
 Реализовать кодирование входных данных;
 Разработать классификатор тональности сообщений социальной
сети Twitter;
 Обеспечить точность классификации не менее 75%;
 Протестировать и сравнить полученную модель с существующими
методами решения;
 Разработать веб-приложение для взаимодействия пользователя с
системой для определения эмоционального тона сообщений пользователей
социальной сети;
 Разработать способ формирования тренировочных данных с
участием пользователей.
1 Обзор технологии и решений

Результатом настоящей работы является спроектированное и
реализованное программное обеспечение для классификации эмоционального
тона сообщений пользователей социальной сети Twitter.
В данной работе проводилось исследование основных методов
классификации текстов.
В результате были разработаны:
 классификатор тональности сообщений социальной сети Twitter
работающий на русскоязычных текстах;
 веб-приложение для взаимодействия пользователя с системой для
определения эмоционального класса сообщений пользователей социальной
сети.
 способ формирования тренировочных данных с участием
пользователей. Участие пользователей позволяет обновлять тренировочный
набор данных новыми текстами из социальной сети, что в свою очередь
способствует повышению точности классификации.
В результате исследования было выяснено, что для достижения
приемлемых показателей точности больше 75%, с использованием свёрточных
нейронных сетей с посимвольным кодированием, требуется не менее 200 000
данных для обучения сети. В рамках исследования была получена точность
классификации 76,37% для текстов на русском языке. Разработанный
классификатор может быть использован для анализа текстов социальных сетей
на других языках, где нет обширных баз векторных представлений слов.
Кроме того, созданный классификатор может быть использован для создания
и анализа социальных графов пользователей с учетом тональности их
сообщений.
Conclusion

The result of this work is designed and implemented software for the
emotional tone classifier of Twitter social media users’ messages.
In this paper, the main methods of classification of texts were considered.
As a result, the following were developed components:
 the tone classifier of the social network Twitter messages working on
Russian-language texts;
 a web application for interacting with a network user to determine the
emotional class of messages for social network users.
 a way of forming training data with the participation of users. User
participation allows you to update the training set of data from social networks,
which in turn contributes to the observance of the classification.
As a result of the study it was found that to achieve acceptable accuracy rates
of 75%, using convolutional networks with binding, at least 200 000 data are
required for network training.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    user1250010 Омский государственный университет, 2010, преподаватель,...
    4 (15 отзывов)
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    #Кандидатские #Магистерские
    21 Выполненная работа
    Катерина В. преподаватель, кандидат наук
    4.6 (30 отзывов)
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации... Читать все
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации. Опыт работы 7 лет. Всегда на связи и готова прийти на помощь. Вместе удовлетворим самого требовательного научного руководителя. Возможно полное сопровождение: от статуса студента до получения научной степени.
    #Кандидатские #Магистерские
    47 Выполненных работ
    Кирилл Ч. ИНЖЭКОН 2010, экономика и управление на предприятии транс...
    4.9 (343 отзыва)
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). С... Читать все
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). Сейчас пишу диссертацию на соискание степени кандидата экономических наук.
    #Кандидатские #Магистерские
    692 Выполненных работы
    Дарья С. Томский государственный университет 2010, Юридический, в...
    4.8 (13 отзывов)
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссерт... Читать все
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссертационное исследование, которое сейчас находится на рассмотрении в совете.
    #Кандидатские #Магистерские
    18 Выполненных работ
    Глеб С. преподаватель, кандидат наук, доцент
    5 (158 отзывов)
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной с... Читать все
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной специальности 12.00.14 административное право, административный процесс.
    #Кандидатские #Магистерские
    216 Выполненных работ
    Анна Н. Государственный университет управления 2021, Экономика и ...
    0 (13 отзывов)
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.
    #Кандидатские #Магистерские
    0 Выполненных работ
    Татьяна Б.
    4.6 (92 отзыва)
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские ди... Читать все
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские диссертации, курсовые работы средний балл - 4,5). Всегда на связи!
    #Кандидатские #Магистерские
    138 Выполненных работ
    Шагали Е. УрГЭУ 2007, Экономика, преподаватель
    4.4 (59 отзывов)
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и... Читать все
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и диссертаций, Есть любимые темы - они дешевле обойдутся, ибо в радость)
    #Кандидатские #Магистерские
    76 Выполненных работ
    Анна Александровна Б. Воронежский государственный университет инженерных технол...
    4.8 (30 отзывов)
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственно... Читать все
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственном университете инженерных технологий.
    #Кандидатские #Магистерские
    66 Выполненных работ

    Другие учебные работы по предмету