Классификатор эмоционального тона сообщений пользователей социальной сети Twitter

Байкадир, Жансерик Багдатулы Отделение информационных технологий (ОИТ)
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Работа посвящена разработке классификатора сообщений пользователей социальной сети на основе анализа естественного языка. Программная реализация включает инструменты формирования тренировочного набора данных, выполнения классификатора сообщений и своевременного обновления его состояния.

Сокращения и обозначения ………………………………………………………………………. 11
Введение ………………………………………………………………………………………………….. 16
1 Обзор технологии и решений ………………………………………………………………… 18
1.1 Существующие исследования ……………………………………………………. 18
1.2 Предварительная обработка и способы кодирования данных ……… 18
1.3 Обзор методов классификации текста основанные на методе
обучения с учителем ……………………………………………………………………….. 21

1.3.1 Наивный байесовский классификатор ………………………………. 22
1.3.2 Метод опорных векторов …………………………………………………. 23
1.3.3 Алгоритм случайный лес …………………………………………………. 24
1.3.4 Нейронные сети……………………………………………………………….. 24
1.3.5 Свёрточные нейронные сети ……………………………………………. 26
1.3.6 Архитектура свёрточных нейронных сетей ………………………. 26

2 Архитектура программного обеспечения ……………………………………………….. 31
2.1 Хранилище данных ……………………………………………………………………. 32

2.1.1 Выбор средств реализации……………………………………………….. 32
2.1.2 Схема данных ………………………………………………………………….. 33
2.1.3 Создание коллекций для хранения данных ……………………….. 34

2.2 Классификатор ………………………………………………………………………….. 35

2.2.1 Проектирование архитектуры классификатора …………………. 36
2.2.2 Выбор средств разработки ……………………………………………….. 38
2.2.3 Реализация ………………………………………………………………………. 39

2.3 Веб-приложение ………………………………………………………………………… 43

2.3.1 Проектирование схемы интерфейса ………………………………… 43
2.3.2 Выбор средств реализации ……………………………………………… 49
2.3.3 Реализация ……………………………………………………………………… 49

2.4 Планировщик обучения нейронной сети…………………………………….. 52
2.4.1 Выбор средств реализации……………………………………………….. 53
2.4.2 Реализация ………………………………………………………………………. 53

3 Тестирование ………………………………………………………………………………………… 55
4 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение… 58
4.1 Предпроектный анализ ………………………………………………………………. 58

4.1.1 Потенциальные потребители результатов проекта ……………. 58
4.1.2 Анализ конкурентных технических решений ……………………. 59
4.1.3 SWOT – анализ ………………………………………………………………… 61
4.1.4 Оценка готовности проекта к коммерциализации …………….. 64
4.1.5 Методы коммерциализации результатов научно–
технического исследования ……………………………………………………… 65

4.2 Инициация проекта ……………………………………………………………………. 65

4.2.1 Цели и результаты проекта ………………………………………………. 66
4.2.2 Организационная структура проекта ………………………………… 67
4.2.3 Ограничения и допущения проекта ………………………………….. 67

4.3 Планирование управления научно – техническим проектом ……….. 68

4.3.1 Иерархическая структура работ проекта …………………………… 68
4.3.2 План проекта …………………………………………………………………… 69
4.3.3 Бюджет научного исследования ……………………………………….. 72

4.3.3.1 Расчет материальных затрат ………………………………………. 72
4.3.3.2 Основная заработная плата ………………………………………… 74
4.3.3.3 Дополнительная заработная плата научно-
производственного персонала ………………………………………………. 76
4.3.3.4 Отчисления на социальные нужды …………………………….. 77
4.3.3.5 Накладные расходы …………………………………………………… 77
4.3.3.6 Формирование бюджета затрат научно-
исследовательского проекта …………………………………………………. 78

4.3.4 Организационная структура проекта ………………………………… 78
4.3.5 План управления коммуникациями проекта……………………… 79
4.3.6 Реестр рисков проекта ……………………………………………………… 80

4.4 Определение ресурсной (ресурсосберегающей), финансовой,
бюджетной, социальной и экономической эффективности разработки 80

4.4.1 Динамические методы экономической оценки инвестиций . 81

4.4.1.1 Чистая текущая стоимость (NPV) ………………………………. 81
4.4.1.2 Дисконтированный срок окупаемости ……………………….. 83
4.4.1.3 Внутренняя ставка доходности (IRR) …………………………. 84
4.4.1.4 Индекс доходности (рентабельности) инвестиций (PI) .. 85

4.4.2 Оценка сравнительной эффективности исследования ……….. 86
4.4.3 Оценка абсолютной эффективности проекта ……………………. 89

5 Социальная ответственность …………………………………………………………………. 91
5.1 Производственная безопасность …………………………………………………. 91

5.1.1 Анализ вредных и опасных факторов, которые могут
возникнуть на рабочем месте при выполнении проекта ……………. 91
5.1.2 Производственная санитария …………………………………………… 92

5.1.2.1 Производственный шум …………………………………………….. 93
5.1.2.2 Электромагнитные поля …………………………………………….. 94
5.1.2.3 Психофизиологические факторы ……………………………….. 95
5.1.2.4 Микроклимат в помещении ……………………………………….. 97

5.1.3 Экологическая безопасность ……………………………………………. 98

5.1.3.1 Безопасность в чрезвычайных ситуациях …………………… 98
5.1.3.2 Мероприятия по предотвращению ЧС ……………………… 100

5.1.4 Правовые и организационные вопросы обеспечения
безопасности ………………………………………………………………………….. 102

Заключение ……………………………………………………………………………………………. 103
Conclusion ………………………………………………………………………………………………. 104
Список использованной литературы ……………………………………………………….. 105
Приложение А ……………………………………………………………………………………….. 109
Приложение Б ………………………………………………………………………………………… 112
Приложение В………………………………………………………………………………………… 131

За последнее десятилетие значительно возросло использование
различных онлайн-ресурсов, в частности, социальных сетей, таких как Twitter.
Многие компании и организации определяют эти ресурсы как значимые для
маркетинговых исследований [1]. Обычно, чтобы получить обратную связь и
понимание того, как покупатели относятся к их продукции, компании
проводят интервью, анкетирования и опросы. Эти стандартные методы часто
требуют больших затрат времени и денег; более того, они не всегда приносят
желаемый результат.
Для решения задачи автоматического определения эмоциональной
окраски текста используются алгоритмы обработки естественных языков.
Среди которых на данный момент наиболее популярными являются
алгоритмы глубокого обучения. Существует большое количество работ,
посвящённых обработке естественного языка и, в частности, анализу
тональности с использованием нейронных сетей. Но большая часть из них
адаптирована для применения к английскому языку [2].
На данный момент существуют такие веб-сервисы Tone Analyzer [3] и
для определения тональности текста, но большинство из них работают только
с английским языком. Существуют также сервис Repustate [4], который
поддерживает русскоязычные тексты, но данный сервис является доступным
пользователям по платной подписке. В данной работе затронуты основные
моменты связанные с реализацией задачи анализа тональности текстов на
русском языке. Актуальность работы обусловлена тем, что на текущий момент
существует малое количество систем, способных анализировать тональность
текста на русском языке.
Также, по причине того, что разговорный язык, использующийся в
социальных сетях постоянно развивается, чтобы обеспечить наилучшую
точность классификатора, необходимо периодически обновлять
тренировочный набор данных.
Целями данной работы являются:
 разработка классификатора эмоционального тона русскоязычных
сообщений пользователей социальной сети Twitter;
 разработать способ формирования тренировочных данных с
участием самих пользователей.
Для достижения целей, требуется выполнить следующие задачи:
 Проанализировать существующие методы решения задачи
анализа тональности текста;
 Провести анализ существующих алгоритмов машинного
обучения;
 Выбор архитектуры машинного обучения;
 Реализовать кодирование входных данных;
 Разработать классификатор тональности сообщений социальной
сети Twitter;
 Обеспечить точность классификации не менее 75%;
 Протестировать и сравнить полученную модель с существующими
методами решения;
 Разработать веб-приложение для взаимодействия пользователя с
системой для определения эмоционального тона сообщений пользователей
социальной сети;
 Разработать способ формирования тренировочных данных с
участием пользователей.
1 Обзор технологии и решений

Результатом настоящей работы является спроектированное и
реализованное программное обеспечение для классификации эмоционального
тона сообщений пользователей социальной сети Twitter.
В данной работе проводилось исследование основных методов
классификации текстов.
В результате были разработаны:
 классификатор тональности сообщений социальной сети Twitter
работающий на русскоязычных текстах;
 веб-приложение для взаимодействия пользователя с системой для
определения эмоционального класса сообщений пользователей социальной
сети.
 способ формирования тренировочных данных с участием
пользователей. Участие пользователей позволяет обновлять тренировочный
набор данных новыми текстами из социальной сети, что в свою очередь
способствует повышению точности классификации.
В результате исследования было выяснено, что для достижения
приемлемых показателей точности больше 75%, с использованием свёрточных
нейронных сетей с посимвольным кодированием, требуется не менее 200 000
данных для обучения сети. В рамках исследования была получена точность
классификации 76,37% для текстов на русском языке. Разработанный
классификатор может быть использован для анализа текстов социальных сетей
на других языках, где нет обширных баз векторных представлений слов.
Кроме того, созданный классификатор может быть использован для создания
и анализа социальных графов пользователей с учетом тональности их
сообщений.
Conclusion

The result of this work is designed and implemented software for the
emotional tone classifier of Twitter social media users’ messages.
In this paper, the main methods of classification of texts were considered.
As a result, the following were developed components:
 the tone classifier of the social network Twitter messages working on
Russian-language texts;
 a web application for interacting with a network user to determine the
emotional class of messages for social network users.
 a way of forming training data with the participation of users. User
participation allows you to update the training set of data from social networks,
which in turn contributes to the observance of the classification.
As a result of the study it was found that to achieve acceptable accuracy rates
of 75%, using convolutional networks with binding, at least 200 000 data are
required for network training.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Елена Л. РЭУ им. Г. В. Плеханова 2009, Управления и коммерции, пре...
    4.8 (211 отзывов)
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно исполь... Читать все
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно использую в работе графический материал (графики рисунки, диаграммы) и таблицы.
    #Кандидатские #Магистерские
    362 Выполненных работы
    Елена С. Таганрогский институт управления и экономики Таганрогский...
    4.4 (93 отзыва)
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на напис... Читать все
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на написании курсовых и дипломных работ, а также диссертационных исследований.
    #Кандидатские #Магистерские
    158 Выполненных работ
    Татьяна М. кандидат наук
    5 (285 отзывов)
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    #Кандидатские #Магистерские
    495 Выполненных работ
    Дарья П. кандидат наук, доцент
    4.9 (20 отзывов)
    Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных... Читать все
    Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных исследований, связанных с журналистикой, филологией и литературой
    #Кандидатские #Магистерские
    33 Выполненных работы
    Екатерина Д.
    4.8 (37 отзывов)
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два об... Читать все
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два образования: экономист-менеджер и маркетолог. Буду рада помочь и Вам.
    #Кандидатские #Магистерские
    55 Выполненных работ
    Антон П. преподаватель, доцент
    4.8 (1033 отзыва)
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публик... Читать все
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публикуюсь, имею высокий индекс цитирования. Спикер.
    #Кандидатские #Магистерские
    1386 Выполненных работ
    Родион М. БГУ, выпускник
    4.6 (71 отзыв)
    Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.
    Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.
    #Кандидатские #Магистерские
    108 Выполненных работ
    Рима С.
    5 (18 отзывов)
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный универси... Читать все
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный университет, являюсь бакалавром, магистром юриспруденции (с отличием)
    #Кандидатские #Магистерские
    38 Выполненных работ
    Екатерина С. кандидат наук, доцент
    4.6 (522 отзыва)
    Практически всегда онлайн, доработки делаю бесплатно. Дипломные работы и Магистерские диссертации сопровождаю до защиты.
    Практически всегда онлайн, доработки делаю бесплатно. Дипломные работы и Магистерские диссертации сопровождаю до защиты.
    #Кандидатские #Магистерские
    1077 Выполненных работ

    Другие учебные работы по предмету