+7 (800) 505-67-97

Автоматическое определение тем, ассоциированных с пандемией COVID-19, в русскоязычном корпусе социальных медиа

Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0
Смирнова Владлена Дмитриевна
Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Одним из направлений обработки естественного языка является тематическое моделирование. В настоящее время это направление находит широкое применение в исследовании социальных сетей и тематическое моделирование на материале постов пользователей той или иной социальной сети. Результат подобного анализа может помогать задавать вектор развития определенной области, выявляя ключевые и актуальные для пользователей темы.
Целью данной работы является разработка гибридной тематической модели корпуса текстов, совмещающей в себе вероятностную тематическую модель LDA и модель распределенных векторов RuBERT. Данное исследование может быть использовано социологами и психологами в мониторинге новостных сообщений и социальных сетей. В связи с этим тема магистерской диссертации является актуальной и имеет непосредственное практическое применение.

Построение тематической модели корпуса текстов – это задача, относящаяся к области извлечения информации. Это процесс извлечения наборов слов (тем) из набора документов, которые наилучшим образом отражают существующую в данном наборе документов информацию. Тематическое моделирование включает в себя методы, с помощью которых можно оптимизировать работу с большим количеством текстовой информации.
Поскольку тематическое моделирование – многофункциональный, развивающийся метод, в настоящее время он используется во многих областях: от обработки естественного языка до научной литературы, программной инженерии, биоинформатики, гуманитарных наук и так далее. Тематическое моделирование находит широкое применение в решении задач информационного поиска, автоматического аннотирования и индексирования документов, выявления паттернов поведения, обнаружения и отслеживания событий в новостных потоках, построения профилей интересов пользователей в рекомендательных системах и т.д.
В настоящее время значительная часть населения Российской Федерации (48%), согласно исследованию Digital 2020 Global Overview Report [15], использует те или иные социальные сети. Одним из направлений обработки естественного языка является исследование социальных сетей и тематическое моделирование на материале постов пользователей той или иной социальной сети. Актуальность данного исследования определяется значимостью анализа изменения наиболее распространённых тем среди пользователей для различных областей, таких как маркетинг, безопасность, образование, менеджмент и т.д. Результат подобного анализа может помогать задавать вектор развития определенной области, выявляя ключевые и актуальные для пользователей темы.
В данной работе сделан акцент на исследование подтем в рамках темы COVID-19, так как в условиях пандемии активное обсуждение в социальных сетях различных сфер жизни общества даст наиболее показательные результаты использования методов тематического моделирования в определении тем и сопоставлении тематического состава постов пользователей за определенный промежуток времени.В нашем исследовании применяется два подхода к построению тематической модели на основе одного корпуса постов из социальных сетей: латентное размещение Дирихле LDA (Latent Dirichlet Allocation) и двунаправленная мультиязычная модель BERT, а также производится анализ и сравнение полученных результатов.
Целью данной работы является автоматическое исследование тематики сообщений в социальной сети Twitter в заданных хронологических рамках с помощью алгоритмов тематического моделирования.
Для достижения поставленной цели необходимо решить следующий ряд задач:
• изучение существующих алгоритмов тематического моделирования;
• обзор анализ хода развития технологии тематического моделирования
• исследование существующих методов и алгоритмов тематического моделирования
• выбор источника данных;
• сбор данных с помощью интерфейсов API Twitter и   библиотеки Tweepy для языка программирования Python;
• предварительная обработка данных;
• построение тематической модели LDA;
• построение тематической модели с использованием алгоритмов LDA и BERT;
• оценка полученных результатов с помощью выбранных методов оценивания качества тематических моделей
• сравнение результатов экспериментов
В качестве материала исследования была выбрана социальная сеть Twitter. Данная социальная сеть была выбрана в связи с наличием доступного интерфейса  API и необходимых для данного исследования параметров для сбора данных, таких как объём постов, язык, страна публикации, временной диапазон и наличие в посте ключевых слов (“коронавирус”, “пандемия”, “covid’’, “ковид”, “корона”), материалом исследования послужил корпус русскоязычных сообщений из социальной сети Twitter на тему COVID-19 за период с 03.2020 по 03.2021. Twitter остается самой “высокой” из всех соцсетей – в среднем на каждого автора приходится 47,1 сообщений в месяц.
В качестве основного инструментария для тематического моделирования в данной работе выбран алгоритм тематического моделирования LDA и нейронная сеть BERT, использование которой должно исключить влияние вышеперечисленных факторов на конечный результат.
Теоретическая значимость исследования заключается в разработке гибридной тематической модели корпуса текстов, совмещающей в себе вероятностную тематическую модель и модель распределенных векторов.
Практическая применимость результатов исследования заключается в описании тематической структуры узкоспециализированного русскоязычного корпуса, а именно, корпуса твитов, содержание которых ассоциировано с СOVID-19. Данное исследование может быть использовано социологами и психологами в мониторинге новостных сообщений и социальных сетей.
В настоящее время отсутствуют работы на предмет исследования русскоязычных сообщений пользователей в социальных сетях на основании модели BERT+LDA. Этот факт подтверждает новизну выпускной квалификационной работы.

Данное исследование показывает возможные варианты использования алгоритмов тематического моделирования с помощью алгоритма LDA и дополнительно полученных векторов с помощью модели BERT, обученной для русского языка на корпусе русскоязычных сообщений из социальной сети Twitter.
Было проведено два эксперимента по построению тематической модели:
Построение модели с помощью алгоритма LDA. Для улучшения базового алгоритма была проведена дополнительная фильтрация корпуса, эксперименты по подбору оптимального количества тем и предварительное обучение модели на собранном корпусе;
Построение тематической модели с конкатенированными векторами, полученными с помощью алгоритма LDA для информации о вероятностном распределении и векторами, полученными с помощью модели BERT для русского языка для информации о контексте слов и их распределении в документах.
Результат экспериментов оценивался с помощью метрик когерентности для оценки качеств полученных тем и silhouette score для оценки качества полученных кластеров.
Алгоритм LDA показал относительно низкие результаты, даже при дополнительных настройках. При максимальных значениях метрик 1, в данной работе этот результат не был достигнут. Мы получили интерпретируемые темы, отражающие некоторые из происходящих событий, но, рассматривая результаты кластеризации, информация из многих сообщений была извлечена неверно/не была учтена в исследовании. По самой распространенной теме в корпусе (“Ежедневные новостные сводки по заболевшим на территории России/Санкт-Петербурга/Европы”) можно сделать вывод о том, что большая часть сообщений, обработанных алгоритмом – посты новостных ресурсов, не содержащие шум в виде неформальной/разговорной лексики/опечатки.
Второй эксперимент показал более высокие результаты, что доказывает, что гипотеза о том, что дополнительная информация о контексте слова, а именно дополнительно полученные векторы предложений, а не слов, помогает улучшить качество тематической модели и дает более интерпретируемые результаты и, следовательно, на выходе дает более качественные кластеры, о чём свидетельствуют увеличившиеся значения метрик качества.
Мы получили большее количество тем, что говорит о том, что модель справилась с обработкой тех документов, которые в первом эксперименте, либо относились к шуму, либо были ошибочно отнесены к тем или иным кластерам.
Самая распространенная из тем, согласно результатам кластеризации, также относится к новостным сводкам, что свидетельствует о снижении популярности социальной сети  Twitter среди пользователей на территории РФ, так как большая часть сообщений в настоящее время производится СМИ и аккаунтами тех или иный организаций, предоставляющих информацию о COVID-19. Несмотря на то, что оба алгоритма хорошо справились с выделением этих тем, в перспективе можно отказаться от исследования тем, произведенных подобными аккаунтами и сделать уклон в сторону исследования сообщений пользовательских аккаунтов, включающего также анализ тональности.
Для улучшения результатов в будущих исследованиях необходимо предпринять следующие шаги:
Совершенствование и расширение словаря стоп-слов. Сортировка и отбор наиболее частотных прилагательных/глаголов, слов разговорного стиля, опечаток, сдвоенных слов, лемм. Выделение биграмм/триграмм. Несмотря на фильтрацию с помощью расширенного списка стоп-слов и TF-IDF, в числе самых частотных слов полученных тем присутствует шум в виде вышеперечисленных токенов.
Фильтрация сообщений на языках, не используемых в качестве объекта исследования. Библиотека Tweepy учитывает выбор языка при поиске и загрузке постов пользователей, однако, с учётом того, что все сообщения на монгольском языке написаны некоторыми пользователями на кириллице, они попадают в категорию русского языка.
Сбор корпуса большего размера с захватом более широкого временного промежутка. Это может повлиять на количество обсуждаемых тем/событий и дополнить уже существующие кластеры тем, таким образом, результат получится более репрезентативным. В настоящее время корпус собран в соответствии с наличием вычислительных мощностей.
Обучение модели на пользовательском корпусе. В данном эксперименте были использованы векторы из предварительно обученной модели.
Настройка оптимальных гиперпараметров/количества кластеров.

Воронцов К.В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН, № 3, 2014. – 268–271 с.
• Воронцов К.В. Вероятностное тематическое моделирование: теория, модели, алгоритмы и проект BigARTM // Московский физико-технический институт, Москва, 2021.
• Воронцов К.В., Потапенко А. А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных, Т. 1, № 6, 2013. – 657-686с.
• Воронцов К. В., Потапенко А. А. Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения числа тем // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2014 г.) Вып.13 (20). М: Изд-во РГГУ, 2014.
• Библиотека nltk для  Python. [Электронный ресурс] URL: http://www.nltk.org/ (дата обращения: 05.10.2020).
• Библиотека pymystem3. [Электронный ресурс] URL: https://pypi.python.org/pypi/pymystem3/0.1.1 (дата обращения: 19.02.2021).
• Библиотека Python Tweepy. [Электронный ресурс] URL: https://docs.tweepy.org/en/latest/ (дата обращения: 25.11.2020).
• Библиотека scikit-learn для Python [Электронный ресурс] URL: https://scikit-learn.org/stable/user_guide.html (дата обращения: 20.01.2021)
• Twitter API. [Электронный ресурс] URL: https://developer.twitter.com/en/docs (дата обращения: 01.10.2020).
• Митрофанова О.А. Моделирование тематики специальных текстов на основе алгоритма LDA // Избранные труды Международной филологической конференции, СПб, 2013.
• Модуль stop_words для nltk [Электронный ресурс] URL: https://pypi.python.org/pypi/stop-words (дата обращения: 10.01.2021).
• Морфологический анализатор pymorphy2. [Электронный ресурс] URL: https://pymorphy2.readthedocs.io/en/latest/user/index.html (дата обращения: 10.12.2020).
• Сивоголовко Е.В., Методы оценки качества чёткой кластеризации // КИО. 2011. №4. [Электронный ресурс] URL: https://cyberleninka.ru/article/n/metody-otsenki-kachestva-chyotkoy-klasterizatsii (дата обращения: 11.03.2021).
• Социальная сеть Twitter. URL: https://twitter.com/
• Статистика использования социальных сетей в 2021 // Digital 2020 Global Overview Report. [Электронный ресурс] URL: https://wearesocial.com/blog/2020/01/digital-2020-3-8-billion-people-use-social-media (дата обращения: 10.12.2020).
• Шадриков А.А. Алгоритмы неотрицательных матричных разложений для тематического моделирования, Москва, 2015.
• Blei D., Introduction to Probabilistic Topic Models. Communications of the ACM, 2012, p. 77 – 84.
• Blei D. M., “Probabilistic topic models,” Communications of the ACM, vol. 55, no. 4, 2012, pp. 77–84.
• Blei D. M. and Lafferty J. D., “Topic models,” Text mining: classification, clustering, and applications, vol. 10, no. 71, 2009, p. 34.
• Blei D. M., Ng A. Y., and Jordan M. I., “Latent dirichlet allocation,” Journal of machine Learning research, vol. 3, no. Jan, 2003, pp. 993–1022.
• Bouma G., Normalized (pointwise) mutual information in collocation extraction // Proceedings of GSCL, 2009.
• Cosine similarity // Wikipedia, the free encyclopedia [Электронный ресурс] URL: https://en.wikipedia.org/wiki/Cosine_similarity (дата обращения: 04.10.2020).
• Devlin J., Chang M., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Google AI Language, 2018.
• Feng Y. and Lapata M., Topic models for image annotation and text illustration // Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, 2010, pp. 831–839
• Fu Q., Zhuang Y., Gu J., Zhu Y., Guo X., Agreeing to Disagree: Choosing Among Eight Topic-Modeling Methods, Big Data Research, Volume 23, 2021.
• Garcia K., Berton L., Topic detection and sentiment analysis in Twitter content related to COVID-19 from Brazil and the USA // Applied Soft Computing, Volume 101, 2021.
• Hofmann T., Probabilistic Latent Semantic Analysis // Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence, San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1999.
• Hofmann T., Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, 1999.
• Korenčić D., Ristov S., Šnajder J., Document-based topic coherence measures for news media text, Expert Systems with Applications, Volume 114, 2018.
• Korshunova I., Xiong H., Fedoryszak M., Theis L. Discriminative Topic Modeling with Logistic LDA // 33rd Conference on Neural Information Processing Systems (NeurIPS 2019), Canada, 2019.
• Lee Daniel and Seung Sebastian. Learning the parts of objects by nonnegative matrix factorization. Nature 401 (6755): 1999, pp. 788–791.
• Liu L., Tang L., Dong W., Yao S., and Zhou, “An overview of topic modeling and its current applications in bioinformatics,” SpringerPlus, vol. 5, no. 1, 2016, p. 1608.
• Mikolov T., Sutskever I., Chen K., Corrado G. S., and Dean J., “Distributed representations of words and phrases and their compositionality,” Advances in neural information processing systems, vol. 26, 2013, pp. 3111–3119.
• Newman D., Lau J. H., Grieser K., and Baldwin T., Automatic evaluation of topic coherence // Human language technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Stroudsburg, PA, USA: Association for Computational Linguistics, 2010, pp. 100–108.
• Pennington J., Socher R., and Manning C. D., “Glove: Global vectors for word representation,” in Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 2014, pp. 1532–1543.
• Peters M. E., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., and Zettlemoyer L., “Deep contextualized word representations,” 2018.
• Reimers N. and Gurevych I., Sentence-bert: Sentence embeddings using siamese bertnetworks, 2019.
• Rousseeuw P., “Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis”. Computational and Applied Mathematics. 20: 1987, pp. 53–65.
• RuBERT DeepPavlov Model [Электронный ресурс] URL: https://huggingface.co/DeepPavlov/rubert-base-cased-sentence (дата обращения: 01.02.2021).
• Topic model // Wikipedia, the free encyclopedia, [Электронный ресурс] URL: https://en.wikipedia.org/wiki/Topic_model (дата обращения: 25.09.2020).
• Vaswan A., Jones L., Shazeer N., Parmar N., Uszkoreit J., Gomez A.N., Kaiser Ł., Polosukhin I. Attention Is All You Need // 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA, 2017.
• Xie Q., Zhang X., DingY., Song M., Monolingual and multilingual topic analysis using LDA and BERT embeddings, Journal of Informetrics, Volume 14, Issue 3, 2020.
• Wallach H., Murray I., Salakhutdinov R., and Mimno D. Evaluation methods for topic models. In Proceedings of the 26th International Conference on Machine Learning (ICML 2009), 2009
• Williams A., Bowman S., XNLI: Evaluating Cross-lingual Sentence Representations, 2018.
• Word embedding — Wikipedia, the free encyclopedia, [Электронный ресурс] URL: https://en.wikipedia.org/wiki/Word_embedding (дата обращения: 16.10.2020).

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Читать «Автоматическое определение тем, ассоциированных с пандемией COVID-19, в русскоязычном корпусе социальных медиа»

    Последние выполненные заказы

    Международные отношения Магистерская диссертация
    2 500 ₽
    т2732 речь и презентация к заказу Перспективы внешнеэкономического сотрудничества России и КНР
    Спасибо огромное за качественную работу!
    Менеджмент организации Магистерская диссертация
    2 500 ₽
    "Стратегия внедрения цифровых технологий в управление цепями поставок на примере ПАО "Транснефть""
    Большое спасибо автору! В установленные сроки полностью выполнен объем работы - магистерская диссертация по менеджменту, отчет по преддипломной пра...
    Государственное и муниципальное управление Магистерская диссертация
    11 370 ₽
    Новое задание по государственному и муниципальному управлению
    Добрый день! Очень доволен работой, большое спасибо, что помогаете в написании работ, дальнейших успехов Вам!
    Право и юриспруденция Магистерская диссертация
    20 520 ₽
    Особенности пересмотра судебных актов в арбитражном суде апелляционной инстанции
    Доволен работой автора
    Право и юриспруденция Магистерская диссертация
    14 210 ₽
    "Наследование по закону в романо-германской и англо-саксонской правовых семьях: сравнительно-правовые аспекты"
    Хочу сказать огромное спасибо Вячеславу! Отвечал на все вопросы, вносил правки и всегда был на связи. Рекомендую данного автора если хотите качеств...
    Налоги Магистерская диссертация
    17 000 ₽
    Совершенствование контрольной деятельности по налогу на доходы физических лиц
    Она супер, выручила меня очень!

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    user1250010 Омский государственный университет, 2010, преподаватель,...
    4 (15 отзывов)
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    #Кандидатские #Магистерские
    21 Выполненная работа
    Логик Ф. кандидат наук, доцент
    4.9 (826 отзывов)
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские дисс... Читать все
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские диссертации, рефераты, контрольные) уже много лет. Качество работ гарантирую.
    #Кандидатские #Магистерские
    1486 Выполненных работ
    Дмитрий К. преподаватель, кандидат наук
    5 (1241 отзыв)
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполня... Читать все
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполняю уже 30 лет.
    #Кандидатские #Магистерские
    2271 Выполненная работа
    Мария А. кандидат наук
    4.7 (18 отзывов)
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет... Читать все
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет, реклама, журналистика, педагогика, право)
    #Кандидатские #Магистерские
    39 Выполненных работ
    Мария Б. преподаватель, кандидат наук
    5 (22 отзыва)
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальнос... Читать все
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальности "Экономика и управление народным хозяйством". Автор научных статей.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Екатерина Д.
    4.8 (37 отзывов)
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два об... Читать все
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два образования: экономист-менеджер и маркетолог. Буду рада помочь и Вам.
    #Кандидатские #Магистерские
    55 Выполненных работ
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Екатерина П. студент
    5 (18 отзывов)
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно... Читать все
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно занимаюсь английским языком, уровень владения - Upper-Intermediate.
    #Кандидатские #Магистерские
    39 Выполненных работ

    Другие учебные работы по предмету

    Влияние И.С. Тургенева на раннее творчество А.П. Чехова
    📅 2021 год
    🏢 Санкт-Петербургский государственный университет
    Поток сознания как кинематографический прием
    📅 2021 год
    🏢 Санкт-Петербургский государственный университет
    Поэтика женских образов в прозе А.П. Чехова
    📅 2021 год
    🏢 Санкт-Петербургский государственный университет
    Каноны Косьмы Маюмского: опыт филологического анализа
    📅 2021 год
    🏢 Санкт-Петербургский государственный университет