Автоматизация процесса сбора и анализа данных об активности учащихся онлайн-курсов
В работе рассматривается система анализа данных онлайн-курсов, использующая в качестве источников данных различные платформы. В ходе выявления требований и проектирования рассматриваются существующие инструменты, частично позволяющие проводить анализ произвольных данных или данных онлайн-курсов. Существующие инструменты затем используются для создания собственной системы. Реализация системы отличается большим количеством независимых сервисов, из-за чего система сможет расширяться и масштабироваться. При помощи системы сбора и обработки данных выполнено несколько исследований по выявлению зависимостей между активностью слушателей во время учебы на онлайн-курсе и оценками, которые эти слушатели получили по итогам обучения. Исследования проводились на данных об активности двух отличающихся групп пользователей для выявления различий между зависимостями в этих группах.
Введение ………………………………………………………………………………………………… 4
Обзор литературы …………………………………………………………………………………… 6
Постановка задачи…………………………………………………………………………………. 10
Глава 1. Существующие инструменты для анализа данных………………………. 12
1.1 НПОО …………………………………………………………………………………………… 12
1.2 Coursera ………………………………………………………………………………………… 13
1.3 edX Insights …………………………………………………………………………………… 16
1.4 ELK ……………………………………………………………………………………………… 16
1.5 Apache Kafka…………………………………………………………………………………. 18
2.6 Выводы по главе 1…………………………………………………………………………. 18
Глава 2. Проектирование системы анализа данных ………………………………….. 21
2.1 Обзор существующих компонент …………………………………………………… 21
2.2 Архитектура системы анализа данных ……………………………………………. 22
2.3 Процесс анализа данных ………………………………………………………………… 23
2.4 Проект системы …………………………………………………………………………….. 24
2.5 Выводы по главе 2…………………………………………………………………………. 26
Глава 3. Разработка прототипа ……………………………………………………………….. 27
3.1 Используемые технологии ……………………………………………………………… 27
3.2 Особенности реализации системы ………………………………………………….. 29
3.3 Обработка данных edX ………………………………………………………………….. 34
3.4 Обработка файлов структуры курсов………………………………………………. 37
3.5 Выводы по главе 3…………………………………………………………………………. 39
Глава 4. Анализ данных онлайн-курсов…………………………………………………… 40
4.1 Связь географического распределения и успеваемости…………………….. 40
4.2 Маршруты слушателей ………………………………………………………………….. 47
4.3 Стратегия просмотра видео ……………………………………………………………. 52
4.4 Сравнение слушателей на общих сессиях и студентов ……………………… 59
4.5 Выводы по главе 4…………………………………………………………………………. 62
Заключение …………………………………………………………………………………………… 64 Источники…………………………………………………………………………………………….. 66
Приложения ………………………………………………………………………………………….. 69
Онлайн-курсы являются современным образовательным форматом, который отличается от очного обучения большим количеством данных, которые генерируются по результатам взаимодействия обучающихся с курсом. Такие данные подлежат анализу для выявления скрытых закономерностей. Обнаружение таких зависимостей позволит ответить на такие вопросы как:
1) Какая модель поведения слушателя во время работы с образовательными материалами приводит к получению наивысших результатов при сдаче контрольных заданий? Существуют ли различные модели поведения? Как определить, какая модель подойдёт слушателю, который начал проходить онлайн-курс?
2) В каком виде образовательные материалы воспринимаются лучше? Существует ли модель, которая позволяет предсказать, насколько эффективным будет онлайн-курс, на этапе его производства?
3) Как сделать обучение персонализированным? Хватает ли данных платформ онлайн-обучения для создания адаптивных онлайн-курсов?
4) Что можно понимать под образовательной эффективностью онлайн- курсов? Как оценить эффективность существующих образовательных материалов?
Решение этих вопросов позволит организациям-разработчикам онлайн-курсов повысить коммерческий потенциал своих курсов, а университетам позволит решать, какие курсы пригодны для внедрения в образовательные программы и могут использоваться наравне с очными дисциплинами, а какие лучше оставить для дополнительного изучения в качестве факультативов. Это подтверждается запросом ведущих ВУЗов страны на анализ данных своих курсов.
В Санкт-Петербургском Государственном университете (СПбГУ) разработкой, публикацией и поддержкой онлайн-курсов занимается Центр развития электронных образовательных ресурсов (ЦРЭОР). На данный
момент было выпущено большое количество курсов, каждый из которых
прошло от 100 до 25000 уникальных слушателей. Курсы публиковались на различных платформах: “Открытое образование” (131 курс), основанная на edX и “Coursera” (82 курса). По всем курсам существует немалое количество собранных данных: журналы событий, оценочные листы, персональные данные слушателей. Данные, которые были собраны, зависят от платформы. Некоторые курсы опубликованы сразу на двух платформах, другие являются эксклюзивными для одной из двух платформ.
Для повышения качества онлайн-курсов СПбГУ было принято решение использовать накопленные данные для изучения формата онлайн-обучения. Чтобы провести этот анализ, сперва необходимо рассмотреть существующие инструменты, оценить их возможности и при необходимости расширить их дополнительными модулями.
По итогам работы удалось создать прототип системы, которая позволяет анализировать данные и постоянно отправлять эти данные в системы, которые от них зависят. Прототип используется для повышения доступности данных онлайн-курсов для принятия решений о развитии ЦРЭОР и его курсов. Помимо этого, система будет интегрирована в разрабатываемую на данный момент систему адаптивных курсов.
Система состоит из трёх частей – сбор данных, обработка данных и их анализ. В качестве первого слоя взято готовое решение – Filebeat. Слои анализа данных и обработки данных являются набором сервисов, которые были разработаны в рамках этой работы. Архитектура системы выделяется возможностью к масштабированию – с ростом количества передаваемых для анализа данных можно без существенных затрат увеличивать мощность серверов путем дублирования сервисов на новые сервера. Разработка новых видов сервисов тоже не является трудной задачей – им необходимо подключиться к Kafka и Elasticsearch при помощи передачи конфигурации в существующие интерфейсы для этих компонент и использовать их для получения и хранения данных соответственно. Аналогичным образом масштабируются сервисы анализа данных.
Были изучены существующие методики анализа: готовые решения и теоретические исследования в научных статьях. Из них стало понятно, что текущий анализ показывает общие характеристики – успеваемость слушателей, их распределение. При этом малое внимание уделяется зависимостям между различными данными. С этой целью в главе 4 были представлены методы анализа связи различных характеристик. Было рассмотрено влияние географического местонахождения слушателей курсов, методика продвижения по курсу и методика просмотра видео. Для географического распределения даже в рамках страны удалось заметить различие между успеваемостью в разных регионах. Методика прохождения
курса не имеет сильного влияния на успеваемость слушателей, но при этом
64
существуют разные подходы к построению маршрута прохождения курса и все они могут привести к получению положительных оценок, что несомненно стоит использовать при разработке адаптивной системы онлайн-курсов. Методика просмотра видео в большинстве случаев была одинаковой – слушатели смотрят видео от начала до конца, не пересматривая и не перематывая фрагменты. Это говорит о том, что в действительности на сегодня нет основания полагать, что изменение этого поведения является нормой. Таким образом, если слушателям не нужно смотреть видео целиком или если они их пересматривают несколько раз, необходимо обращать внимание на этот курс или этот контингент.
Важным моментом исследования стало сравнение данных о внешних слушателях и студентов СПбГУ. В этих данных обнаружено сильное различие в их поведении во время просмотра курсов. Такое изменение поведения подтверждает возможные случаи списывания во время проведения промежуточных аттестаций.
Развитие работы будет идти по нескольким направлениям:
1) Расширение слоя обработки данных для использования данных других
платформ;
2) Расширение слоя анализа данных для проведения новых исследований.
Необходимо реализовать составление аналитических срезов и
показателей, рассмотренных в главе 1;
3) Созданиеметодовдляпостроенияперсонализированныхтраекторийдля
слушателей онлайн-курсов по данным об их активности.
1. Understanding Item Analyses | Office of Educational Assessment // University of Washington Home URL: https://www.washington.edu/assessment/scanning- scoring/scoring/reports/item-analysis (дата обращения: 02.06.2020).
2. Matlock-Hetzel S. Basic Concepts in Item and Test Analysis // Annual Meeting of the Southwest Educational Research Association – 1997.
3. GuoP.J.,KimJ.,RubinR.Howvideoproductionaffectsstudentengagement: an empirical study of MOOC videos // Proceedings of the first ACM conference on Learning@ scale conference. – ACM, 2014. – С. 41-50.
4. Optimal Video Length for Student Engagement // edX URL: https://blog.edx.org/optimal-video-length-student-engagement (дата обращения: 02.06.2020).
5. АДАПТИВНОСТЬ: С ЧЕГО НАЧАТЬ И НУЖНО ЛИ? // EDUTAINME
URL: http://www.edutainme.ru/post/adaptive-4/ (дата обращения: 02.06.2020).
6. Breslow, L., Pritchard, D. E., DeBoer, J., Stump, G. S., Ho, A. D., & Seaton, D. T. (2013). Studying learning in the worldwide classroom research into edX’s first MOOC. Research & Practice in Assessment, 8, 13-25.
7. Maldonado-Mahauad, J., Pérez-Sanagustín, M., Kizilcec, R. F., Morales, N., & Munoz-Gama, J. (2018). Mining theory-based patterns from Big data: Identifying self-regulated learning strategies in Massive Open Online Courses. Computers in Human Behavior, 80, 179-196.
8. Открытое образование URL: https://openedu.ru (дата обращения: 02.06.2020).
9. Coursera URL: https://coursera.org (дата обращения 02.06.2020).
10. Student Events // edX Research Guide URL:
https://edx.readthedocs.io/projects/devdata/en/stable/internal_data_formats/t racking_logs.html#student-events (дата обращения: 02.06.2020).
11. Overview of EdX Insights // Using edx Insights URL: https://open-edx- insights.readthedocs.io/en/latest/Overview.html (дата обращения: 02.06.2020).
12. What is the ELK Stack? // elastic URL: https://www.elastic.co/what-is/elk- stack (дата обращения: 02.06.2020).
13. Lightweight shipper for logs // elastic URL: https://www.elastic.co/beats/filebeat (дата обращения: 02.06.2020).
14. Apache Kafka URL: https://kafka.apache.org/ (дата обращения: 02.06.2020).
15. Overview | Maps JavaScript API | Google Developers // Google Maps Platform URL: https://developers.google.com/maps/documentation/javascript/tutorial (дата обращения: 02.06.2020).
16. Visualizing Data: Mapping Earthquakes | Maps JavaScript API // Google Maps Platform URL: https://developers.google.com/maps/documentation/javascript/earthquakes (дата обращения: 02.06.2020).
17. Developer Guide | Geocoding API | Google Developers // Google Maps Platform URL: https://developers.google.com/maps/documentation/geocoding/intro (дата обращения: 02.06.2020).
18. He, Jiazhen, et al. “MOOCs meet measurement theory: a topic-modelling approach.” Thirtieth AAAI Conference on Artificial Intelligence. 2016.
19. Shi, Conglei, et al. “VisMOOC: Visualizing video clickstream data from massive open online courses.” 2015 IEEE Pacific visualization symposium (PacificVis). IEEE, 2015.
20.Орлов А. С., Севрюков С. Ю. Разработка прототипа системы управления Центром развития электронных образовательных ресурсов СПбГУ // Смирнов Н. В. Процессы управления и устойчивость. 2018: СПбГУ, 2018. C. 333-337.
21. Севрюков С. Ю., Сорокина С. О., Орлов А. С. Оценка возможностей современных платформ онлайн образования в контексте анализа данных о поведении учащихся и их адаптивного обучения // Смирнов Н. В. Процессы управления и устойчивость. 2019: СПбГУ, 2019. С. 357 – 363.
22.Rethinking Higher Ed: A Case for Adaptive Learning URL: https://www.forbes.com/sites/ccap/2014/10/22/rethinking-higher-ed-a-case- for-adaptive-learning (дата обращения: 02.06.2020).
23. Адаптивные курсы URL: https://support.stepik.org/hc/ru/articles/360002316314 (дата обращения: 02.06.2020).
24. Адаптивное обучение и персонализация URL: https://edutechclub.sberbank-school.ru/node/5 (дата обращения: 02.06.2020).
25. Mining. Through educational data, enhancing teaching and learning through educational data mining and learning analytics: An issue brief // Proceedings of conference on advanced technology for education. 2012. 64.
26. Zhang X., Zhong S., et al. Entertainment for Education. Changchun: Springer Science & Business Media, 2010. 135.
27. Opening the Black Box of Adaptivity // Educause URL: https://er.educause.edu/blogs/2017/6/opening-the-black-box-of-adaptivity (дата обращения: 02.06.2020).
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!