Разработка протокола передачи данных для системы управления потоками данных
Целью данной магистерской диссертации является формализация протокола, предназначенного для коммуникации компонент базы знаний крупного научного эксперимента и обеспечивающего процесс интеграции гетерогенных данных посредством организации цепочек программ-исполнителей, отвечающих за извлечение данных из внешних хранилищ, их преобразование и загрузку в централизованное хранилище. Реализация базовой сигнальной версии протокола обеспечивает двустороннюю передачу данных между процессами, обрабатывающими большие объемы данных, и управление потоками данных.
Перечень условных обозначений ……………………………………………………………………………………… 13
Введение …………………………………………………………………………………………………………………………. 14
1 Аналитический обзор научной, нормативной и технической документации ……………… 15
1.1 Общие вопросы обработки и анализа больших данных ……………………………………………. 15
1.2 Протоколы передачи данных …………………………………………………………………………………… 16
1.3 Связующее программное обеспечение, ориентированное на обработку сообщений ….. 21
1.4 Выводы по аналитическому разделу ………………………………………………………………………… 22
2 Архитектура системы управления потоками данных………………………………………………… 24
2.1 Организация работы с данными в брокере сообщений Apache Kafka ………………………… 24
2.2 Построение топологий на базе Kafka Streams …………………………………………………………… 26
2.3 Система управления потоками данных MInT MS …………………………………………………….. 28
3 Протокол передачи данных для системы управления потоками данных MInT MS ……. 31
3.1 Спецификация требований к протоколу передачи данных ……………………………………….. 31
3.2 Описание протокола передачи данных …………………………………………………………………….. 32
3.2.1 Определение терминов протокола …………………………………………………………………………… 32
3.2.2 Принятые к реализации соглашения ………………………………………………………………………… 33
3.2.2.1 Механизмы прерывания соединения ……………………………………………………………………… 34
3.2.2.2 Шифрование данных …………………………………………………………………………………………….. 34
3.2.3 Сценарии коммуникации протокола ………………………………………………………………………… 35
3.3 Сигналы протокола передачи данных ………………………………………………………………………. 39
3.4 Обоснование выбора программных средств разработки …………………………………………… 40
3.5 Разработка механизмов чтения пользовательских маркеров в потоковом режиме …….. 41
4 Результаты ……………………………………………………………………………………………………………… 43
4.1 Сравнительный анализ времени обработки сообщений ……………………………………………. 43
4.2 Обсуждение результатов и апробация ……………………………………………………………………… 44
5 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение ………………….. 46
5.1 Предпроектный анализ ……………………………………………………………………………………………. 46
5.1.1 Потенциальные потребители разработки …………………………………………………………………. 46
5.1.2 Технология QuaD ……………………………………………………………………………………………………. 46
5.1.3 SWOT-анализ………………………………………………………………………………………………………….. 47
5.1.4 Оценка готовности разработки к коммерциализации ……………………………………………….. 49
5.2 Инициация разработки ……………………………………………………………………………………………. 50
5.3 Планирование управления разработкой …………………………………………………………………… 52
5.3.1 Иерархическая структура работ ………………………………………………………………………………. 52
5.3.2 План разработки ……………………………………………………………………………………………………… 53
5.3.2.1 Определение трудоемкости выполнения работ ………………………………………………………. 55
5.3.2.2 Разработка графика проведения разработки …………………………………………………………… 56
5.3.3 Бюджет разработки …………………………………………………………………………………………………. 57
5.3.3.1 Расчет материальных затрат разработки ………………………………………………………………… 57
5.3.3.2 Расчет амортизационных отчислений ……………………………………………………………………. 57
5.3.3.3 Основная заработная плата исполнителей темы …………………………………………………….. 59
5.3.3.4 Дополнительная заработная плата исполнителей темы…………………………………………… 60
5.3.3.5 Отчисления во внебюджетные фонды (страховые отчисления ……………………………….. 61
5.3.3.6 Накладные расходы ………………………………………………………………………………………………. 61
5.3.3.7 Формирование бюджета затрат научно-исследовательского разработки …………………. 61
5.3.4 Риски разработки ……………………………………………………………………………………………………. 62
5.4 Определение потенциального эффекта разработки …………………………………………………… 64
6 Социальная ответственность …………………………………………………………………………………… 65
6.1 Правовые и организационные вопросы обеспечения безопасности …………………………… 65
6.1.1 Специальные (характерные для проектируемой рабочей зоны) правовые нормы
трудового законодательства …………………………………………………………………………………………….. 65
6.1.2 Организационные мероприятия при компоновке рабочей зоны ………………………………… 66
6.2 Профессиональная социальная безопасность …………………………………………………………… 68
6.2.1 Анализ вредных и опасных факторов, которые может создать объект исследования … 69
6.2.2 Анализ вредных и опасных факторов, которые могут возникнуть на рабочем месте …. 69
6.2.2.1 Отклонение показателей микроклимата …………………………………………………………………. 69
6.2.2.2 Превышение уровня шума …………………………………………………………………………………….. 70
6.2.2.3 Отсутствие или недостаток естественного света…………………………………………………….. 71
6.2.2.4 Недостаточная освещенность рабочей зоны …………………………………………………………… 73
6.2.2.5 Повышенное значение напряжения в электрической цепи ……………………………………… 73
6.2.2.6 Умственное перенапряжение…………………………………………………………………………………. 74
6.2.3 Обоснование мероприятий по защите исследователя от действия опасных и вредных
факторов …………………………………………………………………………………………………………………………. 75
6.3 Экологическая безопасность ……………………………………………………………………………………. 76
6.3.1 Анализ влияния объекта исследования на окружающую среду…………………………………. 76
6.3.2 Анализ влияния процесса исследования на окружающую среду ………………………………. 77
6.3.3 Обоснование мероприятий по защите окружающей среды ……………………………………….. 77
6.4 Безопасность в чрезвычайных ситуациях …………………………………………………………………. 78
6.4.1 Анализ вероятных ЧС, которые может инициировать объект исследований ……………… 78
6.4.2 Анализ вероятных ЧС, которые могут возникнуть на рабочем месте при проведении
исследований…………………………………………………………………………………………………………………… 78
6.4.3 Обоснование мероприятий по предотвращению ЧС и разработка порядка действий в
случае возникновения ЧС ………………………………………………………………………………………………… 78
Список используемых источников …………………………………………………………………………………… 85
Приложение А…………………………………………………………………………………………………………………. 88
Приложение Б …………………………………………………………………………………………………………….. 101
Современные научные эксперименты класса «мегасайенс», в т.ч. на
уникальных научных установках – это крупные дорогостоящие международные
проекты, сопряженные с вопросами сбора, обработки и хранения сверхбольших
объемов данных. Одной из таких уникальных научных установок является
Большой адронный коллайдер (БАК) и установленные на нем детекторы –
ATLAS, ALICE, LHCb, CMS и т.д. Эксперимент ATLAS – A Toroidal LHC
ApparatuS, – проводимый на одноименном детекторе, является крупнейшим
экспериментом Европейской организации по ядерным исследованиям (CERN) и
одним из лидирующих современных научных экспериментов по уровню
интенсивности обработки данных в мире.
Решение задачи упрощения поиска и автоматизации процессов сбора,
обработки и хранения метаданных для гетерогенных вычислительных
инфраструктур требуют новых подходов, акцентирующих внимание на работе со
сверхбольшими массивами данных. В рамках научной коллаборации ТПУ и
НИЦ «Курчатовский институт» для решения поставленной задачи было принято
решение о создании единой Базы Научных Знаний (DKB) научного
эксперимента ATLAS.
Неотъемлемой частью DKB является система интеграции метаданных,
отвечающая за извлечение, преобразование и загрузку данных, а также за
управление потоками данных в системе.
Целью данной магистерской диссертации является разработка протокола
коммуникации для внутренней системы управления потоками данных DKB.
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!