Исследование методов машинного обучения без учителя для анализа задач в больших вычислительных сетях

Шкабара, Анастасия Игоревна Отделение информационных технологий (ОИТ)
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Целью магистерской диссертации является обоснование выбора метода кластеризации данных для поиска закономерностей и аномалий на основе проведенного сравнительного анализа методов кластеризации исходных данных. Найденные закономерности и аномалии могут повлиять на время выполнения задач на вычислительных узлах распределенной системы Большого Адронного Коллайдера (ЦЕРН). Метод кластеризации данных для поиска закономерностей и аномалий позволит предсказывать длительность обработки цепочек заданий в больших вычислительных сетях.

Введение …………………………………………………………………………………………………………. 14

Глава 1 Аналитический обзор предметной области ………………………………………….. 16

1.1 Особенности распределенных вычислений в WLCG ……………………………… 16

1.2 Предсказание длительности выполнения задач по данным с БАК …………. 18

1.3 Обзор подходов к кластерному анализу в научной литературе ………………. 19

1.4 Классификация методов кластеризации. ……………………………………………….. 22

1.5 Методы кластеризации ………………………………………………………………………… 25

1.5.1 Метод k-средних ………………………………………………………………………… 25

1.5.2 Алгоритмы иерархической кластеризации ………………………………….. 27

1.5.3 Метод кластеризации на основе плотности DBSCAN ………………….. 28

1.6 Очистка данных ……………………………………………………………………………………. 29

1.7 Снижение размерности. ………………………………………………………………………… 32

1.7.1 Метод главных компонент (PCA) ……………………………………………….. 33

1.7.2 Стохастическое вложение соседей с t-распределением (T-SNE)…… 35

Глава 2. Применение подходов кластерного анализа к предметной области ……… 36

3.1 Описание входных данных …………………………………………………………………… 36

3.2 Подготовка данных ………………………………………………………………………………. 39

3.3 Снижение размерности признакового пространства………………………………. 44

Глава 3. Результаты исследования……………………………………………………………………. 47

3.1 K-means………………………………………………………………………………………………… 47

3.2 Иерархическая кластеризация ………………………………………………………………. 48

3.3 DBSCAN ………………………………………………………………………………………………. 51
Заключение……………………………………………………………………………………………………… 54

Глава 4. Финансовый менеджмент, ресурсоэффективность и ресурсосбережение
……………………………………………………………………………………………………………………….. 56

4.1.1Технология QuaD ………………………………………………………………………… 57

5.1.2 Оценка готовности проекта к коммерциализации ………………………… 58

1.2 Инициация проекта ………………………………………………………………………………. 59

5.2.1 Цели и результаты проекта …………………………………………………………. 59

5.2.2 Организация и планирование работы ………………………………………….. 61

5.3 Планирование управления научно-техническим исследованием ……………. 62

5.3.1 План исследования ……………………………………………………………………… 62

5.3.2 Определение трудоемкости выполнения работ ……………………………. 63

5.3.3 Разработка графика проведения НТИ ………………………………………….. 64

5.4 Бюджет НТИ ………………………………………………………………………………………… 65

5.4.1 Амортизационные отчисления ……………………………………………………. 66

5.4.2 Основная заработная плата исполнителей …………………………………… 66

5.4.3 Дополнительная заработная плата исполнителей ………………………… 68

5.4.4 Отчисления во внебюджетные фонды (страховые отчисления) ……. 68

5.4.5 Накладные расходы ……………………………………………………………………. 69

5.4.6 Формирование бюджета затрат НТИ …………………………………………… 69

5.5 Риски проекта ………………………………………………………………………………………. 71

5.6 Определение интегрального показателя ресурсоэффективности ……………. 71

Глава 5. Социальная ответственность ………………………………………………………………. 74

5.1 Правовые и организационные вопросы обеспечения безопасности………… 75

5.1.1 Организационные мероприятия при компоновке рабочей зоны …… 75
5.1.2 Особенности законодательного регулирования проектных решений
………………………………………………………………………………………………………………… 76

5.2 Профессиональная социальная ответственность …………………………………… 77

5.2.1 Повышенный уровень электромагнитных излучений ………………….. 78

5.2.2 Отклонение показателей микроклимата ………………………………………. 79

5.2.3 Недостаточная освещённость рабочей зоны ………………………………… 82

5.2.4 Повышенный уровень шума на рабочем месте ……………………………. 84

5.2.5 Электробезопасность ………………………………………………………………….. 85

5.3 Экологическая безопасность …………………………………………………………………. 87

5.3.1 Загрязнение атмосферного воздуха …………………………………………….. 87

5.3.2 Отходы ………………………………………………………………………………………. 88

5.4 Безопасность в чрезвычайных ситуациях ……………………………………………… 88

5.4.1 Пожарная профилактика …………………………………………………………….. 88

5.4.2 Оценка пожарной безопасности помещения………………………………… 88

5.4.3 Анализ возможных причин загорания …………………………………………. 90

5.4.4 Мероприятия по устранению и предупреждению пожаров ………….. 90

Список используемых источников …………………………………………………………………… 92

Список публикаций и основных научных достижений …………………………………….. 97

Приложение А…………………………………………………………………………………………………. 98

1 Subject area overview ……………………………………………………………………………….. 99

2 System design …………………………………………………………………………………………. 102

2.1 Cluster analysis …………………………………………………………………………….. 102

2.2 Classification of clustering methods ………………………………………………… 103

2.3 Clustering Methods ……………………………………………………………………….. 104

2.4 Data cleaning ………………………………………………………………………………… 105
Приложение Б ……………………………………………………………………………………………….. 108

В современном мире одним из наиболее актуальных видов физических
исследований являются эксперименты по физике высоких энергий, вносящие
неоспоримый вклад в фундаментальную науку. В результате таких исследований
образуются огромное число данных, которые фиксируются детекторами
ускорителя заряженных частиц. Обработка такого объема данных требует
больших вычислительных мощностей, поэтому и создаются распределенные
системы обработки данных, в которые входят большое количество
суперкомпьютеров. Однако использование такого оборудования обходится
дорого, поэтому необходима организация рационального планирования обработки
данных, во избежание простоя оборудования и неравномерного распределения
задач по обработки, среди суперкомпьютеров системы обработки данных.
Очевидно, что определение времени обработки данных являются ключевой
задачей для организации системы планирования. Решением такой задачи является
система, способная предсказывать время обработки данных.
Данное исследование является частью работы по предсказыванию
длительности выполнения заданий в большой вычислительной сети Большого
Адронного Коллайдера. Было высказано предположение, что есть
закономерности, которые влияют на выполнение задач и время их окончания.
Предполагается, что предварительный кластерный анализ этих задач поможет
предсказывать длительность обработки точнее.
Цель данной работы – поиск закономерностей, влияющих на предсказание
длительности выполнения задач в цепочках с помощью предварительной
кластеризации.
Из этой цели вытекают следующие задачи:
1. Исследование методов кластеризации многомерных данных без
учителя.
2. Реализация алгоритмов снижения размерности и кластеризации
3. Сравнение и выбор наиболее оптимального метода для данного
набора данных
Данная работа является актуальной, потому что ученым важно знать, будет
ли задача выполнена завтра или через год, чтобы планировать эксперименты.
Часто задача состоит из более чем 1000 заданий и если какие-то события
вызывают ошибки, то одно необработанное задание приводит к тому, что вся
задача считается необработанным.
Важно уметь предсказывать данные аномалии и устранять ошибки. Одним
из этапов данной работы является кластеризация заданий.
Научная Новизна исследования заключается в том, что применение
алгоритмов кластеризации к журналам WLCG ранее не делалось. Были попытки
применить алгоритмы машинного обучения, но с учителем, а в данном случае
необходимо предсказывать тип, к которому может относиться задание заранее.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Мария Б. преподаватель, кандидат наук
    5 (22 отзыва)
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальнос... Читать все
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальности "Экономика и управление народным хозяйством". Автор научных статей.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Александр Р. ВоГТУ 2003, Экономический, преподаватель, кандидат наук
    4.5 (80 отзывов)
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфин... Читать все
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфинансы (Казначейство). Работаю в финансовой сфере более 10 лет. Банки,риски
    #Кандидатские #Магистерские
    123 Выполненных работы
    Яна К. ТюмГУ 2004, ГМУ, выпускник
    5 (8 отзывов)
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соот... Читать все
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соответствии с Вашими требованиями.
    #Кандидатские #Магистерские
    12 Выполненных работ
    Андрей С. Тверской государственный университет 2011, математический...
    4.7 (82 отзыва)
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на... Читать все
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на продолжение диссертационной работы... Всегда готов помочь! ;)
    #Кандидатские #Магистерские
    164 Выполненных работы
    Мария М. УГНТУ 2017, ТФ, преподаватель
    5 (14 отзывов)
    Имею 3 высших образования в сфере Экологии и техносферной безопасности (бакалавриат, магистратура, аспирантура), работаю на кафедре экологии одного из опорных ВУЗов РФ... Читать все
    Имею 3 высших образования в сфере Экологии и техносферной безопасности (бакалавриат, магистратура, аспирантура), работаю на кафедре экологии одного из опорных ВУЗов РФ. Большой опыт в написании курсовых, дипломов, диссертаций.
    #Кандидатские #Магистерские
    27 Выполненных работ
    Елена С. Таганрогский институт управления и экономики Таганрогский...
    4.4 (93 отзыва)
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на напис... Читать все
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на написании курсовых и дипломных работ, а также диссертационных исследований.
    #Кандидатские #Магистерские
    158 Выполненных работ
    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Ольга Р. доктор, профессор
    4.2 (13 отзывов)
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласован... Читать все
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласованные сроки и при необходимости дорабатываются по рекомендациям научного руководителя (преподавателя). Буду рада плодотворному и взаимовыгодному сотрудничеству!!! К каждой работе подхожу индивидуально! Всегда готова по любому вопросу договориться с заказчиком! Все работы проверяю на антиплагиат.ру по умолчанию, если в заказе не стоит иное и если это заранее не обговорено!!!
    #Кандидатские #Магистерские
    21 Выполненная работа

    Другие учебные работы по предмету

    Интеллектуальный анализ текстовых данных с rnприменением методов машинного обучения
    📅 2019год
    🏢 Национальный исследовательский Томский политехнический университет (ТПУ)