Методология подготовки исходных данных для модели машинного обучения в нефтегазовой области
Данная работа посвящена разработке методологии обработки исходных данных, полученных с нефтегазового месторождения, для построения прогнозных моделей. Основными задачами при разработке методологии являются проведение разведочного и регрессионного анализа. Для проведение анализа необходимо было построить модели машинного обучения. В результате работы был проведен регрессионный анализ, который позволяет выделить наиболее важные атрибуты для нефтедобычи. Практическое применение результатов работы может быть использовано для эффективной нефтедобычи.
Планируемые результаты обучения ………………………………………………………………………………………… 8
Реферат………………………………………………………………………………………………………………………………….. 9
Перечень условных обозначений и терминов…………………………………………………………………………13
Введение ………………………………………………………………………………………………………………………………15
1. Обзор предметной области …………………………………………………………………………………………….16
1.1. Области применения технологий Big Data в нефтяном инжиниринге ……………………………16
1.2. Проблема, цель ………………………………………………………………………………………………………….18
1.3. Опыт по использованию технологий Big Data в нефтегазовой отрасли ………………………….19
1.4. Преимущества и недостатки разработки методологии ……………………………………………………..21
1.5. Вывод по разделу ……………………………………………………………………………………………………………22
2. Разведочный анализ данных …………………………………………………………………………………………..23
2.1. Выбор инструментов разработки…………………………………………………………………………………23
2.2. Очистка исходных данных …………………………………………………………………………………………..24
2.3. Определение выбросов и ошибок данных …………………………………………………………………..29
2.4. Кодирование категориальных признаков …………………………………………………………………….31
2.5. Восстановление пропущенных значений ……………………………………………………………………..32
2.6. Проверка на мультиколлинеарность ……………………………………………………………………………35
2.7. Вывод по разделу ……………………………………………………………………………………………………….36
3. Регрессионный анализ ……………………………………………………………………………………………………37
3.1. Выбор целевой функции ……………………………………………………………………………………………..37
3.2. Создание и тренировка линейного и полиномиального регрессоров ……………………………39
3.3. Построение и тренировка регрессора методом случайного леса ………………………………….42
3.4. Вывод по разделу ……………………………………………………………………………………………………….45
4. Финансовый менеджмент, ресурсоэффективность и ресурсосбережение ………………………..46
4.1. Предпроектный анализ ……………………………………………………………………………………………….46
4.1.1. Потенциальные потребители разработки…………………………………………………………………46
4.1.2. Технология QuaD …………………………………………………………………………………………………….47
4.1.3. SWOT-анализ …………………………………………………………………………………………………………..48
4.1.4. Оценка готовности разработки к коммерциализации ……………………………………………….49
4.2. Инициация разработки ……………………………………………………………………………………………………51
4.3. Планирование управления разработкой ………………………………………………………………………….52
4.3.1. Иерархическая структура работ …………………………………………………………………………………….52
4.3.2. План разработки ……………………………………………………………………………………………………..53
4.3.2.1. Продолжительность этапов работ ………………………………………………………………………..54
4.3.2.2. Разработка графика проведения разработки ………………………………………………………..56
4.3.3. Бюджет разработки …………………………………………………………………………………………………56
4.3.3.1. Расчет материальных затрат разработки …………………………………………………………………….56
4.3.3.2. Расчет амортизационных отчислений …………………………………………………………………………57
4.3.3. Основная заработная плата исполнителей темы ……………………………………………………………58
4.3.3.4. Дополнительная заработная плата исполнителей темы ………………………………………………59
4.3.3.5. Отчисления во внебюджетные фонды (страховые отчисления) ……………………………………59
4.3.3.6. Накладные расходы …………………………………………………………………………………………………..60
4.3.3.7. Формирование бюджета затрат научно-исследовательского разработки …………………….60
4.3.4. Риски разработки…………………………………………………………………………………………………….60
4.4. Определение потенциального эффекта разработки……………………………………………………..62
4.5. Выводы по разделу …………………………………………………………………………………………………….63
5. Социальная ответственность …………………………………………………………………………………………..64
5.1. Правовые и организационные вопросы обеспечения безопасности……………………………..64
5.1.1. Специальные (характерные для проектируемой рабочей зоны) правовые норма
трудового законодательства. …………………………………………………………………………………………………64
5.1.2. Организационные мероприятия при компоновке рабочей зоны ………………………………65
5.2. Профессиональная социальная безопасность………………………………………………………………67
5.2.1. Анализ вредных и опасных факторов, которые может создать объект исследования. .68
5.2.2. Анализ вредных и опасных факторов, которые могут возникнуть на рабочем месте. …68
5.2.2.1. Отклонение показателей микроклимата. ……………………………………………………………..68
5.2.2.2. Превышение уровня шума …………………………………………………………………………………..69
5.2.2.3. Расчет искусственного освещения. ……………………………………………………………………….70
5.2.2.4. Умственное перенапряжение ………………………………………………………………………………73
5.2.3. Обоснование мероприятий по защите исследователя от действия опасных и вредных
факторов ……………………………………………………………………………………………………………………………….74
5.3. Экологическая безопасность ……………………………………………………………………………………….75
5.3.1. Анализ влияния объекта исследования на окружающую среду…………………………………75
5.3.2. Анализ влияния процесса исследования на окружающую среду……………………………….75
5.3.3. Обоснование мероприятий по защите окружающей среды ………………………………………76
5.4. Безопасность в чрезвычайных ситуациях……………………………………………………………………..76
5.4.1. Анализ вероятных ЧС, которые может инициировать объект исследований ……………..76
5.4.2. Анализ вероятных ЧС, которые могут возникнуть на рабочем месте при проведении
исследований………………………………………………………………………………………………………………………..77
5.4.3. Обоснование мероприятий по предотвращению ЧС и разработка порядка действий в
случае возникновения ЧС ………………………………………………………………………………………………………77
5.5. Вывод по главе …………………………………………………………………………………………………………..79
Заключение …………………………………………………………………………………………………………………………..80
Список публикаций и научных достижений ……………………………………………………………………………81
Список используемых источников ………………………………………………………………………………………….83
Приложение 1 (рус.яз) …………………………………………………………………………………………………………..86
Приложение 2 ……………………………………………………………………………………………………………………….98
Приложение 3 ……………………………………………………………………………………………………………………..103
Приложение 4 ……………………………………………………………………………………………………………………..105
Перечень условных обозначений и терминов
Big Data («большие данные») – обозначение структурированных и
неструктурированных данных огромных объёмов и значительного
многообразия, эффективно обрабатываемых горизонтально
масштабируемыми программными инструментами.
Автомобильная заправочная станция – АЗС
Бассейновое моделирование – это динамический анализ, в основе
которого лежит численное моделирование геологических процессов,
протекающих в осадочных бассейнах.
Фонд скважин — число и классификация по состоянию и назначению
всех пробуренных скважин (на месторождении, газовом промысле или
подземном хранилище газа). В этот фонд входят все разведочные,
эксплуатационные, наблюдательные и специальные скважины.
Геолого-технические мероприятия – ГТМ
Пласт – слой почвы, осадочной или магматической породы, который
сформировался на поверхности Земли и имеет внутреннюю структуру,
которая отличается от других слоёв, лежащих непосредственно над ними и
лежащих под ними по цвету, текстуре, материалу.
Электроцентробежный насос – ЭЦН
Выброс (англ. outlier) – в статистике результат измерения,
выделяющийся из общей выборки.
Обводнённость скважины – содержание воды в продукции скважины,
определяемое как отношение дебита воды к сумме дебитов нефти и воды.
Дебит – объём жидкости (воды, нефти) или газа, стабильно
поступающий из некоторого естественного или искусственного источника в
единицу времени.
Диаметр насосно-компрессорных труб – диаметр НКТ
CSV (от англ. Comma-Separated Values – значения, разделённые
запятыми) – текстовый формат, предназначенный для представления
табличных данных. Строка таблицы соответствует строке текста, которая
содержит одно или несколько полей, разделенных запятыми.
Попутный газ – газ, растворенный в нефти.
Газовая шапка – скопление свободного газа в наиболее приподнятой
части нефтяного пласта, над нефтяной залежью.
Фонтанный способ добычи нефти – ФОН
KNN (k-nearest algorithm imputation) – алгоритм поиска ближайшего
соседа для восстановления пропущенных значений.
Training samples – тренировочная выборка
Testing samples – тестовая выборка
Нормальное распределение, также называемое распределением Гаусса
или Гаусса – Лапласа – распределение вероятностей, которое в одномерном
случае задаётся функцией плотности вероятности, совпадающей с функцией
Гаусса.
Нефтегазовые компании в процессе своей деятельности получают
петабайты данных каждый день, использование больших данных открывает
возможности анализа и предсказания развития трендов в области геологии,
инженерии, производства и наилучшего способа использования
оборудования для достижения наиболее оптимальных результатов работы на
всех стадиях своей деятельности.
Нефтяные и газовые компании не смогут воспользоваться
конкурентным преимуществом технологий Big Data, если не начнут более
эффективно управлять своими данными. К такому выводу в своем новом
докладе пришла нефтегазовая консалтинговая компания Molten. По мнению
ее экспертов, многие нефтегазовые предприятия «безответственно»
распоряжаются своими данными, несмотря на то, что тратят миллиарды
долларов в год на их сбор. По подсчетам Molten, крупные нефтегазовые
компании тратят от $1 до $3 млрд в год на сбор данных, однако расходы на
поддержание и обработку накопленной информации зачастую составляют
менее 1% от этой суммы. В то же время от компаний требуется принимать
оперативные решения и поддерживать высокий уровень производительности.
Как следствие, руководство должно полагаться на большие объемы данных,
чтобы принимать критические решения. Сфера применения технологии Big
Data в нефтегазовой отрасли очень обширна, и включает весь спектр, от
геологоразведки и разработки до переработки углеводородного сырья [1].
Целью данной магистерской диссертации является разработка
В результате выполнения магистерской диссертации были выполнены
следующие задачи:
1. Устранение ошибок и восстановление пропущенных значений с
помощью алгоритма поиска ближайшего соседа (k-nearest algorithm
imputation).
2. Построение корреляционной матрицы для исключения линейной
зависимости между атрибутами
3. Определение целевой функции для построения модели
машинного обучения
4. Проведение регрессионного анализа
5. Выделение признаков по важности
В результате проведения разведочного и регрессионного анализа
можно сделать вывод о том, что на предсказание о количестве добываемой
нефти в рассматриваемом исследовании значительно влияют лишь 10
параметров (в начале исследования их было порядка 100 единиц).
В ходе работы был получен опыт работы с такими языками
программирования как Python и R, средами разработки Jupyter Notebook и R
Studio, а также были использованы следующие инструменты и библиотеки:
pandas, numpy, seaborn и несколько библиотек из среды разработки R Studio.
Список публикаций и научных достижений
Участие в конференциях:
1. ХVl Международная научно-практическая конференция студентов,
аспирантов и молодых ученых «Молодёжь и современные и
информационные технологии» с докладами:
Анализ социальных данных с помощью технологий Big Data
Проектирование виртуального полигона для беспилотного автомобиля
Разработка виртуального полигона для беспилотного автомобиля
2. VI Международная научная конференция «Информационные
технологии в науке, управлении, социальной сфере и медицине» с докладом:
Подготовка исходных данных для углубленного анализа нефтегазового
месторождения
Премии, звания, стипендии:
1. Повышенная государственная стипендия по научно-исследовательской
деятельности, осень 2019/2020 учебного года, весна 2019/2020 учебного года.
2. Стипендия Президента РФ (или Правительства РФ) студентам ТПУ,
обучающимся по специальностям или направлениям подготовки,
соответствующим приоритетным направлениям модернизации и
технологического развития российской экономики, осень, осень 2019/2020
учебного года.
Публикации:
1. Журбич Н. И. Подготовка исходных данных для углубленного анализа
нефтегазового месторождения // Информационные технологии в науке,
управлении, социальной сфере и медицине: cборник научных трудов VI
Международной научной конференции, Томск, 14-19 Октября 2019. – Томск:
ТПУ, 2019 – C. 13-19
2. Журбич Н. И. Проектирование виртуального полигона в Unity3D //
Информационные технологии в науке, управлении, социальной сфере и
медицине: сборник научных трудов V Международной конференции: в 2 т.,
Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 249-251.
3. Журбич Н. И. Проектирование виртуального полигона для
беспилотного автомобиля // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 427-428.
4. Журбич Н. И., Фофанов О. Б. Разработка виртуального полигона для
беспилотного автомобиля // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 429-430.
5. Журбич Н. И., Зяблецев П. А. Анализ данных с помощью технологий
Big Data // Информационные технологии в науке, управлении, социальной
сфере и медицине: сборник научных трудов V Международной конференции:
в 2 т., Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 255-257.
6. Журбич Н. И., Зяблецев П. А. Анализ социальных данных с помощью
технологий Big Data // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 148-149.
7. Журбич Н. И., Зяблецев П. А. Разработка виртуального полигона в
Unity 3D // Информационные технологии в науке, управлении, социальной
сфере и медицине: сборник научных трудов V Международной конференции:
в 2 т., Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 252-255
8. Зяблецев П. А., Журбич Н. И. Выявление факторов риска острого
инфаркта миокарда с помощью OLAP технологии // Информационные
технологии в науке, управлении, социальной сфере и медицине: сборник
научных трудов V Международной конференции: в 2 т., Томск, 17-21
Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 267-270.
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!