Методология подготовки исходных данных для модели машинного обучения в нефтегазовой области

Журбич, Никита Игоревич Отделение информационных технологий (ОИТ)
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Данная работа посвящена разработке методологии обработки исходных данных, полученных с нефтегазового месторождения, для построения прогнозных моделей. Основными задачами при разработке методологии являются проведение разведочного и регрессионного анализа. Для проведение анализа необходимо было построить модели машинного обучения. В результате работы был проведен регрессионный анализ, который позволяет выделить наиболее важные атрибуты для нефтедобычи. Практическое применение результатов работы может быть использовано для эффективной нефтедобычи.

Планируемые результаты обучения ………………………………………………………………………………………… 8
Реферат………………………………………………………………………………………………………………………………….. 9
Перечень условных обозначений и терминов…………………………………………………………………………13
Введение ………………………………………………………………………………………………………………………………15
1. Обзор предметной области …………………………………………………………………………………………….16
1.1. Области применения технологий Big Data в нефтяном инжиниринге ……………………………16
1.2. Проблема, цель ………………………………………………………………………………………………………….18
1.3. Опыт по использованию технологий Big Data в нефтегазовой отрасли ………………………….19
1.4. Преимущества и недостатки разработки методологии ……………………………………………………..21
1.5. Вывод по разделу ……………………………………………………………………………………………………………22
2. Разведочный анализ данных …………………………………………………………………………………………..23
2.1. Выбор инструментов разработки…………………………………………………………………………………23
2.2. Очистка исходных данных …………………………………………………………………………………………..24
2.3. Определение выбросов и ошибок данных …………………………………………………………………..29
2.4. Кодирование категориальных признаков …………………………………………………………………….31
2.5. Восстановление пропущенных значений ……………………………………………………………………..32
2.6. Проверка на мультиколлинеарность ……………………………………………………………………………35
2.7. Вывод по разделу ……………………………………………………………………………………………………….36
3. Регрессионный анализ ……………………………………………………………………………………………………37
3.1. Выбор целевой функции ……………………………………………………………………………………………..37
3.2. Создание и тренировка линейного и полиномиального регрессоров ……………………………39
3.3. Построение и тренировка регрессора методом случайного леса ………………………………….42
3.4. Вывод по разделу ……………………………………………………………………………………………………….45
4. Финансовый менеджмент, ресурсоэффективность и ресурсосбережение ………………………..46
4.1. Предпроектный анализ ……………………………………………………………………………………………….46
4.1.1. Потенциальные потребители разработки…………………………………………………………………46
4.1.2. Технология QuaD …………………………………………………………………………………………………….47
4.1.3. SWOT-анализ …………………………………………………………………………………………………………..48
4.1.4. Оценка готовности разработки к коммерциализации ……………………………………………….49
4.2. Инициация разработки ……………………………………………………………………………………………………51
4.3. Планирование управления разработкой ………………………………………………………………………….52
4.3.1. Иерархическая структура работ …………………………………………………………………………………….52
4.3.2. План разработки ……………………………………………………………………………………………………..53
4.3.2.1. Продолжительность этапов работ ………………………………………………………………………..54
4.3.2.2. Разработка графика проведения разработки ………………………………………………………..56
4.3.3. Бюджет разработки …………………………………………………………………………………………………56
4.3.3.1. Расчет материальных затрат разработки …………………………………………………………………….56
4.3.3.2. Расчет амортизационных отчислений …………………………………………………………………………57
4.3.3. Основная заработная плата исполнителей темы ……………………………………………………………58
4.3.3.4. Дополнительная заработная плата исполнителей темы ………………………………………………59
4.3.3.5. Отчисления во внебюджетные фонды (страховые отчисления) ……………………………………59
4.3.3.6. Накладные расходы …………………………………………………………………………………………………..60
4.3.3.7. Формирование бюджета затрат научно-исследовательского разработки …………………….60
4.3.4. Риски разработки…………………………………………………………………………………………………….60
4.4. Определение потенциального эффекта разработки……………………………………………………..62
4.5. Выводы по разделу …………………………………………………………………………………………………….63
5. Социальная ответственность …………………………………………………………………………………………..64
5.1. Правовые и организационные вопросы обеспечения безопасности……………………………..64
5.1.1. Специальные (характерные для проектируемой рабочей зоны) правовые норма
трудового законодательства. …………………………………………………………………………………………………64
5.1.2. Организационные мероприятия при компоновке рабочей зоны ………………………………65
5.2. Профессиональная социальная безопасность………………………………………………………………67
5.2.1. Анализ вредных и опасных факторов, которые может создать объект исследования. .68
5.2.2. Анализ вредных и опасных факторов, которые могут возникнуть на рабочем месте. …68
5.2.2.1. Отклонение показателей микроклимата. ……………………………………………………………..68
5.2.2.2. Превышение уровня шума …………………………………………………………………………………..69
5.2.2.3. Расчет искусственного освещения. ……………………………………………………………………….70
5.2.2.4. Умственное перенапряжение ………………………………………………………………………………73
5.2.3. Обоснование мероприятий по защите исследователя от действия опасных и вредных
факторов ……………………………………………………………………………………………………………………………….74
5.3. Экологическая безопасность ……………………………………………………………………………………….75
5.3.1. Анализ влияния объекта исследования на окружающую среду…………………………………75
5.3.2. Анализ влияния процесса исследования на окружающую среду……………………………….75
5.3.3. Обоснование мероприятий по защите окружающей среды ………………………………………76
5.4. Безопасность в чрезвычайных ситуациях……………………………………………………………………..76
5.4.1. Анализ вероятных ЧС, которые может инициировать объект исследований ……………..76
5.4.2. Анализ вероятных ЧС, которые могут возникнуть на рабочем месте при проведении
исследований………………………………………………………………………………………………………………………..77
5.4.3. Обоснование мероприятий по предотвращению ЧС и разработка порядка действий в
случае возникновения ЧС ………………………………………………………………………………………………………77
5.5. Вывод по главе …………………………………………………………………………………………………………..79
Заключение …………………………………………………………………………………………………………………………..80
Список публикаций и научных достижений ……………………………………………………………………………81
Список используемых источников ………………………………………………………………………………………….83
Приложение 1 (рус.яз) …………………………………………………………………………………………………………..86
Приложение 2 ……………………………………………………………………………………………………………………….98
Приложение 3 ……………………………………………………………………………………………………………………..103
Приложение 4 ……………………………………………………………………………………………………………………..105
Перечень условных обозначений и терминов
 Big Data («большие данные») – обозначение структурированных и
неструктурированных данных огромных объёмов и значительного
многообразия, эффективно обрабатываемых горизонтально
масштабируемыми программными инструментами.
 Автомобильная заправочная станция – АЗС
 Бассейновое моделирование – это динамический анализ, в основе
которого лежит численное моделирование геологических процессов,
протекающих в осадочных бассейнах.
 Фонд скважин — число и классификация по состоянию и назначению
всех пробуренных скважин (на месторождении, газовом промысле или
подземном хранилище газа). В этот фонд входят все разведочные,
эксплуатационные, наблюдательные и специальные скважины.
 Геолого-технические мероприятия – ГТМ
 Пласт – слой почвы, осадочной или магматической породы, который
сформировался на поверхности Земли и имеет внутреннюю структуру,
которая отличается от других слоёв, лежащих непосредственно над ними и
лежащих под ними по цвету, текстуре, материалу.
 Электроцентробежный насос – ЭЦН
 Выброс (англ. outlier) – в статистике результат измерения,
выделяющийся из общей выборки.
 Обводнённость скважины – содержание воды в продукции скважины,
определяемое как отношение дебита воды к сумме дебитов нефти и воды.
 Дебит – объём жидкости (воды, нефти) или газа, стабильно
поступающий из некоторого естественного или искусственного источника в
единицу времени.
 Диаметр насосно-компрессорных труб – диаметр НКТ
 CSV (от англ. Comma-Separated Values – значения, разделённые
запятыми) – текстовый формат, предназначенный для представления
табличных данных. Строка таблицы соответствует строке текста, которая
содержит одно или несколько полей, разделенных запятыми.
 Попутный газ – газ, растворенный в нефти.
 Газовая шапка – скопление свободного газа в наиболее приподнятой
части нефтяного пласта, над нефтяной залежью.
 Фонтанный способ добычи нефти – ФОН
 KNN (k-nearest algorithm imputation) – алгоритм поиска ближайшего
соседа для восстановления пропущенных значений.
 Training samples – тренировочная выборка
 Testing samples – тестовая выборка
 Нормальное распределение, также называемое распределением Гаусса
или Гаусса – Лапласа – распределение вероятностей, которое в одномерном
случае задаётся функцией плотности вероятности, совпадающей с функцией
Гаусса.

Нефтегазовые компании в процессе своей деятельности получают
петабайты данных каждый день, использование больших данных открывает
возможности анализа и предсказания развития трендов в области геологии,
инженерии, производства и наилучшего способа использования
оборудования для достижения наиболее оптимальных результатов работы на
всех стадиях своей деятельности.
Нефтяные и газовые компании не смогут воспользоваться
конкурентным преимуществом технологий Big Data, если не начнут более
эффективно управлять своими данными. К такому выводу в своем новом
докладе пришла нефтегазовая консалтинговая компания Molten. По мнению
ее экспертов, многие нефтегазовые предприятия «безответственно»
распоряжаются своими данными, несмотря на то, что тратят миллиарды
долларов в год на их сбор. По подсчетам Molten, крупные нефтегазовые
компании тратят от $1 до $3 млрд в год на сбор данных, однако расходы на
поддержание и обработку накопленной информации зачастую составляют
менее 1% от этой суммы. В то же время от компаний требуется принимать
оперативные решения и поддерживать высокий уровень производительности.
Как следствие, руководство должно полагаться на большие объемы данных,
чтобы принимать критические решения. Сфера применения технологии Big
Data в нефтегазовой отрасли очень обширна, и включает весь спектр, от
геологоразведки и разработки до переработки углеводородного сырья [1].
Целью данной магистерской диссертации является разработка

В результате выполнения магистерской диссертации были выполнены
следующие задачи:
1. Устранение ошибок и восстановление пропущенных значений с
помощью алгоритма поиска ближайшего соседа (k-nearest algorithm
imputation).
2. Построение корреляционной матрицы для исключения линейной
зависимости между атрибутами
3. Определение целевой функции для построения модели
машинного обучения
4. Проведение регрессионного анализа
5. Выделение признаков по важности
В результате проведения разведочного и регрессионного анализа
можно сделать вывод о том, что на предсказание о количестве добываемой
нефти в рассматриваемом исследовании значительно влияют лишь 10
параметров (в начале исследования их было порядка 100 единиц).
В ходе работы был получен опыт работы с такими языками
программирования как Python и R, средами разработки Jupyter Notebook и R
Studio, а также были использованы следующие инструменты и библиотеки:
pandas, numpy, seaborn и несколько библиотек из среды разработки R Studio.
Список публикаций и научных достижений
Участие в конференциях:
1. ХVl Международная научно-практическая конференция студентов,
аспирантов и молодых ученых «Молодёжь и современные и
информационные технологии» с докладами:
 Анализ социальных данных с помощью технологий Big Data
 Проектирование виртуального полигона для беспилотного автомобиля
 Разработка виртуального полигона для беспилотного автомобиля
2. VI Международная научная конференция «Информационные
технологии в науке, управлении, социальной сфере и медицине» с докладом:
 Подготовка исходных данных для углубленного анализа нефтегазового
месторождения
Премии, звания, стипендии:
1. Повышенная государственная стипендия по научно-исследовательской
деятельности, осень 2019/2020 учебного года, весна 2019/2020 учебного года.
2. Стипендия Президента РФ (или Правительства РФ) студентам ТПУ,
обучающимся по специальностям или направлениям подготовки,
соответствующим приоритетным направлениям модернизации и
технологического развития российской экономики, осень, осень 2019/2020
учебного года.
Публикации:
1. Журбич Н. И. Подготовка исходных данных для углубленного анализа
нефтегазового месторождения // Информационные технологии в науке,
управлении, социальной сфере и медицине: cборник научных трудов VI
Международной научной конференции, Томск, 14-19 Октября 2019. – Томск:
ТПУ, 2019 – C. 13-19
2. Журбич Н. И. Проектирование виртуального полигона в Unity3D //
Информационные технологии в науке, управлении, социальной сфере и
медицине: сборник научных трудов V Международной конференции: в 2 т.,
Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 249-251.
3. Журбич Н. И. Проектирование виртуального полигона для
беспилотного автомобиля // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 427-428.
4. Журбич Н. И., Фофанов О. Б. Разработка виртуального полигона для
беспилотного автомобиля // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 429-430.
5. Журбич Н. И., Зяблецев П. А. Анализ данных с помощью технологий
Big Data // Информационные технологии в науке, управлении, социальной
сфере и медицине: сборник научных трудов V Международной конференции:
в 2 т., Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 255-257.
6. Журбич Н. И., Зяблецев П. А. Анализ социальных данных с помощью
технологий Big Data // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 148-149.
7. Журбич Н. И., Зяблецев П. А. Разработка виртуального полигона в
Unity 3D // Информационные технологии в науке, управлении, социальной
сфере и медицине: сборник научных трудов V Международной конференции:
в 2 т., Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 252-255
8. Зяблецев П. А., Журбич Н. И. Выявление факторов риска острого
инфаркта миокарда с помощью OLAP технологии // Информационные
технологии в науке, управлении, социальной сфере и медицине: сборник
научных трудов V Международной конференции: в 2 т., Томск, 17-21
Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 267-270.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Александр О. Спб государственный университет 1972, мат - мех, преподав...
    4.9 (66 отзывов)
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальн... Читать все
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальных уравнений. Умею быстро и четко выполнять сложные вычислительные работ
    #Кандидатские #Магистерские
    117 Выполненных работ
    Виктор В. Смоленская государственная медицинская академия 1997, Леч...
    4.7 (46 отзывов)
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выв... Читать все
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выводы).Пишу статьи в РИНЦ, ВАК.Оформление патентов от идеи до регистрации.
    #Кандидатские #Магистерские
    100 Выполненных работ
    Александр Р. ВоГТУ 2003, Экономический, преподаватель, кандидат наук
    4.5 (80 отзывов)
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфин... Читать все
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфинансы (Казначейство). Работаю в финансовой сфере более 10 лет. Банки,риски
    #Кандидатские #Магистерские
    123 Выполненных работы
    Анна К. ТГПУ им.ЛН.Толстого 2010, ФИСиГН, выпускник
    4.6 (30 отзывов)
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помог... Читать все
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помогала студентам, вышедшим на меня по рекомендации.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Елена Л. РЭУ им. Г. В. Плеханова 2009, Управления и коммерции, пре...
    4.8 (211 отзывов)
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно исполь... Читать все
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно использую в работе графический материал (графики рисунки, диаграммы) и таблицы.
    #Кандидатские #Магистерские
    362 Выполненных работы
    Кирилл Ч. ИНЖЭКОН 2010, экономика и управление на предприятии транс...
    4.9 (343 отзыва)
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). С... Читать все
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). Сейчас пишу диссертацию на соискание степени кандидата экономических наук.
    #Кандидатские #Магистерские
    692 Выполненных работы
    Татьяна М. кандидат наук
    5 (285 отзывов)
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    #Кандидатские #Магистерские
    495 Выполненных работ
    Екатерина Б. кандидат наук, доцент
    5 (174 отзыва)
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподав... Читать все
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподавала учебные дисциплины: Бюджетная система Украины, Статистика.
    #Кандидатские #Магистерские
    300 Выполненных работ
    Рима С.
    5 (18 отзывов)
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный универси... Читать все
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный университет, являюсь бакалавром, магистром юриспруденции (с отличием)
    #Кандидатские #Магистерские
    38 Выполненных работ

    Другие учебные работы по предмету

    Интеллектуальный анализ текстовых данных с rnприменением методов машинного обучения
    📅 2019год
    🏢 Национальный исследовательский Томский политехнический университет (ТПУ)