Методология подготовки исходных данных для модели машинного обучения в нефтегазовой области

Журбич, Никита Игоревич Отделение информационных технологий (ОИТ)
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Данная работа посвящена разработке методологии обработки исходных данных, полученных с нефтегазового месторождения, для построения прогнозных моделей. Основными задачами при разработке методологии являются проведение разведочного и регрессионного анализа. Для проведение анализа необходимо было построить модели машинного обучения. В результате работы был проведен регрессионный анализ, который позволяет выделить наиболее важные атрибуты для нефтедобычи. Практическое применение результатов работы может быть использовано для эффективной нефтедобычи.

Планируемые результаты обучения ………………………………………………………………………………………… 8
Реферат………………………………………………………………………………………………………………………………….. 9
Перечень условных обозначений и терминов…………………………………………………………………………13
Введение ………………………………………………………………………………………………………………………………15
1. Обзор предметной области …………………………………………………………………………………………….16
1.1. Области применения технологий Big Data в нефтяном инжиниринге ……………………………16
1.2. Проблема, цель ………………………………………………………………………………………………………….18
1.3. Опыт по использованию технологий Big Data в нефтегазовой отрасли ………………………….19
1.4. Преимущества и недостатки разработки методологии ……………………………………………………..21
1.5. Вывод по разделу ……………………………………………………………………………………………………………22
2. Разведочный анализ данных …………………………………………………………………………………………..23
2.1. Выбор инструментов разработки…………………………………………………………………………………23
2.2. Очистка исходных данных …………………………………………………………………………………………..24
2.3. Определение выбросов и ошибок данных …………………………………………………………………..29
2.4. Кодирование категориальных признаков …………………………………………………………………….31
2.5. Восстановление пропущенных значений ……………………………………………………………………..32
2.6. Проверка на мультиколлинеарность ……………………………………………………………………………35
2.7. Вывод по разделу ……………………………………………………………………………………………………….36
3. Регрессионный анализ ……………………………………………………………………………………………………37
3.1. Выбор целевой функции ……………………………………………………………………………………………..37
3.2. Создание и тренировка линейного и полиномиального регрессоров ……………………………39
3.3. Построение и тренировка регрессора методом случайного леса ………………………………….42
3.4. Вывод по разделу ……………………………………………………………………………………………………….45
4. Финансовый менеджмент, ресурсоэффективность и ресурсосбережение ………………………..46
4.1. Предпроектный анализ ……………………………………………………………………………………………….46
4.1.1. Потенциальные потребители разработки…………………………………………………………………46
4.1.2. Технология QuaD …………………………………………………………………………………………………….47
4.1.3. SWOT-анализ …………………………………………………………………………………………………………..48
4.1.4. Оценка готовности разработки к коммерциализации ……………………………………………….49
4.2. Инициация разработки ……………………………………………………………………………………………………51
4.3. Планирование управления разработкой ………………………………………………………………………….52
4.3.1. Иерархическая структура работ …………………………………………………………………………………….52
4.3.2. План разработки ……………………………………………………………………………………………………..53
4.3.2.1. Продолжительность этапов работ ………………………………………………………………………..54
4.3.2.2. Разработка графика проведения разработки ………………………………………………………..56
4.3.3. Бюджет разработки …………………………………………………………………………………………………56
4.3.3.1. Расчет материальных затрат разработки …………………………………………………………………….56
4.3.3.2. Расчет амортизационных отчислений …………………………………………………………………………57
4.3.3. Основная заработная плата исполнителей темы ……………………………………………………………58
4.3.3.4. Дополнительная заработная плата исполнителей темы ………………………………………………59
4.3.3.5. Отчисления во внебюджетные фонды (страховые отчисления) ……………………………………59
4.3.3.6. Накладные расходы …………………………………………………………………………………………………..60
4.3.3.7. Формирование бюджета затрат научно-исследовательского разработки …………………….60
4.3.4. Риски разработки…………………………………………………………………………………………………….60
4.4. Определение потенциального эффекта разработки……………………………………………………..62
4.5. Выводы по разделу …………………………………………………………………………………………………….63
5. Социальная ответственность …………………………………………………………………………………………..64
5.1. Правовые и организационные вопросы обеспечения безопасности……………………………..64
5.1.1. Специальные (характерные для проектируемой рабочей зоны) правовые норма
трудового законодательства. …………………………………………………………………………………………………64
5.1.2. Организационные мероприятия при компоновке рабочей зоны ………………………………65
5.2. Профессиональная социальная безопасность………………………………………………………………67
5.2.1. Анализ вредных и опасных факторов, которые может создать объект исследования. .68
5.2.2. Анализ вредных и опасных факторов, которые могут возникнуть на рабочем месте. …68
5.2.2.1. Отклонение показателей микроклимата. ……………………………………………………………..68
5.2.2.2. Превышение уровня шума …………………………………………………………………………………..69
5.2.2.3. Расчет искусственного освещения. ……………………………………………………………………….70
5.2.2.4. Умственное перенапряжение ………………………………………………………………………………73
5.2.3. Обоснование мероприятий по защите исследователя от действия опасных и вредных
факторов ……………………………………………………………………………………………………………………………….74
5.3. Экологическая безопасность ……………………………………………………………………………………….75
5.3.1. Анализ влияния объекта исследования на окружающую среду…………………………………75
5.3.2. Анализ влияния процесса исследования на окружающую среду……………………………….75
5.3.3. Обоснование мероприятий по защите окружающей среды ………………………………………76
5.4. Безопасность в чрезвычайных ситуациях……………………………………………………………………..76
5.4.1. Анализ вероятных ЧС, которые может инициировать объект исследований ……………..76
5.4.2. Анализ вероятных ЧС, которые могут возникнуть на рабочем месте при проведении
исследований………………………………………………………………………………………………………………………..77
5.4.3. Обоснование мероприятий по предотвращению ЧС и разработка порядка действий в
случае возникновения ЧС ………………………………………………………………………………………………………77
5.5. Вывод по главе …………………………………………………………………………………………………………..79
Заключение …………………………………………………………………………………………………………………………..80
Список публикаций и научных достижений ……………………………………………………………………………81
Список используемых источников ………………………………………………………………………………………….83
Приложение 1 (рус.яз) …………………………………………………………………………………………………………..86
Приложение 2 ……………………………………………………………………………………………………………………….98
Приложение 3 ……………………………………………………………………………………………………………………..103
Приложение 4 ……………………………………………………………………………………………………………………..105
Перечень условных обозначений и терминов
 Big Data («большие данные») – обозначение структурированных и
неструктурированных данных огромных объёмов и значительного
многообразия, эффективно обрабатываемых горизонтально
масштабируемыми программными инструментами.
 Автомобильная заправочная станция – АЗС
 Бассейновое моделирование – это динамический анализ, в основе
которого лежит численное моделирование геологических процессов,
протекающих в осадочных бассейнах.
 Фонд скважин — число и классификация по состоянию и назначению
всех пробуренных скважин (на месторождении, газовом промысле или
подземном хранилище газа). В этот фонд входят все разведочные,
эксплуатационные, наблюдательные и специальные скважины.
 Геолого-технические мероприятия – ГТМ
 Пласт – слой почвы, осадочной или магматической породы, который
сформировался на поверхности Земли и имеет внутреннюю структуру,
которая отличается от других слоёв, лежащих непосредственно над ними и
лежащих под ними по цвету, текстуре, материалу.
 Электроцентробежный насос – ЭЦН
 Выброс (англ. outlier) – в статистике результат измерения,
выделяющийся из общей выборки.
 Обводнённость скважины – содержание воды в продукции скважины,
определяемое как отношение дебита воды к сумме дебитов нефти и воды.
 Дебит – объём жидкости (воды, нефти) или газа, стабильно
поступающий из некоторого естественного или искусственного источника в
единицу времени.
 Диаметр насосно-компрессорных труб – диаметр НКТ
 CSV (от англ. Comma-Separated Values – значения, разделённые
запятыми) – текстовый формат, предназначенный для представления
табличных данных. Строка таблицы соответствует строке текста, которая
содержит одно или несколько полей, разделенных запятыми.
 Попутный газ – газ, растворенный в нефти.
 Газовая шапка – скопление свободного газа в наиболее приподнятой
части нефтяного пласта, над нефтяной залежью.
 Фонтанный способ добычи нефти – ФОН
 KNN (k-nearest algorithm imputation) – алгоритм поиска ближайшего
соседа для восстановления пропущенных значений.
 Training samples – тренировочная выборка
 Testing samples – тестовая выборка
 Нормальное распределение, также называемое распределением Гаусса
или Гаусса – Лапласа – распределение вероятностей, которое в одномерном
случае задаётся функцией плотности вероятности, совпадающей с функцией
Гаусса.

Нефтегазовые компании в процессе своей деятельности получают
петабайты данных каждый день, использование больших данных открывает
возможности анализа и предсказания развития трендов в области геологии,
инженерии, производства и наилучшего способа использования
оборудования для достижения наиболее оптимальных результатов работы на
всех стадиях своей деятельности.
Нефтяные и газовые компании не смогут воспользоваться
конкурентным преимуществом технологий Big Data, если не начнут более
эффективно управлять своими данными. К такому выводу в своем новом
докладе пришла нефтегазовая консалтинговая компания Molten. По мнению
ее экспертов, многие нефтегазовые предприятия «безответственно»
распоряжаются своими данными, несмотря на то, что тратят миллиарды
долларов в год на их сбор. По подсчетам Molten, крупные нефтегазовые
компании тратят от $1 до $3 млрд в год на сбор данных, однако расходы на
поддержание и обработку накопленной информации зачастую составляют
менее 1% от этой суммы. В то же время от компаний требуется принимать
оперативные решения и поддерживать высокий уровень производительности.
Как следствие, руководство должно полагаться на большие объемы данных,
чтобы принимать критические решения. Сфера применения технологии Big
Data в нефтегазовой отрасли очень обширна, и включает весь спектр, от
геологоразведки и разработки до переработки углеводородного сырья [1].
Целью данной магистерской диссертации является разработка

В результате выполнения магистерской диссертации были выполнены
следующие задачи:
1. Устранение ошибок и восстановление пропущенных значений с
помощью алгоритма поиска ближайшего соседа (k-nearest algorithm
imputation).
2. Построение корреляционной матрицы для исключения линейной
зависимости между атрибутами
3. Определение целевой функции для построения модели
машинного обучения
4. Проведение регрессионного анализа
5. Выделение признаков по важности
В результате проведения разведочного и регрессионного анализа
можно сделать вывод о том, что на предсказание о количестве добываемой
нефти в рассматриваемом исследовании значительно влияют лишь 10
параметров (в начале исследования их было порядка 100 единиц).
В ходе работы был получен опыт работы с такими языками
программирования как Python и R, средами разработки Jupyter Notebook и R
Studio, а также были использованы следующие инструменты и библиотеки:
pandas, numpy, seaborn и несколько библиотек из среды разработки R Studio.
Список публикаций и научных достижений
Участие в конференциях:
1. ХVl Международная научно-практическая конференция студентов,
аспирантов и молодых ученых «Молодёжь и современные и
информационные технологии» с докладами:
 Анализ социальных данных с помощью технологий Big Data
 Проектирование виртуального полигона для беспилотного автомобиля
 Разработка виртуального полигона для беспилотного автомобиля
2. VI Международная научная конференция «Информационные
технологии в науке, управлении, социальной сфере и медицине» с докладом:
 Подготовка исходных данных для углубленного анализа нефтегазового
месторождения
Премии, звания, стипендии:
1. Повышенная государственная стипендия по научно-исследовательской
деятельности, осень 2019/2020 учебного года, весна 2019/2020 учебного года.
2. Стипендия Президента РФ (или Правительства РФ) студентам ТПУ,
обучающимся по специальностям или направлениям подготовки,
соответствующим приоритетным направлениям модернизации и
технологического развития российской экономики, осень, осень 2019/2020
учебного года.
Публикации:
1. Журбич Н. И. Подготовка исходных данных для углубленного анализа
нефтегазового месторождения // Информационные технологии в науке,
управлении, социальной сфере и медицине: cборник научных трудов VI
Международной научной конференции, Томск, 14-19 Октября 2019. – Томск:
ТПУ, 2019 – C. 13-19
2. Журбич Н. И. Проектирование виртуального полигона в Unity3D //
Информационные технологии в науке, управлении, социальной сфере и
медицине: сборник научных трудов V Международной конференции: в 2 т.,
Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 249-251.
3. Журбич Н. И. Проектирование виртуального полигона для
беспилотного автомобиля // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 427-428.
4. Журбич Н. И., Фофанов О. Б. Разработка виртуального полигона для
беспилотного автомобиля // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 429-430.
5. Журбич Н. И., Зяблецев П. А. Анализ данных с помощью технологий
Big Data // Информационные технологии в науке, управлении, социальной
сфере и медицине: сборник научных трудов V Международной конференции:
в 2 т., Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 255-257.
6. Журбич Н. И., Зяблецев П. А. Анализ социальных данных с помощью
технологий Big Data // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 148-149.
7. Журбич Н. И., Зяблецев П. А. Разработка виртуального полигона в
Unity 3D // Информационные технологии в науке, управлении, социальной
сфере и медицине: сборник научных трудов V Международной конференции:
в 2 т., Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 252-255
8. Зяблецев П. А., Журбич Н. И. Выявление факторов риска острого
инфаркта миокарда с помощью OLAP технологии // Информационные
технологии в науке, управлении, социальной сфере и медицине: сборник
научных трудов V Международной конференции: в 2 т., Томск, 17-21
Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 267-270.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    user1250010 Омский государственный университет, 2010, преподаватель,...
    4 (15 отзывов)
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    #Кандидатские #Магистерские
    21 Выполненная работа
    Мария А. кандидат наук
    4.7 (18 отзывов)
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет... Читать все
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет, реклама, журналистика, педагогика, право)
    #Кандидатские #Магистерские
    39 Выполненных работ
    Яна К. ТюмГУ 2004, ГМУ, выпускник
    5 (8 отзывов)
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соот... Читать все
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соответствии с Вашими требованиями.
    #Кандидатские #Магистерские
    12 Выполненных работ
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Шагали Е. УрГЭУ 2007, Экономика, преподаватель
    4.4 (59 отзывов)
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и... Читать все
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и диссертаций, Есть любимые темы - они дешевле обойдутся, ибо в радость)
    #Кандидатские #Магистерские
    76 Выполненных работ
    Андрей С. Тверской государственный университет 2011, математический...
    4.7 (82 отзыва)
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на... Читать все
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на продолжение диссертационной работы... Всегда готов помочь! ;)
    #Кандидатские #Магистерские
    164 Выполненных работы
    Шиленок В. КГМУ 2017, Лечебный , выпускник
    5 (20 отзывов)
    Здравствуйте) Имею сертификат специалиста (врач-лечебник). На данный момент являюсь ординатором(терапия, кардио), одновременно работаю диагностом. Занимаюсь диссертац... Читать все
    Здравствуйте) Имею сертификат специалиста (врач-лечебник). На данный момент являюсь ординатором(терапия, кардио), одновременно работаю диагностом. Занимаюсь диссертационной работ. Помогу в медицинских науках и прикладных (хим,био,эколог)
    #Кандидатские #Магистерские
    13 Выполненных работ
    Егор В. кандидат наук, доцент
    5 (428 отзывов)
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Ск... Читать все
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Скорее всего Ваш заказ будет выполнен раньше срока.
    #Кандидатские #Магистерские
    694 Выполненных работы
    Вирсавия А. медицинский 1981, стоматологический, преподаватель, канди...
    4.5 (9 отзывов)
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - ... Читать все
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - медицина, биология, антропология, биогидродинамика
    #Кандидатские #Магистерские
    12 Выполненных работ

    Другие учебные работы по предмету

    Интеллектуальный анализ текстовых данных с rnприменением методов машинного обучения
    📅 2019год
    🏢 Национальный исследовательский Томский политехнический университет (ТПУ)