Методология подготовки исходных данных для модели машинного обучения в нефтегазовой области

Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0
Журбич, Никита Игоревич Отделение информационных технологий (ОИТ)
Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Данная работа посвящена разработке методологии обработки исходных данных, полученных с нефтегазового месторождения, для построения прогнозных моделей. Основными задачами при разработке методологии являются проведение разведочного и регрессионного анализа. Для проведение анализа необходимо было построить модели машинного обучения. В результате работы был проведен регрессионный анализ, который позволяет выделить наиболее важные атрибуты для нефтедобычи. Практическое применение результатов работы может быть использовано для эффективной нефтедобычи.

Планируемые результаты обучения ………………………………………………………………………………………… 8
Реферат………………………………………………………………………………………………………………………………….. 9
Перечень условных обозначений и терминов…………………………………………………………………………13
Введение ………………………………………………………………………………………………………………………………15
1. Обзор предметной области …………………………………………………………………………………………….16
1.1. Области применения технологий Big Data в нефтяном инжиниринге ……………………………16
1.2. Проблема, цель ………………………………………………………………………………………………………….18
1.3. Опыт по использованию технологий Big Data в нефтегазовой отрасли ………………………….19
1.4. Преимущества и недостатки разработки методологии ……………………………………………………..21
1.5. Вывод по разделу ……………………………………………………………………………………………………………22
2. Разведочный анализ данных …………………………………………………………………………………………..23
2.1. Выбор инструментов разработки…………………………………………………………………………………23
2.2. Очистка исходных данных …………………………………………………………………………………………..24
2.3. Определение выбросов и ошибок данных …………………………………………………………………..29
2.4. Кодирование категориальных признаков …………………………………………………………………….31
2.5. Восстановление пропущенных значений ……………………………………………………………………..32
2.6. Проверка на мультиколлинеарность ……………………………………………………………………………35
2.7. Вывод по разделу ……………………………………………………………………………………………………….36
3. Регрессионный анализ ……………………………………………………………………………………………………37
3.1. Выбор целевой функции ……………………………………………………………………………………………..37
3.2. Создание и тренировка линейного и полиномиального регрессоров ……………………………39
3.3. Построение и тренировка регрессора методом случайного леса ………………………………….42
3.4. Вывод по разделу ……………………………………………………………………………………………………….45
4. Финансовый менеджмент, ресурсоэффективность и ресурсосбережение ………………………..46
4.1. Предпроектный анализ ……………………………………………………………………………………………….46
4.1.1. Потенциальные потребители разработки…………………………………………………………………46
4.1.2. Технология QuaD …………………………………………………………………………………………………….47
4.1.3. SWOT-анализ …………………………………………………………………………………………………………..48
4.1.4. Оценка готовности разработки к коммерциализации ……………………………………………….49
4.2. Инициация разработки ……………………………………………………………………………………………………51
4.3. Планирование управления разработкой ………………………………………………………………………….52
4.3.1. Иерархическая структура работ …………………………………………………………………………………….52
4.3.2. План разработки ……………………………………………………………………………………………………..53
4.3.2.1. Продолжительность этапов работ ………………………………………………………………………..54
4.3.2.2. Разработка графика проведения разработки ………………………………………………………..56
4.3.3. Бюджет разработки …………………………………………………………………………………………………56
4.3.3.1. Расчет материальных затрат разработки …………………………………………………………………….56
4.3.3.2. Расчет амортизационных отчислений …………………………………………………………………………57
4.3.3. Основная заработная плата исполнителей темы ……………………………………………………………58
4.3.3.4. Дополнительная заработная плата исполнителей темы ………………………………………………59
4.3.3.5. Отчисления во внебюджетные фонды (страховые отчисления) ……………………………………59
4.3.3.6. Накладные расходы …………………………………………………………………………………………………..60
4.3.3.7. Формирование бюджета затрат научно-исследовательского разработки …………………….60
4.3.4. Риски разработки…………………………………………………………………………………………………….60
4.4. Определение потенциального эффекта разработки……………………………………………………..62
4.5. Выводы по разделу …………………………………………………………………………………………………….63
5. Социальная ответственность …………………………………………………………………………………………..64
5.1. Правовые и организационные вопросы обеспечения безопасности……………………………..64
5.1.1. Специальные (характерные для проектируемой рабочей зоны) правовые норма
трудового законодательства. …………………………………………………………………………………………………64
5.1.2. Организационные мероприятия при компоновке рабочей зоны ………………………………65
5.2. Профессиональная социальная безопасность………………………………………………………………67
5.2.1. Анализ вредных и опасных факторов, которые может создать объект исследования. .68
5.2.2. Анализ вредных и опасных факторов, которые могут возникнуть на рабочем месте. …68
5.2.2.1. Отклонение показателей микроклимата. ……………………………………………………………..68
5.2.2.2. Превышение уровня шума …………………………………………………………………………………..69
5.2.2.3. Расчет искусственного освещения. ……………………………………………………………………….70
5.2.2.4. Умственное перенапряжение ………………………………………………………………………………73
5.2.3. Обоснование мероприятий по защите исследователя от действия опасных и вредных
факторов ……………………………………………………………………………………………………………………………….74
5.3. Экологическая безопасность ……………………………………………………………………………………….75
5.3.1. Анализ влияния объекта исследования на окружающую среду…………………………………75
5.3.2. Анализ влияния процесса исследования на окружающую среду……………………………….75
5.3.3. Обоснование мероприятий по защите окружающей среды ………………………………………76
5.4. Безопасность в чрезвычайных ситуациях……………………………………………………………………..76
5.4.1. Анализ вероятных ЧС, которые может инициировать объект исследований ……………..76
5.4.2. Анализ вероятных ЧС, которые могут возникнуть на рабочем месте при проведении
исследований………………………………………………………………………………………………………………………..77
5.4.3. Обоснование мероприятий по предотвращению ЧС и разработка порядка действий в
случае возникновения ЧС ………………………………………………………………………………………………………77
5.5. Вывод по главе …………………………………………………………………………………………………………..79
Заключение …………………………………………………………………………………………………………………………..80
Список публикаций и научных достижений ……………………………………………………………………………81
Список используемых источников ………………………………………………………………………………………….83
Приложение 1 (рус.яз) …………………………………………………………………………………………………………..86
Приложение 2 ……………………………………………………………………………………………………………………….98
Приложение 3 ……………………………………………………………………………………………………………………..103
Приложение 4 ……………………………………………………………………………………………………………………..105
Перечень условных обозначений и терминов
 Big Data («большие данные») – обозначение структурированных и
неструктурированных данных огромных объёмов и значительного
многообразия, эффективно обрабатываемых горизонтально
масштабируемыми программными инструментами.
 Автомобильная заправочная станция – АЗС
 Бассейновое моделирование – это динамический анализ, в основе
которого лежит численное моделирование геологических процессов,
протекающих в осадочных бассейнах.
 Фонд скважин — число и классификация по состоянию и назначению
всех пробуренных скважин (на месторождении, газовом промысле или
подземном хранилище газа). В этот фонд входят все разведочные,
эксплуатационные, наблюдательные и специальные скважины.
 Геолого-технические мероприятия – ГТМ
 Пласт – слой почвы, осадочной или магматической породы, который
сформировался на поверхности Земли и имеет внутреннюю структуру,
которая отличается от других слоёв, лежащих непосредственно над ними и
лежащих под ними по цвету, текстуре, материалу.
 Электроцентробежный насос – ЭЦН
 Выброс (англ. outlier) – в статистике результат измерения,
выделяющийся из общей выборки.
 Обводнённость скважины – содержание воды в продукции скважины,
определяемое как отношение дебита воды к сумме дебитов нефти и воды.
 Дебит – объём жидкости (воды, нефти) или газа, стабильно
поступающий из некоторого естественного или искусственного источника в
единицу времени.
 Диаметр насосно-компрессорных труб – диаметр НКТ
 CSV (от англ. Comma-Separated Values – значения, разделённые
запятыми) – текстовый формат, предназначенный для представления
табличных данных. Строка таблицы соответствует строке текста, которая
содержит одно или несколько полей, разделенных запятыми.
 Попутный газ – газ, растворенный в нефти.
 Газовая шапка – скопление свободного газа в наиболее приподнятой
части нефтяного пласта, над нефтяной залежью.
 Фонтанный способ добычи нефти – ФОН
 KNN (k-nearest algorithm imputation) – алгоритм поиска ближайшего
соседа для восстановления пропущенных значений.
 Training samples – тренировочная выборка
 Testing samples – тестовая выборка
 Нормальное распределение, также называемое распределением Гаусса
или Гаусса – Лапласа – распределение вероятностей, которое в одномерном
случае задаётся функцией плотности вероятности, совпадающей с функцией
Гаусса.

Нефтегазовые компании в процессе своей деятельности получают
петабайты данных каждый день, использование больших данных открывает
возможности анализа и предсказания развития трендов в области геологии,
инженерии, производства и наилучшего способа использования
оборудования для достижения наиболее оптимальных результатов работы на
всех стадиях своей деятельности.
Нефтяные и газовые компании не смогут воспользоваться
конкурентным преимуществом технологий Big Data, если не начнут более
эффективно управлять своими данными. К такому выводу в своем новом
докладе пришла нефтегазовая консалтинговая компания Molten. По мнению
ее экспертов, многие нефтегазовые предприятия «безответственно»
распоряжаются своими данными, несмотря на то, что тратят миллиарды
долларов в год на их сбор. По подсчетам Molten, крупные нефтегазовые
компании тратят от $1 до $3 млрд в год на сбор данных, однако расходы на
поддержание и обработку накопленной информации зачастую составляют
менее 1% от этой суммы. В то же время от компаний требуется принимать
оперативные решения и поддерживать высокий уровень производительности.
Как следствие, руководство должно полагаться на большие объемы данных,
чтобы принимать критические решения. Сфера применения технологии Big
Data в нефтегазовой отрасли очень обширна, и включает весь спектр, от
геологоразведки и разработки до переработки углеводородного сырья [1].
Целью данной магистерской диссертации является разработка

В результате выполнения магистерской диссертации были выполнены
следующие задачи:
1. Устранение ошибок и восстановление пропущенных значений с
помощью алгоритма поиска ближайшего соседа (k-nearest algorithm
imputation).
2. Построение корреляционной матрицы для исключения линейной
зависимости между атрибутами
3. Определение целевой функции для построения модели
машинного обучения
4. Проведение регрессионного анализа
5. Выделение признаков по важности
В результате проведения разведочного и регрессионного анализа
можно сделать вывод о том, что на предсказание о количестве добываемой
нефти в рассматриваемом исследовании значительно влияют лишь 10
параметров (в начале исследования их было порядка 100 единиц).
В ходе работы был получен опыт работы с такими языками
программирования как Python и R, средами разработки Jupyter Notebook и R
Studio, а также были использованы следующие инструменты и библиотеки:
pandas, numpy, seaborn и несколько библиотек из среды разработки R Studio.
Список публикаций и научных достижений
Участие в конференциях:
1. ХVl Международная научно-практическая конференция студентов,
аспирантов и молодых ученых «Молодёжь и современные и
информационные технологии» с докладами:
 Анализ социальных данных с помощью технологий Big Data
 Проектирование виртуального полигона для беспилотного автомобиля
 Разработка виртуального полигона для беспилотного автомобиля
2. VI Международная научная конференция «Информационные
технологии в науке, управлении, социальной сфере и медицине» с докладом:
 Подготовка исходных данных для углубленного анализа нефтегазового
месторождения
Премии, звания, стипендии:
1. Повышенная государственная стипендия по научно-исследовательской
деятельности, осень 2019/2020 учебного года, весна 2019/2020 учебного года.
2. Стипендия Президента РФ (или Правительства РФ) студентам ТПУ,
обучающимся по специальностям или направлениям подготовки,
соответствующим приоритетным направлениям модернизации и
технологического развития российской экономики, осень, осень 2019/2020
учебного года.
Публикации:
1. Журбич Н. И. Подготовка исходных данных для углубленного анализа
нефтегазового месторождения // Информационные технологии в науке,
управлении, социальной сфере и медицине: cборник научных трудов VI
Международной научной конференции, Томск, 14-19 Октября 2019. – Томск:
ТПУ, 2019 – C. 13-19
2. Журбич Н. И. Проектирование виртуального полигона в Unity3D //
Информационные технологии в науке, управлении, социальной сфере и
медицине: сборник научных трудов V Международной конференции: в 2 т.,
Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 249-251.
3. Журбич Н. И. Проектирование виртуального полигона для
беспилотного автомобиля // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 427-428.
4. Журбич Н. И., Фофанов О. Б. Разработка виртуального полигона для
беспилотного автомобиля // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 429-430.
5. Журбич Н. И., Зяблецев П. А. Анализ данных с помощью технологий
Big Data // Информационные технологии в науке, управлении, социальной
сфере и медицине: сборник научных трудов V Международной конференции:
в 2 т., Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 255-257.
6. Журбич Н. И., Зяблецев П. А. Анализ социальных данных с помощью
технологий Big Data // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 148-149.
7. Журбич Н. И., Зяблецев П. А. Разработка виртуального полигона в
Unity 3D // Информационные технологии в науке, управлении, социальной
сфере и медицине: сборник научных трудов V Международной конференции:
в 2 т., Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 252-255
8. Зяблецев П. А., Журбич Н. И. Выявление факторов риска острого
инфаркта миокарда с помощью OLAP технологии // Информационные
технологии в науке, управлении, социальной сфере и медицине: сборник
научных трудов V Международной конференции: в 2 т., Томск, 17-21
Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 267-270.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Читать «Методология подготовки исходных данных для модели машинного обучения в нефтегазовой области»

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Дмитрий Л. КНЭУ 2015, Экономики и управления, выпускник
    4.8 (2878 отзывов)
    Занимаю 1 место в рейтинге исполнителей по категориям работ "Научные статьи" и "Эссе". Пишу дипломные работы и магистерские диссертации.
    Занимаю 1 место в рейтинге исполнителей по категориям работ "Научные статьи" и "Эссе". Пишу дипломные работы и магистерские диссертации.
    #Кандидатские #Магистерские
    5125 Выполненных работ
    Глеб С. преподаватель, кандидат наук, доцент
    5 (158 отзывов)
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной с... Читать все
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной специальности 12.00.14 административное право, административный процесс.
    #Кандидатские #Магистерские
    216 Выполненных работ
    Андрей С. Тверской государственный университет 2011, математический...
    4.7 (82 отзыва)
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на... Читать все
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на продолжение диссертационной работы... Всегда готов помочь! ;)
    #Кандидатские #Магистерские
    164 Выполненных работы
    Ольга Р. доктор, профессор
    4.2 (13 отзывов)
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласован... Читать все
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласованные сроки и при необходимости дорабатываются по рекомендациям научного руководителя (преподавателя). Буду рада плодотворному и взаимовыгодному сотрудничеству!!! К каждой работе подхожу индивидуально! Всегда готова по любому вопросу договориться с заказчиком! Все работы проверяю на антиплагиат.ру по умолчанию, если в заказе не стоит иное и если это заранее не обговорено!!!
    #Кандидатские #Магистерские
    21 Выполненная работа
    Евгений А. доктор, профессор
    5 (154 отзыва)
    Более 40 лет занимаюсь преподавательской деятельностью. Специалист в области философии, логики и социальной работы. Кандидатская диссертация - по логике, докторская - ... Читать все
    Более 40 лет занимаюсь преподавательской деятельностью. Специалист в области философии, логики и социальной работы. Кандидатская диссертация - по логике, докторская - по социальной работе.
    #Кандидатские #Магистерские
    260 Выполненных работ
    Татьяна Б.
    4.6 (92 отзыва)
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские ди... Читать все
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские диссертации, курсовые работы средний балл - 4,5). Всегда на связи!
    #Кандидатские #Магистерские
    138 Выполненных работ
    Татьяна П.
    4.2 (6 отзывов)
    Помогаю студентам с решением задач по ТОЭ и физике на протяжении 9 лет. Пишу диссертацию на соискание степени кандидата технических наук, имею опыт годовой стажировки ... Читать все
    Помогаю студентам с решением задач по ТОЭ и физике на протяжении 9 лет. Пишу диссертацию на соискание степени кандидата технических наук, имею опыт годовой стажировки в одном из крупнейших университетов Германии.
    #Кандидатские #Магистерские
    9 Выполненных работ
    Ксения М. Курганский Государственный Университет 2009, Юридический...
    4.8 (105 отзывов)
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитыв... Читать все
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитывать все требования и пожелания.
    #Кандидатские #Магистерские
    213 Выполненных работ
    Дарья С. Томский государственный университет 2010, Юридический, в...
    4.8 (13 отзывов)
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссерт... Читать все
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссертационное исследование, которое сейчас находится на рассмотрении в совете.
    #Кандидатские #Магистерские
    18 Выполненных работ

    Другие учебные работы по предмету

    Интеллектуальный анализ текстовых данных с rnприменением методов машинного обучения
    📅 2019 год
    🏢 Национальный исследовательский Томский политехнический университет (ТПУ)