Методология подготовки исходных данных для модели машинного обучения в нефтегазовой области

Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0
Журбич, Никита Игоревич Отделение информационных технологий (ОИТ)
Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Данная работа посвящена разработке методологии обработки исходных данных, полученных с нефтегазового месторождения, для построения прогнозных моделей. Основными задачами при разработке методологии являются проведение разведочного и регрессионного анализа. Для проведение анализа необходимо было построить модели машинного обучения. В результате работы был проведен регрессионный анализ, который позволяет выделить наиболее важные атрибуты для нефтедобычи. Практическое применение результатов работы может быть использовано для эффективной нефтедобычи.

Планируемые результаты обучения ………………………………………………………………………………………… 8
Реферат………………………………………………………………………………………………………………………………….. 9
Перечень условных обозначений и терминов…………………………………………………………………………13
Введение ………………………………………………………………………………………………………………………………15
1. Обзор предметной области …………………………………………………………………………………………….16
1.1. Области применения технологий Big Data в нефтяном инжиниринге ……………………………16
1.2. Проблема, цель ………………………………………………………………………………………………………….18
1.3. Опыт по использованию технологий Big Data в нефтегазовой отрасли ………………………….19
1.4. Преимущества и недостатки разработки методологии ……………………………………………………..21
1.5. Вывод по разделу ……………………………………………………………………………………………………………22
2. Разведочный анализ данных …………………………………………………………………………………………..23
2.1. Выбор инструментов разработки…………………………………………………………………………………23
2.2. Очистка исходных данных …………………………………………………………………………………………..24
2.3. Определение выбросов и ошибок данных …………………………………………………………………..29
2.4. Кодирование категориальных признаков …………………………………………………………………….31
2.5. Восстановление пропущенных значений ……………………………………………………………………..32
2.6. Проверка на мультиколлинеарность ……………………………………………………………………………35
2.7. Вывод по разделу ……………………………………………………………………………………………………….36
3. Регрессионный анализ ……………………………………………………………………………………………………37
3.1. Выбор целевой функции ……………………………………………………………………………………………..37
3.2. Создание и тренировка линейного и полиномиального регрессоров ……………………………39
3.3. Построение и тренировка регрессора методом случайного леса ………………………………….42
3.4. Вывод по разделу ……………………………………………………………………………………………………….45
4. Финансовый менеджмент, ресурсоэффективность и ресурсосбережение ………………………..46
4.1. Предпроектный анализ ……………………………………………………………………………………………….46
4.1.1. Потенциальные потребители разработки…………………………………………………………………46
4.1.2. Технология QuaD …………………………………………………………………………………………………….47
4.1.3. SWOT-анализ …………………………………………………………………………………………………………..48
4.1.4. Оценка готовности разработки к коммерциализации ……………………………………………….49
4.2. Инициация разработки ……………………………………………………………………………………………………51
4.3. Планирование управления разработкой ………………………………………………………………………….52
4.3.1. Иерархическая структура работ …………………………………………………………………………………….52
4.3.2. План разработки ……………………………………………………………………………………………………..53
4.3.2.1. Продолжительность этапов работ ………………………………………………………………………..54
4.3.2.2. Разработка графика проведения разработки ………………………………………………………..56
4.3.3. Бюджет разработки …………………………………………………………………………………………………56
4.3.3.1. Расчет материальных затрат разработки …………………………………………………………………….56
4.3.3.2. Расчет амортизационных отчислений …………………………………………………………………………57
4.3.3. Основная заработная плата исполнителей темы ……………………………………………………………58
4.3.3.4. Дополнительная заработная плата исполнителей темы ………………………………………………59
4.3.3.5. Отчисления во внебюджетные фонды (страховые отчисления) ……………………………………59
4.3.3.6. Накладные расходы …………………………………………………………………………………………………..60
4.3.3.7. Формирование бюджета затрат научно-исследовательского разработки …………………….60
4.3.4. Риски разработки…………………………………………………………………………………………………….60
4.4. Определение потенциального эффекта разработки……………………………………………………..62
4.5. Выводы по разделу …………………………………………………………………………………………………….63
5. Социальная ответственность …………………………………………………………………………………………..64
5.1. Правовые и организационные вопросы обеспечения безопасности……………………………..64
5.1.1. Специальные (характерные для проектируемой рабочей зоны) правовые норма
трудового законодательства. …………………………………………………………………………………………………64
5.1.2. Организационные мероприятия при компоновке рабочей зоны ………………………………65
5.2. Профессиональная социальная безопасность………………………………………………………………67
5.2.1. Анализ вредных и опасных факторов, которые может создать объект исследования. .68
5.2.2. Анализ вредных и опасных факторов, которые могут возникнуть на рабочем месте. …68
5.2.2.1. Отклонение показателей микроклимата. ……………………………………………………………..68
5.2.2.2. Превышение уровня шума …………………………………………………………………………………..69
5.2.2.3. Расчет искусственного освещения. ……………………………………………………………………….70
5.2.2.4. Умственное перенапряжение ………………………………………………………………………………73
5.2.3. Обоснование мероприятий по защите исследователя от действия опасных и вредных
факторов ……………………………………………………………………………………………………………………………….74
5.3. Экологическая безопасность ……………………………………………………………………………………….75
5.3.1. Анализ влияния объекта исследования на окружающую среду…………………………………75
5.3.2. Анализ влияния процесса исследования на окружающую среду……………………………….75
5.3.3. Обоснование мероприятий по защите окружающей среды ………………………………………76
5.4. Безопасность в чрезвычайных ситуациях……………………………………………………………………..76
5.4.1. Анализ вероятных ЧС, которые может инициировать объект исследований ……………..76
5.4.2. Анализ вероятных ЧС, которые могут возникнуть на рабочем месте при проведении
исследований………………………………………………………………………………………………………………………..77
5.4.3. Обоснование мероприятий по предотвращению ЧС и разработка порядка действий в
случае возникновения ЧС ………………………………………………………………………………………………………77
5.5. Вывод по главе …………………………………………………………………………………………………………..79
Заключение …………………………………………………………………………………………………………………………..80
Список публикаций и научных достижений ……………………………………………………………………………81
Список используемых источников ………………………………………………………………………………………….83
Приложение 1 (рус.яз) …………………………………………………………………………………………………………..86
Приложение 2 ……………………………………………………………………………………………………………………….98
Приложение 3 ……………………………………………………………………………………………………………………..103
Приложение 4 ……………………………………………………………………………………………………………………..105
Перечень условных обозначений и терминов
 Big Data («большие данные») – обозначение структурированных и
неструктурированных данных огромных объёмов и значительного
многообразия, эффективно обрабатываемых горизонтально
масштабируемыми программными инструментами.
 Автомобильная заправочная станция – АЗС
 Бассейновое моделирование – это динамический анализ, в основе
которого лежит численное моделирование геологических процессов,
протекающих в осадочных бассейнах.
 Фонд скважин — число и классификация по состоянию и назначению
всех пробуренных скважин (на месторождении, газовом промысле или
подземном хранилище газа). В этот фонд входят все разведочные,
эксплуатационные, наблюдательные и специальные скважины.
 Геолого-технические мероприятия – ГТМ
 Пласт – слой почвы, осадочной или магматической породы, который
сформировался на поверхности Земли и имеет внутреннюю структуру,
которая отличается от других слоёв, лежащих непосредственно над ними и
лежащих под ними по цвету, текстуре, материалу.
 Электроцентробежный насос – ЭЦН
 Выброс (англ. outlier) – в статистике результат измерения,
выделяющийся из общей выборки.
 Обводнённость скважины – содержание воды в продукции скважины,
определяемое как отношение дебита воды к сумме дебитов нефти и воды.
 Дебит – объём жидкости (воды, нефти) или газа, стабильно
поступающий из некоторого естественного или искусственного источника в
единицу времени.
 Диаметр насосно-компрессорных труб – диаметр НКТ
 CSV (от англ. Comma-Separated Values – значения, разделённые
запятыми) – текстовый формат, предназначенный для представления
табличных данных. Строка таблицы соответствует строке текста, которая
содержит одно или несколько полей, разделенных запятыми.
 Попутный газ – газ, растворенный в нефти.
 Газовая шапка – скопление свободного газа в наиболее приподнятой
части нефтяного пласта, над нефтяной залежью.
 Фонтанный способ добычи нефти – ФОН
 KNN (k-nearest algorithm imputation) – алгоритм поиска ближайшего
соседа для восстановления пропущенных значений.
 Training samples – тренировочная выборка
 Testing samples – тестовая выборка
 Нормальное распределение, также называемое распределением Гаусса
или Гаусса – Лапласа – распределение вероятностей, которое в одномерном
случае задаётся функцией плотности вероятности, совпадающей с функцией
Гаусса.

Нефтегазовые компании в процессе своей деятельности получают
петабайты данных каждый день, использование больших данных открывает
возможности анализа и предсказания развития трендов в области геологии,
инженерии, производства и наилучшего способа использования
оборудования для достижения наиболее оптимальных результатов работы на
всех стадиях своей деятельности.
Нефтяные и газовые компании не смогут воспользоваться
конкурентным преимуществом технологий Big Data, если не начнут более
эффективно управлять своими данными. К такому выводу в своем новом
докладе пришла нефтегазовая консалтинговая компания Molten. По мнению
ее экспертов, многие нефтегазовые предприятия «безответственно»
распоряжаются своими данными, несмотря на то, что тратят миллиарды
долларов в год на их сбор. По подсчетам Molten, крупные нефтегазовые
компании тратят от $1 до $3 млрд в год на сбор данных, однако расходы на
поддержание и обработку накопленной информации зачастую составляют
менее 1% от этой суммы. В то же время от компаний требуется принимать
оперативные решения и поддерживать высокий уровень производительности.
Как следствие, руководство должно полагаться на большие объемы данных,
чтобы принимать критические решения. Сфера применения технологии Big
Data в нефтегазовой отрасли очень обширна, и включает весь спектр, от
геологоразведки и разработки до переработки углеводородного сырья [1].
Целью данной магистерской диссертации является разработка

В результате выполнения магистерской диссертации были выполнены
следующие задачи:
1. Устранение ошибок и восстановление пропущенных значений с
помощью алгоритма поиска ближайшего соседа (k-nearest algorithm
imputation).
2. Построение корреляционной матрицы для исключения линейной
зависимости между атрибутами
3. Определение целевой функции для построения модели
машинного обучения
4. Проведение регрессионного анализа
5. Выделение признаков по важности
В результате проведения разведочного и регрессионного анализа
можно сделать вывод о том, что на предсказание о количестве добываемой
нефти в рассматриваемом исследовании значительно влияют лишь 10
параметров (в начале исследования их было порядка 100 единиц).
В ходе работы был получен опыт работы с такими языками
программирования как Python и R, средами разработки Jupyter Notebook и R
Studio, а также были использованы следующие инструменты и библиотеки:
pandas, numpy, seaborn и несколько библиотек из среды разработки R Studio.
Список публикаций и научных достижений
Участие в конференциях:
1. ХVl Международная научно-практическая конференция студентов,
аспирантов и молодых ученых «Молодёжь и современные и
информационные технологии» с докладами:
 Анализ социальных данных с помощью технологий Big Data
 Проектирование виртуального полигона для беспилотного автомобиля
 Разработка виртуального полигона для беспилотного автомобиля
2. VI Международная научная конференция «Информационные
технологии в науке, управлении, социальной сфере и медицине» с докладом:
 Подготовка исходных данных для углубленного анализа нефтегазового
месторождения
Премии, звания, стипендии:
1. Повышенная государственная стипендия по научно-исследовательской
деятельности, осень 2019/2020 учебного года, весна 2019/2020 учебного года.
2. Стипендия Президента РФ (или Правительства РФ) студентам ТПУ,
обучающимся по специальностям или направлениям подготовки,
соответствующим приоритетным направлениям модернизации и
технологического развития российской экономики, осень, осень 2019/2020
учебного года.
Публикации:
1. Журбич Н. И. Подготовка исходных данных для углубленного анализа
нефтегазового месторождения // Информационные технологии в науке,
управлении, социальной сфере и медицине: cборник научных трудов VI
Международной научной конференции, Томск, 14-19 Октября 2019. – Томск:
ТПУ, 2019 – C. 13-19
2. Журбич Н. И. Проектирование виртуального полигона в Unity3D //
Информационные технологии в науке, управлении, социальной сфере и
медицине: сборник научных трудов V Международной конференции: в 2 т.,
Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 249-251.
3. Журбич Н. И. Проектирование виртуального полигона для
беспилотного автомобиля // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 427-428.
4. Журбич Н. И., Фофанов О. Б. Разработка виртуального полигона для
беспилотного автомобиля // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 429-430.
5. Журбич Н. И., Зяблецев П. А. Анализ данных с помощью технологий
Big Data // Информационные технологии в науке, управлении, социальной
сфере и медицине: сборник научных трудов V Международной конференции:
в 2 т., Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 255-257.
6. Журбич Н. И., Зяблецев П. А. Анализ социальных данных с помощью
технологий Big Data // Молодежь и современные информационные
технологии: сборник трудов XVI Международной научно- практической
конференции студентов, аспирантов и молодых ученых, Томск, 3-7 Декабря
2018. – Томск: ТПУ, 2019 – C. 148-149.
7. Журбич Н. И., Зяблецев П. А. Разработка виртуального полигона в
Unity 3D // Информационные технологии в науке, управлении, социальной
сфере и медицине: сборник научных трудов V Международной конференции:
в 2 т., Томск, 17-21 Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 252-255
8. Зяблецев П. А., Журбич Н. И. Выявление факторов риска острого
инфаркта миокарда с помощью OLAP технологии // Информационные
технологии в науке, управлении, социальной сфере и медицине: сборник
научных трудов V Международной конференции: в 2 т., Томск, 17-21
Декабря 2018. – Томск: ТПУ, 2018 – Т. 1 – C. 267-270.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Читать «Методология подготовки исходных данных для модели машинного обучения в нефтегазовой области»

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Дарья П. кандидат наук, доцент
    4.9 (20 отзывов)
    Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных... Читать все
    Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных исследований, связанных с журналистикой, филологией и литературой
    #Кандидатские #Магистерские
    33 Выполненных работы
    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    Екатерина Б. кандидат наук, доцент
    5 (174 отзыва)
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподав... Читать все
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподавала учебные дисциплины: Бюджетная система Украины, Статистика.
    #Кандидатские #Магистерские
    300 Выполненных работ
    Татьяна Б.
    4.6 (92 отзыва)
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские ди... Читать все
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские диссертации, курсовые работы средний балл - 4,5). Всегда на связи!
    #Кандидатские #Магистерские
    138 Выполненных работ
    Сергей Н.
    4.8 (40 отзывов)
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных с... Читать все
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных статей в области экономики.
    #Кандидатские #Магистерские
    56 Выполненных работ
    Дмитрий Л. КНЭУ 2015, Экономики и управления, выпускник
    4.8 (2878 отзывов)
    Занимаю 1 место в рейтинге исполнителей по категориям работ "Научные статьи" и "Эссе". Пишу дипломные работы и магистерские диссертации.
    Занимаю 1 место в рейтинге исполнителей по категориям работ "Научные статьи" и "Эссе". Пишу дипломные работы и магистерские диссертации.
    #Кандидатские #Магистерские
    5125 Выполненных работ
    Дмитрий К. преподаватель, кандидат наук
    5 (1241 отзыв)
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполня... Читать все
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполняю уже 30 лет.
    #Кандидатские #Магистерские
    2271 Выполненная работа
    Татьяна С. кандидат наук
    4.9 (298 отзывов)
    Большой опыт работы. Кандидаты химических, биологических, технических, экономических, юридических, философских наук. Участие в НИОКР, Только актуальная литература (пос... Читать все
    Большой опыт работы. Кандидаты химических, биологических, технических, экономических, юридических, философских наук. Участие в НИОКР, Только актуальная литература (поставки напрямую с издательств), доступ к библиотеке диссертаций РГБ
    #Кандидатские #Магистерские
    551 Выполненная работа
    Евгений А. доктор, профессор
    5 (154 отзыва)
    Более 40 лет занимаюсь преподавательской деятельностью. Специалист в области философии, логики и социальной работы. Кандидатская диссертация - по логике, докторская - ... Читать все
    Более 40 лет занимаюсь преподавательской деятельностью. Специалист в области философии, логики и социальной работы. Кандидатская диссертация - по логике, докторская - по социальной работе.
    #Кандидатские #Магистерские
    260 Выполненных работ

    Другие учебные работы по предмету

    Интеллектуальный анализ текстовых данных с rnприменением методов машинного обучения
    📅 2019 год
    🏢 Национальный исследовательский Томский политехнический университет (ТПУ)