О применении методов обнаружения выбросов к задаче исследования проб нефти

Шелест Арина Александровна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Работа посвящена статистическому анализу проб нефти на предмет обнаружения выбросов и дальнейшей кластеризации проб. Проведен корреляционный анализ данных, описан характер распределения проб. С помощью модифицированного метода Тьюки определены подходящие границы для обнаружения и удаления выбросов. Для снижения размерности данных использован метод PCA и Feature Agglomeration. Кластеризация проведена методом k-means, для оценки качества рассмотренных алгоритмов введена метрика оценки кластеризации Rand. Для реализации данной прикладной задачи написана программа на языке Python.

Введение …………………………………………………………………………………………….. 3
Постановка задачи……………………………………………………………………………….. 4
Обзор литературы………………………………………………………………………………… 6
Глава 1. Исследование проб нефти…………………………………………………………. 8
1.1. Нефтеносный пласт …………………………………………………………………….. 8
1.2. Метод газовой хроматографии при исследовании проб нефти ………… 10
Глава 2. Обработка данных …………………………………………………………………. 16
2.1. Первичный анализ результатов …………………………………………………… 16
2.2. Проверка данных на нормальность распределения ………………………… 19
2.3. Приведение распределения отличного от нормального ………………….. 22
2.4. Определение взаимосвязи между пробами……………………………………. 24
2.5. Обнаружение выбросов ……………………………………………………………… 28
Глава 3. Кластеризация……………………………………………………………………….. 31
3.1. Постановка задачи и проблемы …………………………………………………… 31
3.2. Методы снижения размерности данных ……………………………………….. 32
3.3. Метрика качества кластеризации ………………………………………………… 34
3.4. Метод k-means ………………………………………………………………………….. 36
3.5. Результаты ……………………………………………………………………………….. 38
Заключение ……………………………………………………………………………………….. 40
Список литературы…………………………………………………………………………….. 42
Приложение 1 Фрагмент данных газовой хроматографии ……………………….. 44
Приложение 2 Код программы …………………………………………………………….. 46

Методы многомерного анализа данных тесно связаны с
математической статистикой, она широко используется в физическом и
химическом анализе, в частности, для вычисления средних, отклонений,
пределов обнаружения, проверки гипотез. Проблема обнаружения измерений,
негативно влияющих на обеспечение чистоты анализа данных – одна из
основных проблем анализа данных.
Данная работа посвящена анализу проб нефти с целью обнаружения
выбросов – результатов измерения, выделяющихся из общей выборки [4] – и
дальнейшей кластеризации полученных проб. По результатам лабораторных
анализов судят о среднем составе и параметрах добытой нефти. Достоверность
выявленных параметров нефти зависит не только от точности лабораторного
оборудования и тщательности соблюдения методик измерений физико-
химических свойств нефти, но и от правильности отбора проб. Если проба
оказалась случайной и не характеризует средний состав прошедшей нефти, то
и её анализ не может отразить действительного физико-химического состава.
Под погрешностью отбора проб понимают отклонение значения величины,
характеризующей состав, свойства пробы вещества от значения этой же
величины характеризующей состав, свойства объекта аналитического
контроля в целом.
В данной работе описан и модифицирован один из методов
обнаружения выбросов в одномерных наборах данных, проведен
корреляционный анализ, описан кластерный анализ, применимый к задаче
исследования проб нефти, введена метрика для оценки качества
кластеризации.
Постановка задачи
Получены данные газовой хроматографии по 23 пробам, взятые из 6
пластов одного месторождения, каждая проба характеризуется набором 330
параметров, представляющие собой индексы удерживания единичного
межалканового пика (индексы Ковача).
Изначально данные были сгруппированы по скважинам. В таблице 1
приведены характеристики каждой из проб (привязка: месторождение отбора;
скважина/куст; статиграфическая привязка (свита/горизонт, возраст); глубина,
интервал отбора, место взятия от верха; пласт).
Таблица 1 – Соответствие проб и пластов
№ пробы Параметры скважины Пласт
1 П-10419ГС125-АС10.4(6) АС10.4(6)
2 П-10420ГС127-АС10.4(6) АС10.4(6)
3 П-1258А-АС10.1-3(1) АС10.1-3(1)
4 П-15932БС8А-АС10.1-3(1) АС10.1-3(1)
5 П-16499БС44-АС10.4(1) АС10.4(1)
6 П-19659ГС124А-АС10.1-3(1) АС10.1-3(1)
7 П-30111А-АС10.1-3(1) АС10.1-3(1)
8 П-30611А-АС10.1-3(1) АС10.1-3(1)
9 П-30711-АС10.1-3(1) АС10.1-3(1)
10 П-30937ГС76А-АС10.0.1(1) АС10.0.1(1)
11 П-30977ГС76А-АС10.0.1(1) АС10.0.1(1)
12 П-35375ГС722-АС10.0.1(1) АС10.0.1(1)
13 П-35376ГС721А-АС10.1-3(1) АС10.1-3(1)
14 П-35422ГС721А-АС10.0.1(1) АС10.0.1(1)
15 П-35423ГС721А-АС10.0.1(1) АС10.0.1(1)
16 П-35424ГС721А-АС10.0.1(1) АС10.0.1(1)
17 П-41932ГС21Б-АС12.3-5(4) АС12.3-5(4)
18 П-42095ГС25А-АС12.3-5(4) АС12.3-5(4)
19 П-42097ГС25А-АС12.3-5(4) АС12.3-5(4)
20 П-42099ГС25А-АС12.3-5(4) АС12.3-5(4)
21 П-42104ГС14А-АС12.3-5(4) АС12.3-5(4)
22 П-42106ГС14А-АС12.3-5(4) АС12.3-5(4)
23 П-42108ГС14А-АС12.1(2) АС12.1(2)
Необходимо:
– обнаружить измерения, негативно влияющие на обеспечение чистоты
анализа данных;
– определить взаимосвязь между полученными данными;
– осуществить разбиение проб на кластеров.

Целью данной работы был анализ проб нефти на наличие выбросов, а
также кластеризация найденных проб.
При первичном анализе данных с помощью инструментов
дескриптивной статистики был описан характер распределения проб,
построенные графики квантиль-квантиль показали рассогласование
исследуемого и нормального распределения в каждой пробе.
Построенные корреляционные матрицы Спирмена, Пирсона, Кендала
показали, что полученные данные проб сильно коррелируют между собой.
На последующем этапе обработки полученных данных с помощью
тестов Шапиро-Уилка, Колмогорова-Смирнова и Адерсона-Дарлинга нулевая
гипотеза 0 «случайная величина распределена нормально» была отклонена.
Универсальные преобразования логарифмирования и метод Бокса-
Кокса не привели распределение данных к нормальному, поэтому, для
следующего этапа работы – обнаружения выбросов, – был выбран метод
Тьюки, использующийся в таких задачах, где распределение неизвестно или
не соответствует нормальному. На основе экспериментов была произведена
его модификация, определены подходящие границы для обнаружения и
удаления выбросов.
Для снижения размерности данных был использован метод главных
компонент (PCA) и агломеративный метод иерархической кластеризации
(Feature Agglomeration).
Далее для «очищенных» данных была произведена кластеризация 3
способами: методом k-means без уменьшения размерности данных (метод 1),
методом k-means c уменьшением размерности данных при помощи PCA
(метод 2); методом k-means c уменьшением размерности данных при помощи
Feature Agglomeration (метод 3).
Для оценки качества алгоритма была введена метрика оценки
кластеризации Rand. На ее основе наиболее подходящий из рассмотренных в
работе алгоритмов кластеризации оказалась кластеризация методом 3.
Тем не менее, рассмотренные алгоритмы не сгруппировали все пробы
по кластерам, соответствующим пластам. Это может быть связано со
специфичностью данных – малый объем выборки, зависимость результатов
химического эксперимента от таких составляющих как точность
оборудования, способ забора проб и другого. Альтернативными методами
кластеризации являются метод нечеткой кластеризации c-means и Expectation-
maximization (EM)-алгоритм. На большей выборке данных возможно
использовать иерархические методы классификации.
Таким образом, пробы № 1-2 отнесены к пласту АС10.4(6) (кластер 1),
пробы № 3-4, 6-9 отнесены к пласту АС10.1-3(1) (кластер 1) с вероятность 0.83.
Проба № 5 так же отнесена к кластеру 1, но взята из пласта АС10.4(1). Проба
№ 23 отнесена к пласту АС12.1(2) (кластер 4). Пробы № 10-12, 14-16 отнесены
к пласту АС10.0.1(1) (кластер 4) с вероятностью 0.5. С вероятностью 0.33
пробы № 17-22 отнесены к пласту АС12.3-5(4) (кластер 5).

1.ГОСТ 17567-81. Хроматография газовая. Термины и определения.
– М.: Издательство стандартов, 1981. – с. 12.
2.Буре В.М., Парилина Е.М. Теория вероятностей и математическая
статистика. – СПб.: Лань, 2013. – с. 334-338.
3.Гиматудинов Ш.К. Физика нефтяного и газового пласта. – M.:
Недра, 1971. – 310 с.
4.Зейдель А.Н. Элементарные оценки ошибок измерений. – М.:
Наука, 1965. – 96 с.
5.Кобзарь А.И. Прикладная математическая статистика. Для
инженеров и научных работников. – М.: ФИЗМАТЛИТ., 2006. – с. 220-221,
233, 238-241, 278.
6.Мандель И.Д. Кластерный анализ. – М.: Финансы и статистика,
1988. – 176 с.
7.РуденкоБ.А.,РуденкоГ.И.Высокоэффективные
хроматографические процессы. – М.: Наука, 2003. – 425 с.
8.Шакирова Д.И., Рождественский Д.А. Газовая хроматография –
Режимдоступа:https://eurasiancommission.org/ru/act/texnreg/deptexreg/
LS1/Documents /2.2.28%20Газовая%20хроматография.pdf (датаобращения
02.05.2020).
9.Шакирова Д.И., Рождественский Д.А. Хроматографические
методыразделения.–Режимдоступа:eurasiancommission.org/ru/act/
texnreg/deptexreg/LS1/Documents/2.2.46%20Хроматографические%20методы
%20разделения.pdf (дата обращения 02.05.2020).
10. Bellman R.E. Adaptive Control Processes. – Princeton University
Press, Princeton, NJ, 1961. – 255 p.
11. Frigge M., Hoaglin, D., Iglewicz, B. Some Implementations of the
Boxplot. – The American Statistician, 1989. – p. 120.
12. Iglewicz B., Hoaglin, D. How to detect and handle outliers. – ASQC
Quality Press, 1993. – 458 p.
13. Kleinberg J. An impossibility theorem for clustering. – Режим
доступа: https://www.cs.cornell.edu/home/kleinber/nips15.pdf (дата обращения
02.05.2020).
14. Lance G.N., Williams W.T. A General Theory of Classificatory Sorting
Strategies: 1. Hierarchical Systems. – The Computer Journal, V.9, I.4, 1967. –
p. 373-380.
15. Rand W.M. Objective criteria for the evaluation of clustering
methods. – Journal of the American Statistical Association. American Statistical
Association, 1971. – p. 846-850.
16. Shapiro S.S., Wilk M.B. An analysisof variance test for
normality (complete samples). – Biometrika, 1965. – 611 p.
17. Tukey J. Exploratory Data Analysis. – Addison Wesley Publishing
Company, 1970. – 722 p.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Елена Л. РЭУ им. Г. В. Плеханова 2009, Управления и коммерции, пре...
    4.8 (211 отзывов)
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно исполь... Читать все
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно использую в работе графический материал (графики рисунки, диаграммы) и таблицы.
    #Кандидатские #Магистерские
    362 Выполненных работы
    Глеб С. преподаватель, кандидат наук, доцент
    5 (158 отзывов)
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной с... Читать все
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной специальности 12.00.14 административное право, административный процесс.
    #Кандидатские #Магистерские
    216 Выполненных работ
    Мария Б. преподаватель, кандидат наук
    5 (22 отзыва)
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальнос... Читать все
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальности "Экономика и управление народным хозяйством". Автор научных статей.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Антон П. преподаватель, доцент
    4.8 (1033 отзыва)
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публик... Читать все
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публикуюсь, имею высокий индекс цитирования. Спикер.
    #Кандидатские #Магистерские
    1386 Выполненных работ
    Виктор В. Смоленская государственная медицинская академия 1997, Леч...
    4.7 (46 отзывов)
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выв... Читать все
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выводы).Пишу статьи в РИНЦ, ВАК.Оформление патентов от идеи до регистрации.
    #Кандидатские #Магистерские
    100 Выполненных работ
    Дмитрий М. БГАТУ 2001, электрификации, выпускник
    4.8 (17 отзывов)
    Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал стать... Читать все
    Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал статьи, патенты, кандидатскую диссертацию, преподавал. Занимаюсь этим с 2003.
    #Кандидатские #Магистерские
    19 Выполненных работ
    Екатерина С. кандидат наук, доцент
    4.6 (522 отзыва)
    Практически всегда онлайн, доработки делаю бесплатно. Дипломные работы и Магистерские диссертации сопровождаю до защиты.
    Практически всегда онлайн, доработки делаю бесплатно. Дипломные работы и Магистерские диссертации сопровождаю до защиты.
    #Кандидатские #Магистерские
    1077 Выполненных работ
    Шиленок В. КГМУ 2017, Лечебный , выпускник
    5 (20 отзывов)
    Здравствуйте) Имею сертификат специалиста (врач-лечебник). На данный момент являюсь ординатором(терапия, кардио), одновременно работаю диагностом. Занимаюсь диссертац... Читать все
    Здравствуйте) Имею сертификат специалиста (врач-лечебник). На данный момент являюсь ординатором(терапия, кардио), одновременно работаю диагностом. Занимаюсь диссертационной работ. Помогу в медицинских науках и прикладных (хим,био,эколог)
    #Кандидатские #Магистерские
    13 Выполненных работ
    Вирсавия А. медицинский 1981, стоматологический, преподаватель, канди...
    4.5 (9 отзывов)
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - ... Читать все
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - медицина, биология, антропология, биогидродинамика
    #Кандидатские #Магистерские
    12 Выполненных работ

    Другие учебные работы по предмету

    Кооперативные игры на гиперграфах
    📅 2019год
    🏢 Санкт-Петербургский государственный университет