Алгоритмическое и программное обеспечение выделения значимых rnпредикторов из медицинской документации осмотра пациента
В рамках данной работы произведен отбор значимых текстовых признаков и построение модели машинного обучения для классификации фрагментов медицинской документации. Исследование проводилось на основе данных документов “Осмотр в стационаре при поступлении” из историй болезни пациентов, страдающих рожистыми воспалениями. Произведен выбор наилучшей модели классификатора, подбор оптимальных гиперпараметров, а также оценка качества классификации.
Введение…………………………………………………………………………………………… 13
1. Обзор литературы ………………………………………………………………………. 15
2. Объект и методы исследования ………………………………………………….. 19
2.1. Описание объекта…………………………………………………………………. 19
2.2. Методы ………………………………………………………………………………… 20
2.2.1. Метод извлечения текстовых признаков TF-IDF ……………… 20
2.2.2. Метод опорных векторов ………………………………………………… 21
2.2.3. Критерий хи-квадрат для отбора признаков …………………….. 23
3. Расчеты и аналитика ………………………………………………………………….. 24
3.1. Выбор программного обеспечения ……………………………………….. 24
3.2. Используемые Python библиотеки ………………………………………… 25
3.3. Загрузка и предварительный анализ данных …………………………. 26
3.4. Предварительная подготовка и выделение признаков из
текстовых данных…………………………………………………………………………………. 26
3.5. Разделение данных на обучающее и тестовое подмножества…. 27
3.6. Построение классификатора …………………………………………………. 28
3.6.1. Выбор модели классификатора ……………………………………….. 28
3.6.2. Подбор оптимальных параметров классификатора ………….. 28
3.6.3. Построение классификатора с оптимальными параметрами30
4. Результаты …………………………………………………………………………………. 31
4.1. Оценка значимости признаков ……………………………………………… 31
4.2. Классификатор фрагментов документа из истории болезни …… 32
4.2.1. Выявление признаков, значимых для классификатора …….. 36
5. Финансовый менеджмент, ресурсоэффективность и
ресурсосбережение…………………………………………………………………………………… 38
5.1. Предпроектный анализ …………………………………………………………. 38
5.1.1. Технология Quad …………………………………………………………….. 39
5.1.2. Диаграмма Исикавы ……………………………………………………….. 40
5.1.3. Оценка готовности научно-исследовательского проекта к
коммерциализации ……………………………………………………………………………. 41
5.2. Инициация научно-исследовательского проекта …………………… 43
5.2.1. Цели и результат научно-исследовательского проекта …….. 43
5.2.2. Организационная структура научно-исследовательского
проекта 44
5.3. Планирование управления научно-исследовательским проектом
5.3.1. План научно-исследовательского проекта ……………………….. 45
5.3.2. Бюджет научно-исследовательского проекта …………………… 47
5.3.3. Риски научно-исследовательского проекта ……………………… 50
5.3.4. Описание потенциального эффекта …………………………………. 51
6. Социальная ответственность ………………………………………………………. 52
6.1. Правовые и организационные вопросы обеспечения
безопасности ………………………………………………………………………………………… 53
6.1.1. Специальные правовые нормы трудового законодательства
6.1.2. Организационные мероприятия при компоновке рабочей
зоны 58
6.2. Производственная безопасность …………………………………………… 63
6.2.1. Анализ вредных и опасных факторов, которые может создать
объект исследования …………………………………………………………………………. 63
6.2.2. Анализ вредных и опасных факторов, которые могут
возникнуть на производстве при внедрении объекта исследования ……. 64
6.2.3. Обоснование мероприятий по защите персонала
предприятия от действия опасных и вредных факторов (техника
безопасности и производственная санитария) ……………………………………. 66
6.3. Экологическая безопасность…………………………………………………. 77
6.4. Безопасность в чрезвычайных ситуациях………………………………. 78
6.4.1. Анализ вероятных ЧС, которые может инициировать объект
исследований ……………………………………………………………………………………. 78
6.4.2. Анализ причин, которые могут вызвать ЧС на производстве
при внедрении объекта исследований ……………………………………………….. 79
6.4.3. Обоснование мероприятий по предотвращению ЧС и
разработка порядка действия в случае возникновения ЧС ………………….. 80
Заключение ………………………………………………………………………………………. 82
Список публикаций и научных достижений ………………………………………. 83
Список используемых источников …………………………………………………….. 85
Приложение А ………………………………………………………………………………….. 87
Приложение Б – Пример документа «Осмотр в стационаре при
поступлении» …………………………………………………………………………………………… 97
Приложение В – Листинг исходного кода ………………………………………… 99
Современный мир постоянно меняется и развивается. На данный
момент, мобильных телефонов существует больше, чем людей. Люди
используют виртуальных ассистентов, автомобили, управляемые
автопилотом, а также ищут информацию в интернете о том или ином
симптоме заболевания.
Здравоохранение и аналитика являются одними из самых
быстрорастущих областей в промышленности и разработке учебных
программ [1].
Современный мир называют эрой данных, потому что ежедневно мы
собираем огромный объем данных. Данные получают как из социальных
сетей, так и от конкретных датчиков. По некоторым оценкам к 2020 году
каждый человек будет создавать 1,7 мегабайта данных в секунду [2]. В то же
время, имея так много данных и не используя их, возникает вопрос, почему
мы все еще собираем и храним так много данных? Очевидно, что мы должны
использовать современные технологии не только для сбора и хранения, но и
для извлечения знаний из доступных данных.
Система здравоохранения генерирует почти 1/3 мировых данных, и
заинтересованные стороны в области здравоохранения надеются на
аналитику данных и медицинскую информатику, благодаря которым желают
устранить медицинские ошибки, сокращая количество повторных
обращений, предоставляя медицинскую помощь на основе фактических
данных и демонстрируя качественные результаты. Существует значительная
потребность в использовании растущих объемов данных при помощи
аналитики для анализа и принятия решений в здравоохранении [3].
Несмотря на то, что медицина была восприимчива к преимуществам
больших данных и искусственного интеллекта, она медленно внедряла
быстро развивающиеся технологии, особенно по сравнению с такими
секторами как финансы, развлечения и транспорт [4].
Все данные можно разделить по их типу на структурированные и
неструктурированные данные соответственно. Структурированные данные
обладают высокой степенью организованности и упрощают поиск
информации. Для этой цели структурированные данные обычно хранятся в
реляционной базе данных. Неструктурированные данные не имеют
предопределенной модели или схемы. Так как неструктурированные данные
не имеют идентифицируемой структуры, это и создает сложности для поиска
информации. Электронная почта, текстовые сообщения, публикации в
социальных сетях являются хорошими примерами неструктурированных
данных. Около 80% мировых данных представлены в неструктурированном
виде. Далеко не всегда возможно преобразовать неструктурированные
данные в структурированную модель, однако аналитика
неструктурированных данных улучшается с использованием науки о данных
и таких методов машинного обучения, как обработка естественного
языка (NLP).
Большая часть медицинских данных представлена в виде изображений,
например, результатов рентгенографии, или текстовых данных, будь то в
рукописном или машинописном варианте. Очевидно, эти данные являются
неструктурированными и сложнее поддаются анализу. Возможно, это
послужило одной из причин медленного внедрения технологий машинного
обучения в области медицины.
Целью работы является разработка алгоритмического и программного
обеспечения выделения значимых предикторов из медицинской
документации осмотра пациента, а также построение классификатора.
В рамках данной работы проводится обработка текстовых медицинских
данных. Так как зачастую текстовые данные содержат достаточно объемный
набор признаков, в рамках данного исследования выявляются наиболее
значимые признаки для дальнейшего анализа. Также предложен подход
классификации блоков электронных записей врачебного осмотра для сбора
предикторов и формирования эффективной схемы лечения.
1. Обзор литературы
В современном мире к большинству задач применяются методы
машинного обучения. Методы машинного обучения и анализа данных
помогают прогнозировать будущее, строить модели принятия решений для
выбора наилучшей из двух и более альтернатив.
Модели принятия решений принимают разные формы, и одной из них
является прогнозное моделирование. Прогнозное моделирование – это
использование алгоритма и программного обеспечения для больших наборов
данных для прогнозирования потенциальных результатов, где алгоритм
представляет собой формулу или расчет, используемый для решения
проблемы в модели. В сфере здравоохранения существует огромная
возможность использовать большие данные для прогнозного моделирования.
В рамках данной работы решены поставленные задачи: выделены
значимые предикторы для классификации, построен классификатор для
распознавания фрагментов документа из истории болезни пациента.
Оценка значимости предикторов проведена по средствам критерия хи-
квадрат. Сравнительный анализ предикторов, выбранных по хи-квадрат
критерию, с выбранными по частотной оценке, показал недостаточную
информативность частотного критерия. Поэтому представление текстовой
информации в виде доступном для подачи на вход алгоритмам машинного
обучения проведено при помощи метода TF-IDF, так как данный метод
наделяет объекты свойствами полезными для дальнейшего построения
классификатора. Метрика TF-IDF позволила учесть частоту значимых слов,
при этом уменьшая вес широкоупотребительных слов.
Построен ряд моделей для распознавания фрагмента текста как объекта
одного из разделов документа истории болезни. Из полученных моделей
выявлена лучшая – метод опорных векторов. Для данной модели
осуществлен исчерпывающий поиск по сетке значений параметров с целью
определения оптимальных параметров классификатора для данной задачи.
Проведена оценка эффективности построенного классификатора, по
результатам которой на тестовой выборке имеем следующие результаты:
точность классификатора (precision) равна 0,89, полнота (recall) – 0,88, f-мера
(f1-score) – 0,88.
В результате проделанной работы для классификации фрагментов
документов из истории болезни предлагается использование классификатора
LinearSVC библиотеки scikit-learn. Использование разработанной модели
поможет в построении эффективных медицинский информационных систем.
Разработаны разделы «Финансовый менеджмент,
ресурсоэффективность и ресурсосбережение», «Социальная
ответственность», а также раздел на иностранном языке (английский) – «Data
Analytics in Healthcare», размещенный в Приложении А.
Список публикаций и научных достижений
Участие в конференциях:
1. Диплом 1 степени, Международная научно-практическая конференция
«Электронные средства и системы управления», г. Томск, 2018 г.;
2. Диплом за участие, Международная научно-техническая конференция
студентов, аспирантов и молодых ученых “Научная сессия ТУСУР –
2019”, г. Томск;
3. Диплом за участие, Международная научно-практическая конференция
«Новая наука: история становления, современное состояние,
перспективы развития», г. Казань, 2018 г.
4. Сертификат участника, Международная научно-практическая
конференция студентов, аспирантов и молодых ученых «Молодёжь и
современные информационные технологии», г. Томск, 2017 г.
5. Сертификат участника, Международная школа «Научный компьютинг,
аналитика больших данных и технологии машинного обучения для
мегасайнс проектов», г. Дубна, 2018 г.
Участие в конкурсах:
1. Диплом за 1 место, Хакатон «Digital Hack», г. Томск, 2017 г.
2. Диплом за участие, 2 тур конкурсного отбора Стипендиальной
программы В. Потанина, г. Томск, 2018 г.
3. Диплом за участие, 2 тур конкурсного отбора Стипендиальной
программы В. Потанина, г. Томск, 2019 г.
Премии, звания, стипендии:
1. Именная стипендия ПАО «Транснефть» (г. Москва) студентам ТПУ (с
1 июля 2018 г. по 30 июня 2019 г.);
2. Стипендия Правительства РФ (с 1 сентября 2018г. по 31 августа 2019г.)
3. Повышенная стипендия ТПУ (с 1 февраля 2019 г. по 30 июня 2019 г.)
4. Сертификат владения английским языком ТПУ 3 (C1 – Effectiveness),
2017 г.
Публикации:
1. Демченко, И. С. Modern big data preprocessing techniques [Электронный
ресурс] / И. С. Демченко, науч. рук. Е. И. Губин // Новая наука: история
становления, современное состояние, перспективы развития: сборник
статей по итогам Международной научно-практической конференции.
– 2018. – Ч. 1. – [С. 4-7]. – Заглавие с экрана. – Доступ по договору с
организацией-держателем ресурса. Режим доступа:
https://elibrary.ru/item.asp?id=32852211
2. Д.Д. Богданов, И.С. Демченко. Разработка программы голосового
ввода в виде web-приложения для эффективного заполнения
медицинских карточек пациентов. – Сборник научных трудов
Международной конференции студентов, аспирантов и молодых
ученых, 23-26 апреля 2019 г.
3. И.С. Демченко. Построение классификатора для распознавания
фрагмента истории болезни. – Сборник научных трудов
Международной научно-технической конференции студентов,
аспирантов и молодых ученых «Научная сессия ТУСУР – 2019», г.
Томск, 22-24 мая 2019 г.
4. Demchenko I.S., Inkhireeva T.A. «Gender recognition by voice»:
Материалы XIV Международной научно-практической конференции
«Электронные средства и системы управления» (28-30 ноября 2018 г.):
в 2 ч. – Ч.2. –Томск: В-Спектр, 2018 – 314с.
5. Казакявичюс И.С., Гергет О.М. «Разработка системы поддержки
принятия решения врача, реализующей помощь в выборе
управляющего воздействия» // Молодежь и современные
информационные технологии: сборник трудов XV Международной
научно-практической конференции студентов, аспирантов и молодых
ученых, Томск, 4-7 Декабря 2017. – Томск: ТПУ, 2018 – C. 400-401;
1. КобринскийБ.А.Системыподдержкипринятиярешенийв
здравоохранении и обучении (ФГУ «Московский НИИ педиатрии и
детскойхирургииРосмедтехнологий»,ГОУВПО«Российский
государственный медицинский университет Росздрава»)
2. Ervin Sejdic, Tiago H. Falk. Signal Processing and Machine Learning for
Biomedical Big Data. CRC Press, – 2018.
3. Applied Health Analytics and Informatics Using SAS – Joseph M.
Woodside
4. Machine Learning and AI for Healthcare. Big Data for Improved Health
Outcomes
5. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean.
DistributedRepresentationsofWordsandPhrasesandtheir
Compositionality
6. Jones K. S. A statistical interpretation of term specificity and its application
in retrieval (англ.) // Journal of Documentation : журнал. — MCB
University: MCB University Press, 2004. — Vol. 60, no. 5. — P. 493-502.
— ISSN 0022-0418.
7. Рашка С. Python и машинное обучение / пер. с англ. А.В. Логунова. –
М.: ДМК Пресс, 2017. – 418 с.: ил.
8. Дронов, В.А. Программирование. — СПб.: БХВ-Петербург, 2006. —
706 с.: ил.
9. Dean Abbott. Applied Predictive Analytics: Principles and Techniques for
the Professional Data Analyst. Wiley
10.ГОСТ 12.0.003-74. ССБТ. Опасные и вредные производственные
факторы. Классификация.
11.СанПиН 2.2.4-548-96. Гигиенические требования к микроклимату
производственных помещений.
12.СНиП 23-05-95. Естественное и искусственное освещение.
13.ГОСТ 12.1.003-83 ССБТ. Шум. Общие требования безопасности.
14.СанПиН 2.2.2/2.4.1340-03. Санитарно–эпидемиологические правила и
нормативы«Гигиеническиетребованиякперсональным
электронновычислительным машинам и организации работы».
15.ГОСТ 12.1.030–81 ССБТ. Защитное заземление, зануление.
16.СН 2.2.4/2.1.8.562–96. Шум на рабочих местах, в помещениях жилых,
общественных зданий и на территории застройки.
17.ГОСТ Р 12.1.019-2009 ССБТ. Электробезопасность. Общие требования
и номенклатура видов защиты.
18.Федеральный классификационный каталог отходов [Электронный
ресурс].–2013.–Режимдоступа:
http://www.ecoguild.ru/faq/fedwastecatalog.htm, свободный.
19.ГОСТ 12.1.004-91 ССБТ. Пожарная безопасность. Общие требования.
20.СНиП 21-01-97. Пожарная безопасность зданий и сооружений.
21.ГОСТР12.2.143-2002ССБТ.Системыфотолюминесцентные
эвакуационные. Элементы систем. Классификация. Общие технические
требования. Методы контроля.
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!