Алгоритмическое и программное обеспечение выделения значимых rnпредикторов из медицинской документации осмотра пациента

Демченко, Ирина Сергеевна Отделение информационных технологий (ОИТ)
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В рамках данной работы произведен отбор значимых текстовых признаков и построение модели машинного обучения для классификации фрагментов медицинской документации. Исследование проводилось на основе данных документов “Осмотр в стационаре при поступлении” из историй болезни пациентов, страдающих рожистыми воспалениями. Произведен выбор наилучшей модели классификатора, подбор оптимальных гиперпараметров, а также оценка качества классификации.

Введение…………………………………………………………………………………………… 13

1. Обзор литературы ………………………………………………………………………. 15

2. Объект и методы исследования ………………………………………………….. 19

2.1. Описание объекта…………………………………………………………………. 19

2.2. Методы ………………………………………………………………………………… 20

2.2.1. Метод извлечения текстовых признаков TF-IDF ……………… 20

2.2.2. Метод опорных векторов ………………………………………………… 21

2.2.3. Критерий хи-квадрат для отбора признаков …………………….. 23

3. Расчеты и аналитика ………………………………………………………………….. 24

3.1. Выбор программного обеспечения ……………………………………….. 24

3.2. Используемые Python библиотеки ………………………………………… 25

3.3. Загрузка и предварительный анализ данных …………………………. 26

3.4. Предварительная подготовка и выделение признаков из
текстовых данных…………………………………………………………………………………. 26

3.5. Разделение данных на обучающее и тестовое подмножества…. 27

3.6. Построение классификатора …………………………………………………. 28

3.6.1. Выбор модели классификатора ……………………………………….. 28

3.6.2. Подбор оптимальных параметров классификатора ………….. 28

3.6.3. Построение классификатора с оптимальными параметрами30

4. Результаты …………………………………………………………………………………. 31

4.1. Оценка значимости признаков ……………………………………………… 31

4.2. Классификатор фрагментов документа из истории болезни …… 32

4.2.1. Выявление признаков, значимых для классификатора …….. 36
5. Финансовый менеджмент, ресурсоэффективность и
ресурсосбережение…………………………………………………………………………………… 38

5.1. Предпроектный анализ …………………………………………………………. 38

5.1.1. Технология Quad …………………………………………………………….. 39

5.1.2. Диаграмма Исикавы ……………………………………………………….. 40

5.1.3. Оценка готовности научно-исследовательского проекта к
коммерциализации ……………………………………………………………………………. 41

5.2. Инициация научно-исследовательского проекта …………………… 43

5.2.1. Цели и результат научно-исследовательского проекта …….. 43

5.2.2. Организационная структура научно-исследовательского
проекта 44

5.3. Планирование управления научно-исследовательским проектом
5.3.1. План научно-исследовательского проекта ……………………….. 45

5.3.2. Бюджет научно-исследовательского проекта …………………… 47

5.3.3. Риски научно-исследовательского проекта ……………………… 50

5.3.4. Описание потенциального эффекта …………………………………. 51

6. Социальная ответственность ………………………………………………………. 52

6.1. Правовые и организационные вопросы обеспечения
безопасности ………………………………………………………………………………………… 53

6.1.1. Специальные правовые нормы трудового законодательства
6.1.2. Организационные мероприятия при компоновке рабочей
зоны 58

6.2. Производственная безопасность …………………………………………… 63
6.2.1. Анализ вредных и опасных факторов, которые может создать
объект исследования …………………………………………………………………………. 63

6.2.2. Анализ вредных и опасных факторов, которые могут
возникнуть на производстве при внедрении объекта исследования ……. 64

6.2.3. Обоснование мероприятий по защите персонала
предприятия от действия опасных и вредных факторов (техника
безопасности и производственная санитария) ……………………………………. 66

6.3. Экологическая безопасность…………………………………………………. 77

6.4. Безопасность в чрезвычайных ситуациях………………………………. 78

6.4.1. Анализ вероятных ЧС, которые может инициировать объект
исследований ……………………………………………………………………………………. 78

6.4.2. Анализ причин, которые могут вызвать ЧС на производстве
при внедрении объекта исследований ……………………………………………….. 79

6.4.3. Обоснование мероприятий по предотвращению ЧС и
разработка порядка действия в случае возникновения ЧС ………………….. 80

Заключение ………………………………………………………………………………………. 82

Список публикаций и научных достижений ………………………………………. 83

Список используемых источников …………………………………………………….. 85

Приложение А ………………………………………………………………………………….. 87

Приложение Б – Пример документа «Осмотр в стационаре при
поступлении» …………………………………………………………………………………………… 97

Приложение В – Листинг исходного кода ………………………………………… 99

Современный мир постоянно меняется и развивается. На данный
момент, мобильных телефонов существует больше, чем людей. Люди
используют виртуальных ассистентов, автомобили, управляемые
автопилотом, а также ищут информацию в интернете о том или ином
симптоме заболевания.
Здравоохранение и аналитика являются одними из самых
быстрорастущих областей в промышленности и разработке учебных
программ [1].
Современный мир называют эрой данных, потому что ежедневно мы
собираем огромный объем данных. Данные получают как из социальных
сетей, так и от конкретных датчиков. По некоторым оценкам к 2020 году
каждый человек будет создавать 1,7 мегабайта данных в секунду [2]. В то же
время, имея так много данных и не используя их, возникает вопрос, почему
мы все еще собираем и храним так много данных? Очевидно, что мы должны
использовать современные технологии не только для сбора и хранения, но и
для извлечения знаний из доступных данных.
Система здравоохранения генерирует почти 1/3 мировых данных, и
заинтересованные стороны в области здравоохранения надеются на
аналитику данных и медицинскую информатику, благодаря которым желают
устранить медицинские ошибки, сокращая количество повторных
обращений, предоставляя медицинскую помощь на основе фактических
данных и демонстрируя качественные результаты. Существует значительная
потребность в использовании растущих объемов данных при помощи
аналитики для анализа и принятия решений в здравоохранении [3].
Несмотря на то, что медицина была восприимчива к преимуществам
больших данных и искусственного интеллекта, она медленно внедряла
быстро развивающиеся технологии, особенно по сравнению с такими
секторами как финансы, развлечения и транспорт [4].
Все данные можно разделить по их типу на структурированные и
неструктурированные данные соответственно. Структурированные данные
обладают высокой степенью организованности и упрощают поиск
информации. Для этой цели структурированные данные обычно хранятся в
реляционной базе данных. Неструктурированные данные не имеют
предопределенной модели или схемы. Так как неструктурированные данные
не имеют идентифицируемой структуры, это и создает сложности для поиска
информации. Электронная почта, текстовые сообщения, публикации в
социальных сетях являются хорошими примерами неструктурированных
данных. Около 80% мировых данных представлены в неструктурированном
виде. Далеко не всегда возможно преобразовать неструктурированные
данные в структурированную модель, однако аналитика
неструктурированных данных улучшается с использованием науки о данных
и таких методов машинного обучения, как обработка естественного
языка (NLP).
Большая часть медицинских данных представлена в виде изображений,
например, результатов рентгенографии, или текстовых данных, будь то в
рукописном или машинописном варианте. Очевидно, эти данные являются
неструктурированными и сложнее поддаются анализу. Возможно, это
послужило одной из причин медленного внедрения технологий машинного
обучения в области медицины.
Целью работы является разработка алгоритмического и программного
обеспечения выделения значимых предикторов из медицинской
документации осмотра пациента, а также построение классификатора.
В рамках данной работы проводится обработка текстовых медицинских
данных. Так как зачастую текстовые данные содержат достаточно объемный
набор признаков, в рамках данного исследования выявляются наиболее
значимые признаки для дальнейшего анализа. Также предложен подход
классификации блоков электронных записей врачебного осмотра для сбора
предикторов и формирования эффективной схемы лечения.
1. Обзор литературы
В современном мире к большинству задач применяются методы
машинного обучения. Методы машинного обучения и анализа данных
помогают прогнозировать будущее, строить модели принятия решений для
выбора наилучшей из двух и более альтернатив.
Модели принятия решений принимают разные формы, и одной из них
является прогнозное моделирование. Прогнозное моделирование – это
использование алгоритма и программного обеспечения для больших наборов
данных для прогнозирования потенциальных результатов, где алгоритм
представляет собой формулу или расчет, используемый для решения
проблемы в модели. В сфере здравоохранения существует огромная
возможность использовать большие данные для прогнозного моделирования.

В рамках данной работы решены поставленные задачи: выделены
значимые предикторы для классификации, построен классификатор для
распознавания фрагментов документа из истории болезни пациента.
Оценка значимости предикторов проведена по средствам критерия хи-
квадрат. Сравнительный анализ предикторов, выбранных по хи-квадрат
критерию, с выбранными по частотной оценке, показал недостаточную
информативность частотного критерия. Поэтому представление текстовой
информации в виде доступном для подачи на вход алгоритмам машинного
обучения проведено при помощи метода TF-IDF, так как данный метод
наделяет объекты свойствами полезными для дальнейшего построения
классификатора. Метрика TF-IDF позволила учесть частоту значимых слов,
при этом уменьшая вес широкоупотребительных слов.
Построен ряд моделей для распознавания фрагмента текста как объекта
одного из разделов документа истории болезни. Из полученных моделей
выявлена лучшая – метод опорных векторов. Для данной модели
осуществлен исчерпывающий поиск по сетке значений параметров с целью
определения оптимальных параметров классификатора для данной задачи.
Проведена оценка эффективности построенного классификатора, по
результатам которой на тестовой выборке имеем следующие результаты:
точность классификатора (precision) равна 0,89, полнота (recall) – 0,88, f-мера
(f1-score) – 0,88.
В результате проделанной работы для классификации фрагментов
документов из истории болезни предлагается использование классификатора
LinearSVC библиотеки scikit-learn. Использование разработанной модели
поможет в построении эффективных медицинский информационных систем.
Разработаны разделы «Финансовый менеджмент,
ресурсоэффективность и ресурсосбережение», «Социальная
ответственность», а также раздел на иностранном языке (английский) – «Data
Analytics in Healthcare», размещенный в Приложении А.
Список публикаций и научных достижений
Участие в конференциях:
1. Диплом 1 степени, Международная научно-практическая конференция
«Электронные средства и системы управления», г. Томск, 2018 г.;
2. Диплом за участие, Международная научно-техническая конференция
студентов, аспирантов и молодых ученых “Научная сессия ТУСУР –
2019”, г. Томск;
3. Диплом за участие, Международная научно-практическая конференция
«Новая наука: история становления, современное состояние,
перспективы развития», г. Казань, 2018 г.
4. Сертификат участника, Международная научно-практическая
конференция студентов, аспирантов и молодых ученых «Молодёжь и
современные информационные технологии», г. Томск, 2017 г.
5. Сертификат участника, Международная школа «Научный компьютинг,
аналитика больших данных и технологии машинного обучения для
мегасайнс проектов», г. Дубна, 2018 г.
Участие в конкурсах:
1. Диплом за 1 место, Хакатон «Digital Hack», г. Томск, 2017 г.
2. Диплом за участие, 2 тур конкурсного отбора Стипендиальной
программы В. Потанина, г. Томск, 2018 г.
3. Диплом за участие, 2 тур конкурсного отбора Стипендиальной
программы В. Потанина, г. Томск, 2019 г.
Премии, звания, стипендии:
1. Именная стипендия ПАО «Транснефть» (г. Москва) студентам ТПУ (с
1 июля 2018 г. по 30 июня 2019 г.);
2. Стипендия Правительства РФ (с 1 сентября 2018г. по 31 августа 2019г.)
3. Повышенная стипендия ТПУ (с 1 февраля 2019 г. по 30 июня 2019 г.)
4. Сертификат владения английским языком ТПУ 3 (C1 – Effectiveness),
2017 г.
Публикации:
1. Демченко, И. С. Modern big data preprocessing techniques [Электронный
ресурс] / И. С. Демченко, науч. рук. Е. И. Губин // Новая наука: история
становления, современное состояние, перспективы развития: сборник
статей по итогам Международной научно-практической конференции.
– 2018. – Ч. 1. – [С. 4-7]. – Заглавие с экрана. – Доступ по договору с
организацией-держателем ресурса. Режим доступа:
https://elibrary.ru/item.asp?id=32852211
2. Д.Д. Богданов, И.С. Демченко. Разработка программы голосового
ввода в виде web-приложения для эффективного заполнения
медицинских карточек пациентов. – Сборник научных трудов
Международной конференции студентов, аспирантов и молодых
ученых, 23-26 апреля 2019 г.
3. И.С. Демченко. Построение классификатора для распознавания
фрагмента истории болезни. – Сборник научных трудов
Международной научно-технической конференции студентов,
аспирантов и молодых ученых «Научная сессия ТУСУР – 2019», г.
Томск, 22-24 мая 2019 г.
4. Demchenko I.S., Inkhireeva T.A. «Gender recognition by voice»:
Материалы XIV Международной научно-практической конференции
«Электронные средства и системы управления» (28-30 ноября 2018 г.):
в 2 ч. – Ч.2. –Томск: В-Спектр, 2018 – 314с.
5. Казакявичюс И.С., Гергет О.М. «Разработка системы поддержки
принятия решения врача, реализующей помощь в выборе
управляющего воздействия» // Молодежь и современные
информационные технологии: сборник трудов XV Международной
научно-практической конференции студентов, аспирантов и молодых
ученых, Томск, 4-7 Декабря 2017. – Томск: ТПУ, 2018 – C. 400-401;

1. КобринскийБ.А.Системыподдержкипринятиярешенийв
здравоохранении и обучении (ФГУ «Московский НИИ педиатрии и
детскойхирургииРосмедтехнологий»,ГОУВПО«Российский
государственный медицинский университет Росздрава»)
2. Ervin Sejdic, Tiago H. Falk. Signal Processing and Machine Learning for
Biomedical Big Data. CRC Press, – 2018.
3. Applied Health Analytics and Informatics Using SAS – Joseph M.
Woodside
4. Machine Learning and AI for Healthcare. Big Data for Improved Health
Outcomes
5. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean.
DistributedRepresentationsofWordsandPhrasesandtheir
Compositionality
6. Jones K. S. A statistical interpretation of term specificity and its application
in retrieval (англ.) // Journal of Documentation : журнал. — MCB
University: MCB University Press, 2004. — Vol. 60, no. 5. — P. 493-502.
— ISSN 0022-0418.
7. Рашка С. Python и машинное обучение / пер. с англ. А.В. Логунова. –
М.: ДМК Пресс, 2017. – 418 с.: ил.
8. Дронов, В.А. Программирование. — СПб.: БХВ-Петербург, 2006. —
706 с.: ил.
9. Dean Abbott. Applied Predictive Analytics: Principles and Techniques for
the Professional Data Analyst. Wiley
10.ГОСТ 12.0.003-74. ССБТ. Опасные и вредные производственные
факторы. Классификация.
11.СанПиН 2.2.4-548-96. Гигиенические требования к микроклимату
производственных помещений.
12.СНиП 23-05-95. Естественное и искусственное освещение.
13.ГОСТ 12.1.003-83 ССБТ. Шум. Общие требования безопасности.
14.СанПиН 2.2.2/2.4.1340-03. Санитарно–эпидемиологические правила и
нормативы«Гигиеническиетребованиякперсональным
электронновычислительным машинам и организации работы».
15.ГОСТ 12.1.030–81 ССБТ. Защитное заземление, зануление.
16.СН 2.2.4/2.1.8.562–96. Шум на рабочих местах, в помещениях жилых,
общественных зданий и на территории застройки.
17.ГОСТ Р 12.1.019-2009 ССБТ. Электробезопасность. Общие требования
и номенклатура видов защиты.
18.Федеральный классификационный каталог отходов [Электронный
ресурс].–2013.–Режимдоступа:
http://www.ecoguild.ru/faq/fedwastecatalog.htm, свободный.
19.ГОСТ 12.1.004-91 ССБТ. Пожарная безопасность. Общие требования.
20.СНиП 21-01-97. Пожарная безопасность зданий и сооружений.
21.ГОСТР12.2.143-2002ССБТ.Системыфотолюминесцентные
эвакуационные. Элементы систем. Классификация. Общие технические
требования. Методы контроля.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Анна В. Инжэкон, студент, кандидат наук
    5 (21 отзыв)
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссе... Читать все
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссертаций. Работала в маркетинге. Практикующий бизнес-консультант.
    #Кандидатские #Магистерские
    31 Выполненная работа
    Катерина М. кандидат наук, доцент
    4.9 (522 отзыва)
    Кандидат технических наук. Специализируюсь на выполнении работ по метрологии и стандартизации
    Кандидат технических наук. Специализируюсь на выполнении работ по метрологии и стандартизации
    #Кандидатские #Магистерские
    836 Выполненных работ
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ
    Логик Ф. кандидат наук, доцент
    4.9 (826 отзывов)
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские дисс... Читать все
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские диссертации, рефераты, контрольные) уже много лет. Качество работ гарантирую.
    #Кандидатские #Магистерские
    1486 Выполненных работ
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Татьяна М. кандидат наук
    5 (285 отзывов)
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    #Кандидатские #Магистерские
    495 Выполненных работ
    Мария Б. преподаватель, кандидат наук
    5 (22 отзыва)
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальнос... Читать все
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальности "Экономика и управление народным хозяйством". Автор научных статей.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Татьяна Б.
    4.6 (92 отзыва)
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские ди... Читать все
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские диссертации, курсовые работы средний балл - 4,5). Всегда на связи!
    #Кандидатские #Магистерские
    138 Выполненных работ
    Родион М. БГУ, выпускник
    4.6 (71 отзыв)
    Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.
    Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.
    #Кандидатские #Магистерские
    108 Выполненных работ

    Другие учебные работы по предмету

    Интеллектуальный анализ текстовых данных с rnприменением методов машинного обучения
    📅 2019год
    🏢 Национальный исследовательский Томский политехнический университет (ТПУ)