Алгоритмическое и программное обеспечение выделения значимых rnпредикторов из медицинской документации осмотра пациента

Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0
Демченко, Ирина Сергеевна Отделение информационных технологий (ОИТ)
Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В рамках данной работы произведен отбор значимых текстовых признаков и построение модели машинного обучения для классификации фрагментов медицинской документации. Исследование проводилось на основе данных документов “Осмотр в стационаре при поступлении” из историй болезни пациентов, страдающих рожистыми воспалениями. Произведен выбор наилучшей модели классификатора, подбор оптимальных гиперпараметров, а также оценка качества классификации.

Введение…………………………………………………………………………………………… 13

1. Обзор литературы ………………………………………………………………………. 15

2. Объект и методы исследования ………………………………………………….. 19

2.1. Описание объекта…………………………………………………………………. 19

2.2. Методы ………………………………………………………………………………… 20

2.2.1. Метод извлечения текстовых признаков TF-IDF ……………… 20

2.2.2. Метод опорных векторов ………………………………………………… 21

2.2.3. Критерий хи-квадрат для отбора признаков …………………….. 23

3. Расчеты и аналитика ………………………………………………………………….. 24

3.1. Выбор программного обеспечения ……………………………………….. 24

3.2. Используемые Python библиотеки ………………………………………… 25

3.3. Загрузка и предварительный анализ данных …………………………. 26

3.4. Предварительная подготовка и выделение признаков из
текстовых данных…………………………………………………………………………………. 26

3.5. Разделение данных на обучающее и тестовое подмножества…. 27

3.6. Построение классификатора …………………………………………………. 28

3.6.1. Выбор модели классификатора ……………………………………….. 28

3.6.2. Подбор оптимальных параметров классификатора ………….. 28

3.6.3. Построение классификатора с оптимальными параметрами30

4. Результаты …………………………………………………………………………………. 31

4.1. Оценка значимости признаков ……………………………………………… 31

4.2. Классификатор фрагментов документа из истории болезни …… 32

4.2.1. Выявление признаков, значимых для классификатора …….. 36
5. Финансовый менеджмент, ресурсоэффективность и
ресурсосбережение…………………………………………………………………………………… 38

5.1. Предпроектный анализ …………………………………………………………. 38

5.1.1. Технология Quad …………………………………………………………….. 39

5.1.2. Диаграмма Исикавы ……………………………………………………….. 40

5.1.3. Оценка готовности научно-исследовательского проекта к
коммерциализации ……………………………………………………………………………. 41

5.2. Инициация научно-исследовательского проекта …………………… 43

5.2.1. Цели и результат научно-исследовательского проекта …….. 43

5.2.2. Организационная структура научно-исследовательского
проекта 44

5.3. Планирование управления научно-исследовательским проектом
5.3.1. План научно-исследовательского проекта ……………………….. 45

5.3.2. Бюджет научно-исследовательского проекта …………………… 47

5.3.3. Риски научно-исследовательского проекта ……………………… 50

5.3.4. Описание потенциального эффекта …………………………………. 51

6. Социальная ответственность ………………………………………………………. 52

6.1. Правовые и организационные вопросы обеспечения
безопасности ………………………………………………………………………………………… 53

6.1.1. Специальные правовые нормы трудового законодательства
6.1.2. Организационные мероприятия при компоновке рабочей
зоны 58

6.2. Производственная безопасность …………………………………………… 63
6.2.1. Анализ вредных и опасных факторов, которые может создать
объект исследования …………………………………………………………………………. 63

6.2.2. Анализ вредных и опасных факторов, которые могут
возникнуть на производстве при внедрении объекта исследования ……. 64

6.2.3. Обоснование мероприятий по защите персонала
предприятия от действия опасных и вредных факторов (техника
безопасности и производственная санитария) ……………………………………. 66

6.3. Экологическая безопасность…………………………………………………. 77

6.4. Безопасность в чрезвычайных ситуациях………………………………. 78

6.4.1. Анализ вероятных ЧС, которые может инициировать объект
исследований ……………………………………………………………………………………. 78

6.4.2. Анализ причин, которые могут вызвать ЧС на производстве
при внедрении объекта исследований ……………………………………………….. 79

6.4.3. Обоснование мероприятий по предотвращению ЧС и
разработка порядка действия в случае возникновения ЧС ………………….. 80

Заключение ………………………………………………………………………………………. 82

Список публикаций и научных достижений ………………………………………. 83

Список используемых источников …………………………………………………….. 85

Приложение А ………………………………………………………………………………….. 87

Приложение Б – Пример документа «Осмотр в стационаре при
поступлении» …………………………………………………………………………………………… 97

Приложение В – Листинг исходного кода ………………………………………… 99

Современный мир постоянно меняется и развивается. На данный
момент, мобильных телефонов существует больше, чем людей. Люди
используют виртуальных ассистентов, автомобили, управляемые
автопилотом, а также ищут информацию в интернете о том или ином
симптоме заболевания.
Здравоохранение и аналитика являются одними из самых
быстрорастущих областей в промышленности и разработке учебных
программ [1].
Современный мир называют эрой данных, потому что ежедневно мы
собираем огромный объем данных. Данные получают как из социальных
сетей, так и от конкретных датчиков. По некоторым оценкам к 2020 году
каждый человек будет создавать 1,7 мегабайта данных в секунду [2]. В то же
время, имея так много данных и не используя их, возникает вопрос, почему
мы все еще собираем и храним так много данных? Очевидно, что мы должны
использовать современные технологии не только для сбора и хранения, но и
для извлечения знаний из доступных данных.
Система здравоохранения генерирует почти 1/3 мировых данных, и
заинтересованные стороны в области здравоохранения надеются на
аналитику данных и медицинскую информатику, благодаря которым желают
устранить медицинские ошибки, сокращая количество повторных
обращений, предоставляя медицинскую помощь на основе фактических
данных и демонстрируя качественные результаты. Существует значительная
потребность в использовании растущих объемов данных при помощи
аналитики для анализа и принятия решений в здравоохранении [3].
Несмотря на то, что медицина была восприимчива к преимуществам
больших данных и искусственного интеллекта, она медленно внедряла
быстро развивающиеся технологии, особенно по сравнению с такими
секторами как финансы, развлечения и транспорт [4].
Все данные можно разделить по их типу на структурированные и
неструктурированные данные соответственно. Структурированные данные
обладают высокой степенью организованности и упрощают поиск
информации. Для этой цели структурированные данные обычно хранятся в
реляционной базе данных. Неструктурированные данные не имеют
предопределенной модели или схемы. Так как неструктурированные данные
не имеют идентифицируемой структуры, это и создает сложности для поиска
информации. Электронная почта, текстовые сообщения, публикации в
социальных сетях являются хорошими примерами неструктурированных
данных. Около 80% мировых данных представлены в неструктурированном
виде. Далеко не всегда возможно преобразовать неструктурированные
данные в структурированную модель, однако аналитика
неструктурированных данных улучшается с использованием науки о данных
и таких методов машинного обучения, как обработка естественного
языка (NLP).
Большая часть медицинских данных представлена в виде изображений,
например, результатов рентгенографии, или текстовых данных, будь то в
рукописном или машинописном варианте. Очевидно, эти данные являются
неструктурированными и сложнее поддаются анализу. Возможно, это
послужило одной из причин медленного внедрения технологий машинного
обучения в области медицины.
Целью работы является разработка алгоритмического и программного
обеспечения выделения значимых предикторов из медицинской
документации осмотра пациента, а также построение классификатора.
В рамках данной работы проводится обработка текстовых медицинских
данных. Так как зачастую текстовые данные содержат достаточно объемный
набор признаков, в рамках данного исследования выявляются наиболее
значимые признаки для дальнейшего анализа. Также предложен подход
классификации блоков электронных записей врачебного осмотра для сбора
предикторов и формирования эффективной схемы лечения.
1. Обзор литературы
В современном мире к большинству задач применяются методы
машинного обучения. Методы машинного обучения и анализа данных
помогают прогнозировать будущее, строить модели принятия решений для
выбора наилучшей из двух и более альтернатив.
Модели принятия решений принимают разные формы, и одной из них
является прогнозное моделирование. Прогнозное моделирование – это
использование алгоритма и программного обеспечения для больших наборов
данных для прогнозирования потенциальных результатов, где алгоритм
представляет собой формулу или расчет, используемый для решения
проблемы в модели. В сфере здравоохранения существует огромная
возможность использовать большие данные для прогнозного моделирования.

В рамках данной работы решены поставленные задачи: выделены
значимые предикторы для классификации, построен классификатор для
распознавания фрагментов документа из истории болезни пациента.
Оценка значимости предикторов проведена по средствам критерия хи-
квадрат. Сравнительный анализ предикторов, выбранных по хи-квадрат
критерию, с выбранными по частотной оценке, показал недостаточную
информативность частотного критерия. Поэтому представление текстовой
информации в виде доступном для подачи на вход алгоритмам машинного
обучения проведено при помощи метода TF-IDF, так как данный метод
наделяет объекты свойствами полезными для дальнейшего построения
классификатора. Метрика TF-IDF позволила учесть частоту значимых слов,
при этом уменьшая вес широкоупотребительных слов.
Построен ряд моделей для распознавания фрагмента текста как объекта
одного из разделов документа истории болезни. Из полученных моделей
выявлена лучшая – метод опорных векторов. Для данной модели
осуществлен исчерпывающий поиск по сетке значений параметров с целью
определения оптимальных параметров классификатора для данной задачи.
Проведена оценка эффективности построенного классификатора, по
результатам которой на тестовой выборке имеем следующие результаты:
точность классификатора (precision) равна 0,89, полнота (recall) – 0,88, f-мера
(f1-score) – 0,88.
В результате проделанной работы для классификации фрагментов
документов из истории болезни предлагается использование классификатора
LinearSVC библиотеки scikit-learn. Использование разработанной модели
поможет в построении эффективных медицинский информационных систем.
Разработаны разделы «Финансовый менеджмент,
ресурсоэффективность и ресурсосбережение», «Социальная
ответственность», а также раздел на иностранном языке (английский) – «Data
Analytics in Healthcare», размещенный в Приложении А.
Список публикаций и научных достижений
Участие в конференциях:
1. Диплом 1 степени, Международная научно-практическая конференция
«Электронные средства и системы управления», г. Томск, 2018 г.;
2. Диплом за участие, Международная научно-техническая конференция
студентов, аспирантов и молодых ученых “Научная сессия ТУСУР –
2019”, г. Томск;
3. Диплом за участие, Международная научно-практическая конференция
«Новая наука: история становления, современное состояние,
перспективы развития», г. Казань, 2018 г.
4. Сертификат участника, Международная научно-практическая
конференция студентов, аспирантов и молодых ученых «Молодёжь и
современные информационные технологии», г. Томск, 2017 г.
5. Сертификат участника, Международная школа «Научный компьютинг,
аналитика больших данных и технологии машинного обучения для
мегасайнс проектов», г. Дубна, 2018 г.
Участие в конкурсах:
1. Диплом за 1 место, Хакатон «Digital Hack», г. Томск, 2017 г.
2. Диплом за участие, 2 тур конкурсного отбора Стипендиальной
программы В. Потанина, г. Томск, 2018 г.
3. Диплом за участие, 2 тур конкурсного отбора Стипендиальной
программы В. Потанина, г. Томск, 2019 г.
Премии, звания, стипендии:
1. Именная стипендия ПАО «Транснефть» (г. Москва) студентам ТПУ (с
1 июля 2018 г. по 30 июня 2019 г.);
2. Стипендия Правительства РФ (с 1 сентября 2018г. по 31 августа 2019г.)
3. Повышенная стипендия ТПУ (с 1 февраля 2019 г. по 30 июня 2019 г.)
4. Сертификат владения английским языком ТПУ 3 (C1 – Effectiveness),
2017 г.
Публикации:
1. Демченко, И. С. Modern big data preprocessing techniques [Электронный
ресурс] / И. С. Демченко, науч. рук. Е. И. Губин // Новая наука: история
становления, современное состояние, перспективы развития: сборник
статей по итогам Международной научно-практической конференции.
– 2018. – Ч. 1. – [С. 4-7]. – Заглавие с экрана. – Доступ по договору с
организацией-держателем ресурса. Режим доступа:
https://elibrary.ru/item.asp?id=32852211
2. Д.Д. Богданов, И.С. Демченко. Разработка программы голосового
ввода в виде web-приложения для эффективного заполнения
медицинских карточек пациентов. – Сборник научных трудов
Международной конференции студентов, аспирантов и молодых
ученых, 23-26 апреля 2019 г.
3. И.С. Демченко. Построение классификатора для распознавания
фрагмента истории болезни. – Сборник научных трудов
Международной научно-технической конференции студентов,
аспирантов и молодых ученых «Научная сессия ТУСУР – 2019», г.
Томск, 22-24 мая 2019 г.
4. Demchenko I.S., Inkhireeva T.A. «Gender recognition by voice»:
Материалы XIV Международной научно-практической конференции
«Электронные средства и системы управления» (28-30 ноября 2018 г.):
в 2 ч. – Ч.2. –Томск: В-Спектр, 2018 – 314с.
5. Казакявичюс И.С., Гергет О.М. «Разработка системы поддержки
принятия решения врача, реализующей помощь в выборе
управляющего воздействия» // Молодежь и современные
информационные технологии: сборник трудов XV Международной
научно-практической конференции студентов, аспирантов и молодых
ученых, Томск, 4-7 Декабря 2017. – Томск: ТПУ, 2018 – C. 400-401;

1. КобринскийБ.А.Системыподдержкипринятиярешенийв
здравоохранении и обучении (ФГУ «Московский НИИ педиатрии и
детскойхирургииРосмедтехнологий»,ГОУВПО«Российский
государственный медицинский университет Росздрава»)
2. Ervin Sejdic, Tiago H. Falk. Signal Processing and Machine Learning for
Biomedical Big Data. CRC Press, – 2018.
3. Applied Health Analytics and Informatics Using SAS – Joseph M.
Woodside
4. Machine Learning and AI for Healthcare. Big Data for Improved Health
Outcomes
5. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean.
DistributedRepresentationsofWordsandPhrasesandtheir
Compositionality
6. Jones K. S. A statistical interpretation of term specificity and its application
in retrieval (англ.) // Journal of Documentation : журнал. — MCB
University: MCB University Press, 2004. — Vol. 60, no. 5. — P. 493-502.
— ISSN 0022-0418.
7. Рашка С. Python и машинное обучение / пер. с англ. А.В. Логунова. –
М.: ДМК Пресс, 2017. – 418 с.: ил.
8. Дронов, В.А. Программирование. — СПб.: БХВ-Петербург, 2006. —
706 с.: ил.
9. Dean Abbott. Applied Predictive Analytics: Principles and Techniques for
the Professional Data Analyst. Wiley
10.ГОСТ 12.0.003-74. ССБТ. Опасные и вредные производственные
факторы. Классификация.
11.СанПиН 2.2.4-548-96. Гигиенические требования к микроклимату
производственных помещений.
12.СНиП 23-05-95. Естественное и искусственное освещение.
13.ГОСТ 12.1.003-83 ССБТ. Шум. Общие требования безопасности.
14.СанПиН 2.2.2/2.4.1340-03. Санитарно–эпидемиологические правила и
нормативы«Гигиеническиетребованиякперсональным
электронновычислительным машинам и организации работы».
15.ГОСТ 12.1.030–81 ССБТ. Защитное заземление, зануление.
16.СН 2.2.4/2.1.8.562–96. Шум на рабочих местах, в помещениях жилых,
общественных зданий и на территории застройки.
17.ГОСТ Р 12.1.019-2009 ССБТ. Электробезопасность. Общие требования
и номенклатура видов защиты.
18.Федеральный классификационный каталог отходов [Электронный
ресурс].–2013.–Режимдоступа:
http://www.ecoguild.ru/faq/fedwastecatalog.htm, свободный.
19.ГОСТ 12.1.004-91 ССБТ. Пожарная безопасность. Общие требования.
20.СНиП 21-01-97. Пожарная безопасность зданий и сооружений.
21.ГОСТР12.2.143-2002ССБТ.Системыфотолюминесцентные
эвакуационные. Элементы систем. Классификация. Общие технические
требования. Методы контроля.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Читать «Алгоритмическое и программное обеспечение выделения значимых rnпредикторов из медицинской документации осмотра пациента»

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Рима С.
    5 (18 отзывов)
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный универси... Читать все
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный университет, являюсь бакалавром, магистром юриспруденции (с отличием)
    #Кандидатские #Магистерские
    38 Выполненных работ
    Дарья С. Томский государственный университет 2010, Юридический, в...
    4.8 (13 отзывов)
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссерт... Читать все
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссертационное исследование, которое сейчас находится на рассмотрении в совете.
    #Кандидатские #Магистерские
    18 Выполненных работ
    Дмитрий Л. КНЭУ 2015, Экономики и управления, выпускник
    4.8 (2878 отзывов)
    Занимаю 1 место в рейтинге исполнителей по категориям работ "Научные статьи" и "Эссе". Пишу дипломные работы и магистерские диссертации.
    Занимаю 1 место в рейтинге исполнителей по категориям работ "Научные статьи" и "Эссе". Пишу дипломные работы и магистерские диссертации.
    #Кандидатские #Магистерские
    5125 Выполненных работ
    Анна Александровна Б. Воронежский государственный университет инженерных технол...
    4.8 (30 отзывов)
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственно... Читать все
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственном университете инженерных технологий.
    #Кандидатские #Магистерские
    66 Выполненных работ
    Александр О. Спб государственный университет 1972, мат - мех, преподав...
    4.9 (66 отзывов)
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальн... Читать все
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальных уравнений. Умею быстро и четко выполнять сложные вычислительные работ
    #Кандидатские #Магистерские
    117 Выполненных работ
    Шагали Е. УрГЭУ 2007, Экономика, преподаватель
    4.4 (59 отзывов)
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и... Читать все
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и диссертаций, Есть любимые темы - они дешевле обойдутся, ибо в радость)
    #Кандидатские #Магистерские
    76 Выполненных работ
    Вирсавия А. медицинский 1981, стоматологический, преподаватель, канди...
    4.5 (9 отзывов)
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - ... Читать все
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - медицина, биология, антропология, биогидродинамика
    #Кандидатские #Магистерские
    12 Выполненных работ
    Екатерина П. студент
    5 (18 отзывов)
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно... Читать все
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно занимаюсь английским языком, уровень владения - Upper-Intermediate.
    #Кандидатские #Магистерские
    39 Выполненных работ
    Виктор В. Смоленская государственная медицинская академия 1997, Леч...
    4.7 (46 отзывов)
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выв... Читать все
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выводы).Пишу статьи в РИНЦ, ВАК.Оформление патентов от идеи до регистрации.
    #Кандидатские #Магистерские
    100 Выполненных работ

    Другие учебные работы по предмету

    Интеллектуальный анализ текстовых данных с rnприменением методов машинного обучения
    📅 2019 год
    🏢 Национальный исследовательский Томский политехнический университет (ТПУ)