В рамках данной работы произведен отбор значимых текстовых признаков и построение модели машинного обучения для классификации фрагментов медицинской документации. Исследование проводилось на основе данных документов “Осмотр в стационаре при поступлении” из историй болезни пациентов, страдающих рожистыми воспалениями. Произведен выбор наилучшей модели классификатора, подбор оптимальных гиперпараметров, а также оценка качества классификации.

Введение…………………………………………………………………………………………… 13

1. Обзор литературы ………………………………………………………………………. 15

2. Объект и методы исследования ………………………………………………….. 19

2.1. Описание объекта…………………………………………………………………. 19

2.2. Методы ………………………………………………………………………………… 20

2.2.1. Метод извлечения текстовых признаков TF-IDF ……………… 20

2.2.2. Метод опорных векторов ………………………………………………… 21

2.2.3. Критерий хи-квадрат для отбора признаков …………………….. 23

3. Расчеты и аналитика ………………………………………………………………….. 24

3.1. Выбор программного обеспечения ……………………………………….. 24

3.2. Используемые Python библиотеки ………………………………………… 25

3.3. Загрузка и предварительный анализ данных …………………………. 26

3.4. Предварительная подготовка и выделение признаков из
текстовых данных…………………………………………………………………………………. 26

3.5. Разделение данных на обучающее и тестовое подмножества…. 27

3.6. Построение классификатора …………………………………………………. 28

3.6.1. Выбор модели классификатора ……………………………………….. 28

3.6.2. Подбор оптимальных параметров классификатора ………….. 28

3.6.3. Построение классификатора с оптимальными параметрами30

4. Результаты …………………………………………………………………………………. 31

4.1. Оценка значимости признаков ……………………………………………… 31

4.2. Классификатор фрагментов документа из истории болезни …… 32

4.2.1. Выявление признаков, значимых для классификатора …….. 36
5. Финансовый менеджмент, ресурсоэффективность и
ресурсосбережение…………………………………………………………………………………… 38

5.1. Предпроектный анализ …………………………………………………………. 38

5.1.1. Технология Quad …………………………………………………………….. 39

5.1.2. Диаграмма Исикавы ……………………………………………………….. 40

5.1.3. Оценка готовности научно-исследовательского проекта к
коммерциализации ……………………………………………………………………………. 41

5.2. Инициация научно-исследовательского проекта …………………… 43

5.2.1. Цели и результат научно-исследовательского проекта …….. 43

5.2.2. Организационная структура научно-исследовательского
проекта 44

5.3. Планирование управления научно-исследовательским проектом
5.3.1. План научно-исследовательского проекта ……………………….. 45

5.3.2. Бюджет научно-исследовательского проекта …………………… 47

5.3.3. Риски научно-исследовательского проекта ……………………… 50

5.3.4. Описание потенциального эффекта …………………………………. 51

6. Социальная ответственность ………………………………………………………. 52

6.1. Правовые и организационные вопросы обеспечения
безопасности ………………………………………………………………………………………… 53

6.1.1. Специальные правовые нормы трудового законодательства
6.1.2. Организационные мероприятия при компоновке рабочей
зоны 58

6.2. Производственная безопасность …………………………………………… 63
6.2.1. Анализ вредных и опасных факторов, которые может создать
объект исследования …………………………………………………………………………. 63

6.2.2. Анализ вредных и опасных факторов, которые могут
возникнуть на производстве при внедрении объекта исследования ……. 64

6.2.3. Обоснование мероприятий по защите персонала
предприятия от действия опасных и вредных факторов (техника
безопасности и производственная санитария) ……………………………………. 66

6.3. Экологическая безопасность…………………………………………………. 77

6.4. Безопасность в чрезвычайных ситуациях………………………………. 78

6.4.1. Анализ вероятных ЧС, которые может инициировать объект
исследований ……………………………………………………………………………………. 78

6.4.2. Анализ причин, которые могут вызвать ЧС на производстве
при внедрении объекта исследований ……………………………………………….. 79

6.4.3. Обоснование мероприятий по предотвращению ЧС и
разработка порядка действия в случае возникновения ЧС ………………….. 80

Заключение ………………………………………………………………………………………. 82

Список публикаций и научных достижений ………………………………………. 83

Список используемых источников …………………………………………………….. 85

Приложение А ………………………………………………………………………………….. 87

Приложение Б – Пример документа «Осмотр в стационаре при
поступлении» …………………………………………………………………………………………… 97

Приложение В – Листинг исходного кода ………………………………………… 99

Современный мир постоянно меняется и развивается. На данный
момент, мобильных телефонов существует больше, чем людей. Люди
используют виртуальных ассистентов, автомобили, управляемые
автопилотом, а также ищут информацию в интернете о том или ином
симптоме заболевания.
Здравоохранение и аналитика являются одними из самых
быстрорастущих областей в промышленности и разработке учебных
программ [1].
Современный мир называют эрой данных, потому что ежедневно мы
собираем огромный объем данных. Данные получают как из социальных
сетей, так и от конкретных датчиков. По некоторым оценкам к 2020 году
каждый человек будет создавать 1,7 мегабайта данных в секунду [2]. В то же
время, имея так много данных и не используя их, возникает вопрос, почему
мы все еще собираем и храним так много данных? Очевидно, что мы должны
использовать современные технологии не только для сбора и хранения, но и
для извлечения знаний из доступных данных.
Система здравоохранения генерирует почти 1/3 мировых данных, и
заинтересованные стороны в области здравоохранения надеются на
аналитику данных и медицинскую информатику, благодаря которым желают
устранить медицинские ошибки, сокращая количество повторных
обращений, предоставляя медицинскую помощь на основе фактических
данных и демонстрируя качественные результаты. Существует значительная
потребность в использовании растущих объемов данных при помощи
аналитики для анализа и принятия решений в здравоохранении [3].
Несмотря на то, что медицина была восприимчива к преимуществам
больших данных и искусственного интеллекта, она медленно внедряла
быстро развивающиеся технологии, особенно по сравнению с такими
секторами как финансы, развлечения и транспорт [4].
Все данные можно разделить по их типу на структурированные и
неструктурированные данные соответственно. Структурированные данные
обладают высокой степенью организованности и упрощают поиск
информации. Для этой цели структурированные данные обычно хранятся в
реляционной базе данных. Неструктурированные данные не имеют
предопределенной модели или схемы. Так как неструктурированные данные
не имеют идентифицируемой структуры, это и создает сложности для поиска
информации. Электронная почта, текстовые сообщения, публикации в
социальных сетях являются хорошими примерами неструктурированных
данных. Около 80% мировых данных представлены в неструктурированном
виде. Далеко не всегда возможно преобразовать неструктурированные
данные в структурированную модель, однако аналитика
неструктурированных данных улучшается с использованием науки о данных
и таких методов машинного обучения, как обработка естественного
языка (NLP).
Большая часть медицинских данных представлена в виде изображений,
например, результатов рентгенографии, или текстовых данных, будь то в
рукописном или машинописном варианте. Очевидно, эти данные являются
неструктурированными и сложнее поддаются анализу. Возможно, это
послужило одной из причин медленного внедрения технологий машинного
обучения в области медицины.
Целью работы является разработка алгоритмического и программного
обеспечения выделения значимых предикторов из медицинской
документации осмотра пациента, а также построение классификатора.
В рамках данной работы проводится обработка текстовых медицинских
данных. Так как зачастую текстовые данные содержат достаточно объемный
набор признаков, в рамках данного исследования выявляются наиболее
значимые признаки для дальнейшего анализа. Также предложен подход
классификации блоков электронных записей врачебного осмотра для сбора
предикторов и формирования эффективной схемы лечения.
1. Обзор литературы
В современном мире к большинству задач применяются методы
машинного обучения. Методы машинного обучения и анализа данных
помогают прогнозировать будущее, строить модели принятия решений для
выбора наилучшей из двух и более альтернатив.
Модели принятия решений принимают разные формы, и одной из них
является прогнозное моделирование. Прогнозное моделирование – это
использование алгоритма и программного обеспечения для больших наборов
данных для прогнозирования потенциальных результатов, где алгоритм
представляет собой формулу или расчет, используемый для решения
проблемы в модели. В сфере здравоохранения существует огромная
возможность использовать большие данные для прогнозного моделирования.

В рамках данной работы решены поставленные задачи: выделены
значимые предикторы для классификации, построен классификатор для
распознавания фрагментов документа из истории болезни пациента.
Оценка значимости предикторов проведена по средствам критерия хи-
квадрат. Сравнительный анализ предикторов, выбранных по хи-квадрат
критерию, с выбранными по частотной оценке, показал недостаточную
информативность частотного критерия. Поэтому представление текстовой
информации в виде доступном для подачи на вход алгоритмам машинного
обучения проведено при помощи метода TF-IDF, так как данный метод
наделяет объекты свойствами полезными для дальнейшего построения
классификатора. Метрика TF-IDF позволила учесть частоту значимых слов,
при этом уменьшая вес широкоупотребительных слов.
Построен ряд моделей для распознавания фрагмента текста как объекта
одного из разделов документа истории болезни. Из полученных моделей
выявлена лучшая – метод опорных векторов. Для данной модели
осуществлен исчерпывающий поиск по сетке значений параметров с целью
определения оптимальных параметров классификатора для данной задачи.
Проведена оценка эффективности построенного классификатора, по
результатам которой на тестовой выборке имеем следующие результаты:
точность классификатора (precision) равна 0,89, полнота (recall) – 0,88, f-мера
(f1-score) – 0,88.
В результате проделанной работы для классификации фрагментов
документов из истории болезни предлагается использование классификатора
LinearSVC библиотеки scikit-learn. Использование разработанной модели
поможет в построении эффективных медицинский информационных систем.
Разработаны разделы «Финансовый менеджмент,
ресурсоэффективность и ресурсосбережение», «Социальная
ответственность», а также раздел на иностранном языке (английский) – «Data
Analytics in Healthcare», размещенный в Приложении А.
Список публикаций и научных достижений
Участие в конференциях:
1. Диплом 1 степени, Международная научно-практическая конференция
«Электронные средства и системы управления», г. Томск, 2018 г.;
2. Диплом за участие, Международная научно-техническая конференция
студентов, аспирантов и молодых ученых “Научная сессия ТУСУР –
2019”, г. Томск;
3. Диплом за участие, Международная научно-практическая конференция
«Новая наука: история становления, современное состояние,
перспективы развития», г. Казань, 2018 г.
4. Сертификат участника, Международная научно-практическая
конференция студентов, аспирантов и молодых ученых «Молодёжь и
современные информационные технологии», г. Томск, 2017 г.
5. Сертификат участника, Международная школа «Научный компьютинг,
аналитика больших данных и технологии машинного обучения для
мегасайнс проектов», г. Дубна, 2018 г.
Участие в конкурсах:
1. Диплом за 1 место, Хакатон «Digital Hack», г. Томск, 2017 г.
2. Диплом за участие, 2 тур конкурсного отбора Стипендиальной
программы В. Потанина, г. Томск, 2018 г.
3. Диплом за участие, 2 тур конкурсного отбора Стипендиальной
программы В. Потанина, г. Томск, 2019 г.
Премии, звания, стипендии:
1. Именная стипендия ПАО «Транснефть» (г. Москва) студентам ТПУ (с
1 июля 2018 г. по 30 июня 2019 г.);
2. Стипендия Правительства РФ (с 1 сентября 2018г. по 31 августа 2019г.)
3. Повышенная стипендия ТПУ (с 1 февраля 2019 г. по 30 июня 2019 г.)
4. Сертификат владения английским языком ТПУ 3 (C1 – Effectiveness),
2017 г.
Публикации:
1. Демченко, И. С. Modern big data preprocessing techniques [Электронный
ресурс] / И. С. Демченко, науч. рук. Е. И. Губин // Новая наука: история
становления, современное состояние, перспективы развития: сборник
статей по итогам Международной научно-практической конференции.
– 2018. – Ч. 1. – [С. 4-7]. – Заглавие с экрана. – Доступ по договору с
организацией-держателем ресурса. Режим доступа:
https://elibrary.ru/item.asp?id=32852211
2. Д.Д. Богданов, И.С. Демченко. Разработка программы голосового
ввода в виде web-приложения для эффективного заполнения
медицинских карточек пациентов. – Сборник научных трудов
Международной конференции студентов, аспирантов и молодых
ученых, 23-26 апреля 2019 г.
3. И.С. Демченко. Построение классификатора для распознавания
фрагмента истории болезни. – Сборник научных трудов
Международной научно-технической конференции студентов,
аспирантов и молодых ученых «Научная сессия ТУСУР – 2019», г.
Томск, 22-24 мая 2019 г.
4. Demchenko I.S., Inkhireeva T.A. «Gender recognition by voice»:
Материалы XIV Международной научно-практической конференции
«Электронные средства и системы управления» (28-30 ноября 2018 г.):
в 2 ч. – Ч.2. –Томск: В-Спектр, 2018 – 314с.
5. Казакявичюс И.С., Гергет О.М. «Разработка системы поддержки
принятия решения врача, реализующей помощь в выборе
управляющего воздействия» // Молодежь и современные
информационные технологии: сборник трудов XV Международной
научно-практической конференции студентов, аспирантов и молодых
ученых, Томск, 4-7 Декабря 2017. – Томск: ТПУ, 2018 – C. 400-401;

1. КобринскийБ.А.Системыподдержкипринятиярешенийв
здравоохранении и обучении (ФГУ «Московский НИИ педиатрии и
детскойхирургииРосмедтехнологий»,ГОУВПО«Российский
государственный медицинский университет Росздрава»)
2. Ervin Sejdic, Tiago H. Falk. Signal Processing and Machine Learning for
Biomedical Big Data. CRC Press, – 2018.
3. Applied Health Analytics and Informatics Using SAS – Joseph M.
Woodside
4. Machine Learning and AI for Healthcare. Big Data for Improved Health
Outcomes
5. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean.
DistributedRepresentationsofWordsandPhrasesandtheir
Compositionality
6. Jones K. S. A statistical interpretation of term specificity and its application
in retrieval (англ.) // Journal of Documentation : журнал. — MCB
University: MCB University Press, 2004. — Vol. 60, no. 5. — P. 493-502.
— ISSN 0022-0418.
7. Рашка С. Python и машинное обучение / пер. с англ. А.В. Логунова. –
М.: ДМК Пресс, 2017. – 418 с.: ил.
8. Дронов, В.А. Программирование. — СПб.: БХВ-Петербург, 2006. —
706 с.: ил.
9. Dean Abbott. Applied Predictive Analytics: Principles and Techniques for
the Professional Data Analyst. Wiley
10.ГОСТ 12.0.003-74. ССБТ. Опасные и вредные производственные
факторы. Классификация.
11.СанПиН 2.2.4-548-96. Гигиенические требования к микроклимату
производственных помещений.
12.СНиП 23-05-95. Естественное и искусственное освещение.
13.ГОСТ 12.1.003-83 ССБТ. Шум. Общие требования безопасности.
14.СанПиН 2.2.2/2.4.1340-03. Санитарно–эпидемиологические правила и
нормативы«Гигиеническиетребованиякперсональным
электронновычислительным машинам и организации работы».
15.ГОСТ 12.1.030–81 ССБТ. Защитное заземление, зануление.
16.СН 2.2.4/2.1.8.562–96. Шум на рабочих местах, в помещениях жилых,
общественных зданий и на территории застройки.
17.ГОСТ Р 12.1.019-2009 ССБТ. Электробезопасность. Общие требования
и номенклатура видов защиты.
18.Федеральный классификационный каталог отходов [Электронный
ресурс].–2013.–Режимдоступа:
http://www.ecoguild.ru/faq/fedwastecatalog.htm, свободный.
19.ГОСТ 12.1.004-91 ССБТ. Пожарная безопасность. Общие требования.
20.СНиП 21-01-97. Пожарная безопасность зданий и сооружений.
21.ГОСТР12.2.143-2002ССБТ.Системыфотолюминесцентные
эвакуационные. Элементы систем. Классификация. Общие технические
требования. Методы контроля.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Хочешь уникальную работу?

Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

Работаю на сайте четвертый год. Действующий преподаватель вуза. Основные направления: микробиология, биология и медицина. Написано несколько кандидатских, магистерских... Читать все

#Кандидатские #Магистерские

566 Выполненных работ

Возможно выполнение работ по правоведению и политологии. Имею высшее образование менеджера ВЭД и правоведа, защитила кандидатскую и докторскую диссертации по политоло... Читать все

Возможно выполнение работ по правоведению и политологии. Имею высшее образование менеджера ВЭД и правоведа, защитила кандидатскую и докторскую диссертации по политологии.

#Кандидатские #Магистерские

68 Выполненных работ

Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соот... Читать все

Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соответствии с Вашими требованиями.

#Кандидатские #Магистерские

12 Выполненных работ

Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все

Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.

#Кандидатские #Магистерские

0 Выполненных работ

Занимаю 1 место в рейтинге исполнителей по категориям работ "Научные статьи" и "Эссе". Пишу дипломные работы и магистерские диссертации.

#Кандидатские #Магистерские

5125 Выполненных работ

Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно исполь... Читать все

Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно использую в работе графический материал (графики рисунки, диаграммы) и таблицы.

#Кандидатские #Магистерские

362 Выполненных работы

Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все

Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.

#Кандидатские #Магистерские

33 Выполненных работы

Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитыв... Читать все

Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитывать все требования и пожелания.

#Кандидатские #Магистерские

213 Выполненных работ

Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все

Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.

#Кандидатские #Магистерские

224 Выполненных работы