Разработка нейросетевого алгоритма распознавания надписей на изображениях реальных сцен

Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0
Лобанова, Виктория Александровна Отделение информационных технологий (ОИТ)
Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Объектом проектирования и разработки является нейросетевой алгоритм распознавания надписей на изображениях реальных сцен.
В процессе исследования был проведён анализ существующих моделей обнаружения текстовых областей на изображениях реальных сцен, на основании которого был произведён выбор модели для дальнейшей реализации.
В результате был предложен нейросетевой алгоритм распознавания надписей на изображениях реальных сцен. В ходе проведения тестирования были подобраны такие параметры нейронной сети как размеры входных изображений, количество и типы используемых слоёв. В результате конечного обучения нейросетевого алгоритма удалось добиться высокой точности.

Введение ……………………………………………………………………………………………………… 13
1 Методы распознавания текстовых областей ………………………………………………. 14

1.1 Методы связанных компонент ………………………………………………………………… 14
1.2 Текстурные методы ………………………………………………………………………………… 16
1.3 Методы глубокого обучения …………………………………………………………………… 20
1.4 Сравнение методов детектирования текстовых областей на изображениях 23

2 Проектирование алгоритма ……………………………………………………………………….. 26

2.1 Используемые инструменты …………………………………………………………………… 26
2.2 Модули программы для обучения сверточной нейронной сети ……………….. 28
2.3 Архитектура программного обеспечения ………………………………………………… 28
2.4 Описание структуры сети……………………………………………………………………….. 29
2.5 Параметры оценки при обучении сети ……………………………………………………. 31
2.6 Фильтры для предобработки изображений ……………………………………………… 32
2.7 Преобразование Фурье …………………………………………………………………………… 33
2.8 Сглаживающие частотные фильтры ……………………………………………………….. 33

3 Результаты обучения сети …………………………………………………………………………. 35

3.1 Подбор размеров входных изображений …………………………………………………. 35
3.2 Подбор количества слоёв ……………………………………………………………………….. 38
3.3 Подбор типов свёрточных слоёв …………………………………………………………….. 39
3.4 Предобработка входных изображений ……………………………………………………. 40
2.5 Частотный анализ с использованием преобразования Фурье …………………… 45
3.7 Сравнение с другими работами ………………………………………………………………. 54

4 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение ……. 58

4.1 Предпроектный анализ …………………………………………………………………………… 58
4.2 Планирование научно-исследовательских работ……………………………………… 61
4.3 Определение ресурсной (ресурсосберегающей), финансовой, бюджетной,
социальной и экономической эффективности исследования …………………………. 66
4.4 Вывод по разделу …………………………………………………………………………………… 69
5 Социальная ответственность …………………………………………………………………….. 70

5.1 Правовые и организационные вопросы обеспечения безопасности …………. 70
5.2 Профессиональная социальная безопасность. …………………………………………. 72
5.3. Экологическая безопасность ………………………………………………………………….. 82
5.4. Безопасность в чрезвычайных ситуациях……………………………………………….. 83
5.5 Выводы по разделу…………………………………………………………………………………. 84

Заключение …………………………………………………………………………………………………. 86
Список использованных источников ……………………………………………………………. 87
Приложение А …………………………………………………………………………………………….. 91
Приложение Б ……………………………………………………………………………………………. 102

В настоящее время существует огромное количество информации,
хранящейся в виде изображений, содержание которых представляет собой
определенную ценность. Детектирование и последующее распознавание текста
на изображениях может быть применено в таких областях как перевод
фотографий документов в текстовую форму [1], автоматическое определение
номерных знаков автомобилей [2], геолокация объекта по названиям улиц,
улучшение качества детектирования и распознавания объектов на изображениях.
Однако объемы информации, хранящейся в виде изображений, велики, что
делает невозможным ее обработку вручную. Тем не менее, автоматизированные
методы обработки изображений позволяют успешно справляться с этой задачей.
Несмотря на широкую область возможного применения и прогресс в
сфере машинного обучения, обнаружение и сегментация текстовых областей на
изображениях все еще представляет собой проблему. Текст, расположенный на
изображениях реальных сцен, может быть различным по размеру, стилю, цвету,
повороту относительно горизонта. Также возможно его перекрытие другими
объектами на изображении или низкая контрастность с фоном. Применение
фильтров для сглаживания шумов и увеличения контрастности на границах
объектов не является универсальным решением проблемы, так как может, как
вызывать ложные срабатывания, так и мешать обнаружению значимых областей.
Целью данной работы является разработка нейросетевого алгоритма
распознавания надписей на изображениях реальных сцен.
Для достижения данной цели необходимо:
 проанализировать существующие модели обнаружения текстовых
областей на изображениях реальных сцен;
 выбрать модель для дальнейшей реализации;
 разработать алгоритм для распознавания надписей;
 реализовать программу на основе разработанного алгоритма;
 произвести обучение и тестирование разработанного алгоритма.
1 Методы распознавания текстовых областей
Методы распознавания текстовых областей используются для
определения наличия и выделения местоположения текстовых областей на
изображениях. Однако, точность данного определения может быть снижена из-
за различных размеров, стилей и направлений надписей. Кроме того, низкий
контраст с фоном или сложные фоны могут вызывать дополнительные
затруднения. Все существующие методы распознавания текстовых областей
можно разделить на следующие группы:
 методы связанных компонент;
 текстурные методы;
 методы глубокого обучения.

В ходе выполнения выпускной квалификационной работы был проведен
анализ предметной области, включающий в себя рассмотрение существующих
методов обнаружения текстовых областей на изображениях реальных сцен В
результате аналитической части в качестве классификатора была выбрана
сверточная нейронная сеть архитектуры U-Net.
В качестве базы изображений был выбран набор данных KAIST Scene
Text Database, для которого было проведено увеличение количества
изображений за счёт применения поворотов, сжатия и разделения.
Был разработан нейросетевой алгоритм распознавания надписей на
изображениях реальных сцен, для которого производился подбор таких
параметров нейронной сети как размеры входных изображений, количество и
типы используемых слоёв. Было произведено проектирование программного
обеспечения на основании разработанного алгоритма, а также его дальнейшая
реализация и тестирование.
В результате конечного обучения нейросетевого алгоритма удалось
добиться высокой точности: 91,1% для обучающей выборки, 90,0% для
валидационной и 88,0% для тестовой.
Было проведено сравнение с работами, проводившими тестирование на
базе изображений KAIST Scene Text Database: полная набор данных и только
английская часть. В ходе сравнения алгоритм данной работы показал наилучшие
результаты.

1.Text line segmentation in historical document images using an adaptive
U–Net architecture / O. Mechi, M. Mehri, R. Ingold, and N. Essoukri Ben Amara //
2019 International Conference on Document Analysis and Recognition (ICDAR). –
2019. – Р.369-374.
2.A new U-Net based license plate enhancement model in night and day
images / P. N. Chowdhury, P. Shivakumara, R. Raghavendra, U. Pal, T. Lu and M.
Blumenstein // The 5th Asian Conference on Pattern Recognition. – 2019. – P.749-763.
3.Robust wide-baseline stereo from maximally stable extremal regions /
J. Matas, O. Chum, M. Urban, and T. Pajdla // Image and Vision Computing. – 2004.
– Vol. 22, №10. – P.761-767.
4.Neumann L. Real-time scene text localization and recognition /
L. Neumann, J. Matas // 2012 IEEE Conference on Computer Vision and Pattern
Recognition. – 2012. – P.3538-3545.
5.Epshtein B. Detecting text in natural scenes with stroke width transform /
B. Epshtein, E. Ofek, Y. Wexler // 2010 IEEE Computer Society Conference on
Computer Vision and Pattern Recognition. – 2010. – P.2963-2970.
6.Ahmed N. Discrete Cosine Transform / N. Ahmed, T. Natarajan,
K. R. Rao // IEEE Transactions on Computers. – 1974. – Vol. C-23, №1. – P.90-93.
7.Zhong Y. Automatic caption localization in compressed video / Y. Zhong,
H. Zhang and A. K. Jain // Pattern Analysis and Machine Intelligence, IEEE
Transactions on. – 2000. – Vol. 22, №4. –P.385-392.
8.Dalal N. Histograms of Oriented Gradients for Human Detection /
N. Dalal, B. Triggs // 2005 IEEE Computer Society Conference on Computer Vision
and Pattern Recognition (CVPR’05) – 2005. – Vol. 1. – P.886-893.
9.Czarnek N. Physically Motivated Feature Development for Machine
Learning Applications // Department of Electrical and Computer Engineering Duke
University. – 2017.
10. Viola P. Rapid Object Detection using a Boosted Cascade of Simple
Features / P. Viola, M. Jones // Proceedings of the 2001 IEEE Computer Society
Conference on Computer Vision and Pattern Recognition. – 2001. – Vol. 1. – P.511-
518.
11. Ghorbel A. Generalized Haar-like filters for document analysis:
application to word spotting and text extraction from comics // Document and Text
Processing. Université de La Rochelle. – 2016.
12. Chen X. Detecting and reading text in natural scenes / X. Chen and
A. L. Yuille // Proceedings of the 2004 IEEE Computer Society Conference on
Computer Vision and Pattern Recognition. – 2004. – Vol. 2. – P.366-373.
13. Schmidhuber J. Deep learning in neural networks: An overview // Neural
Networks. – 2015. – Vol. 61. – P.85-117.
14. Goodfellow I. J. Multi-digit number recognition from street view imagery
using deep convolutional neural networks / I. J. Goodfellow, Y. Bulatov, J. Ibarz,
S. Arnoud, V.Shet // Proceedings of the International Conference on Learning
Representations (ICLR). – 2014.
15. Zhang, Z. Multi-oriented text detection with fully convolutional networks.
/ Z. Zhang, C. Zhang, W. Shen, C. Yao, W. Liu, X. Bai // Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition. – 2016. – P.4159-4167.
16. Ronneberger O. U-net: Convolutional networks for biomedical image
segmentation / O. Ronneberger, P. Fischer, T. Brox // Medical Image Computing and
Computer-Assisted Intervention. – 2015. – Vol. 9351. – P.234-241.
17. Bezmaternykh P.V. U-Net-bin: hacking the document image binarization
contest / P.V. Bezmaternykh, D.A. Ilin, D.P. Nikolaev // Computer Optics. – 2019. –
Vol. 43 №5. – P.825-832.
18. Краснящих А.В. Обработка оптических изображений. – СПб: НИУ
ИТМО, 2012. – 129 с.
19. Bai B. A Seed-Based Segmentation Method for Scene Text Extraction /
B. Bai, F. Yin and C. L. Liu // 2014 11th IAPR International Workshop on Document
Analysis Systems. – 2014. – P.262-266.
20. Agrawal A. Enhanced characterness for text detection in the wild /
A. Agrawal, P. Mukherjee, S. Srivastava, B. Lall // Proceedings of 2nd International
Conference on Computer Vision & Image Processing. – 2018. – P. 359-369.
21. Gomez L. A fast hierarchical method for multi-script and arbitrary
oriented scene text extraction / L. Gomez, D. Karatzas // International Journal on
Document Analysis and Recognition. – 2016. – Vol. 19, №4. – P.335-349.
22. Lee J. Page segmentation using a convolutional neural network with
trainable co–occurrence features. / J. Lee, H. Hayashi, W. Ohyama, S. Uchida // 2019
International Conference on Document Analysis and Recognition (ICDAR). – 2019. –
P.1023-1028.
23. Wick C. Fully convolutional neural networks for page segmentation of
historical document images / C. Wick, F. Puppe // 2018 13th IAPR International
Workshop on Document Analysis Systems (DAS). – 208. – P. 287-292.
24. Трудовой кодекс Российской Федерации от 30.12.2001 N 197-ФЗ
(ред. от 05.04.2021)
25. Федеральный закон от 28.12.2013 N 426-ФЗ (ред. от 30.12.2020)
О специальной оценке условий труда (с изменениями и дополнениями)
26. СП 2.4.3648-20 Санитарно-эпидемиологические требования к
организациям воспитания и обучения, отдыха и оздоровления детей и молодежи
27. ГОСТ 12.2.032-78 ССБТ. Рабочее место при выполнении работ сидя.
Общие эргономические требования.
28. ГОСТ 12.0.003-2015 ССБТ. Опасные и вредные производственные
факторы. Классификация.
29. СП 52.13330.2016 Естественное и искусственное освещение.
Актуализированная редакция СНиП 23-05-95*.
30. СанПиН 2.2.4.548-96. Гигиенические требования к микроклимату
производственных помещений.
31. ГОСТ 12.1.006-84 ССБТ. Электромагнитные поля радиочастот.
Общие требования безопасности.
32. ГОСТ 12.1.003-2014 ССБТ. Шум. Общие требования безопасности.
33. СН 2.2.4/2.1.8.562-96 Шум на рабочих местах, в помещениях жилых,
общественных зданий и на территории жилой застройки.
34. Р 2.2.2006-05 Гигиена труда. Руководство по гигиенической оценке
факторов рабочей среды и трудового процесса. Критерии и классификация
условий труда.
35. ГОСТР50948-2001Средстваотображенияинформации
индивидуального пользования. Общие эргономические требования и требования
безопасности.
36. ГОСТ 12.1.019-2017 ССБТ. Электробезопасность. Общие требования
и номенклатура видов защиты.
37. Правила устройства электроустановок (Седьмое издание).
38. Федеральной закон от 24.06.1998 N 89-ФЗ. Об отходах производства
и потребления (с изменениями и дополнениями).
39. ГОСТ Р53692-2009 Ресурсосбережение. Обращение с отходами.
Этапы технологического цикла отходов.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Читать «Разработка нейросетевого алгоритма распознавания надписей на изображениях реальных сцен»

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Антон П. преподаватель, доцент
    4.8 (1033 отзыва)
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публик... Читать все
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публикуюсь, имею высокий индекс цитирования. Спикер.
    #Кандидатские #Магистерские
    1386 Выполненных работ
    AleksandrAvdiev Южный федеральный университет, 2010, преподаватель, канд...
    4.1 (20 отзывов)
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    #Кандидатские #Магистерские
    28 Выполненных работ
    Глеб С. преподаватель, кандидат наук, доцент
    5 (158 отзывов)
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной с... Читать все
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной специальности 12.00.14 административное право, административный процесс.
    #Кандидатские #Магистерские
    216 Выполненных работ
    Анна Н. Государственный университет управления 2021, Экономика и ...
    0 (13 отзывов)
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.
    #Кандидатские #Магистерские
    0 Выполненных работ
    Ольга Р. доктор, профессор
    4.2 (13 отзывов)
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласован... Читать все
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласованные сроки и при необходимости дорабатываются по рекомендациям научного руководителя (преподавателя). Буду рада плодотворному и взаимовыгодному сотрудничеству!!! К каждой работе подхожу индивидуально! Всегда готова по любому вопросу договориться с заказчиком! Все работы проверяю на антиплагиат.ру по умолчанию, если в заказе не стоит иное и если это заранее не обговорено!!!
    #Кандидатские #Магистерские
    21 Выполненная работа
    Родион М. БГУ, выпускник
    4.6 (71 отзыв)
    Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.
    Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.
    #Кандидатские #Магистерские
    108 Выполненных работ
    Ксения М. Курганский Государственный Университет 2009, Юридический...
    4.8 (105 отзывов)
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитыв... Читать все
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитывать все требования и пожелания.
    #Кандидатские #Магистерские
    213 Выполненных работ
    Егор В. кандидат наук, доцент
    5 (428 отзывов)
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Ск... Читать все
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Скорее всего Ваш заказ будет выполнен раньше срока.
    #Кандидатские #Магистерские
    694 Выполненных работы

    Другие учебные работы по предмету