Разработка нейросетевого алгоритма распознавания надписей на изображениях реальных сцен

Лобанова, Виктория Александровна Отделение информационных технологий (ОИТ)
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Объектом проектирования и разработки является нейросетевой алгоритм распознавания надписей на изображениях реальных сцен.
В процессе исследования был проведён анализ существующих моделей обнаружения текстовых областей на изображениях реальных сцен, на основании которого был произведён выбор модели для дальнейшей реализации.
В результате был предложен нейросетевой алгоритм распознавания надписей на изображениях реальных сцен. В ходе проведения тестирования были подобраны такие параметры нейронной сети как размеры входных изображений, количество и типы используемых слоёв. В результате конечного обучения нейросетевого алгоритма удалось добиться высокой точности.

Введение ……………………………………………………………………………………………………… 13
1 Методы распознавания текстовых областей ………………………………………………. 14

1.1 Методы связанных компонент ………………………………………………………………… 14
1.2 Текстурные методы ………………………………………………………………………………… 16
1.3 Методы глубокого обучения …………………………………………………………………… 20
1.4 Сравнение методов детектирования текстовых областей на изображениях 23

2 Проектирование алгоритма ……………………………………………………………………….. 26

2.1 Используемые инструменты …………………………………………………………………… 26
2.2 Модули программы для обучения сверточной нейронной сети ……………….. 28
2.3 Архитектура программного обеспечения ………………………………………………… 28
2.4 Описание структуры сети……………………………………………………………………….. 29
2.5 Параметры оценки при обучении сети ……………………………………………………. 31
2.6 Фильтры для предобработки изображений ……………………………………………… 32
2.7 Преобразование Фурье …………………………………………………………………………… 33
2.8 Сглаживающие частотные фильтры ……………………………………………………….. 33

3 Результаты обучения сети …………………………………………………………………………. 35

3.1 Подбор размеров входных изображений …………………………………………………. 35
3.2 Подбор количества слоёв ……………………………………………………………………….. 38
3.3 Подбор типов свёрточных слоёв …………………………………………………………….. 39
3.4 Предобработка входных изображений ……………………………………………………. 40
2.5 Частотный анализ с использованием преобразования Фурье …………………… 45
3.7 Сравнение с другими работами ………………………………………………………………. 54

4 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение ……. 58

4.1 Предпроектный анализ …………………………………………………………………………… 58
4.2 Планирование научно-исследовательских работ……………………………………… 61
4.3 Определение ресурсной (ресурсосберегающей), финансовой, бюджетной,
социальной и экономической эффективности исследования …………………………. 66
4.4 Вывод по разделу …………………………………………………………………………………… 69
5 Социальная ответственность …………………………………………………………………….. 70

5.1 Правовые и организационные вопросы обеспечения безопасности …………. 70
5.2 Профессиональная социальная безопасность. …………………………………………. 72
5.3. Экологическая безопасность ………………………………………………………………….. 82
5.4. Безопасность в чрезвычайных ситуациях……………………………………………….. 83
5.5 Выводы по разделу…………………………………………………………………………………. 84

Заключение …………………………………………………………………………………………………. 86
Список использованных источников ……………………………………………………………. 87
Приложение А …………………………………………………………………………………………….. 91
Приложение Б ……………………………………………………………………………………………. 102

В настоящее время существует огромное количество информации,
хранящейся в виде изображений, содержание которых представляет собой
определенную ценность. Детектирование и последующее распознавание текста
на изображениях может быть применено в таких областях как перевод
фотографий документов в текстовую форму [1], автоматическое определение
номерных знаков автомобилей [2], геолокация объекта по названиям улиц,
улучшение качества детектирования и распознавания объектов на изображениях.
Однако объемы информации, хранящейся в виде изображений, велики, что
делает невозможным ее обработку вручную. Тем не менее, автоматизированные
методы обработки изображений позволяют успешно справляться с этой задачей.
Несмотря на широкую область возможного применения и прогресс в
сфере машинного обучения, обнаружение и сегментация текстовых областей на
изображениях все еще представляет собой проблему. Текст, расположенный на
изображениях реальных сцен, может быть различным по размеру, стилю, цвету,
повороту относительно горизонта. Также возможно его перекрытие другими
объектами на изображении или низкая контрастность с фоном. Применение
фильтров для сглаживания шумов и увеличения контрастности на границах
объектов не является универсальным решением проблемы, так как может, как
вызывать ложные срабатывания, так и мешать обнаружению значимых областей.
Целью данной работы является разработка нейросетевого алгоритма
распознавания надписей на изображениях реальных сцен.
Для достижения данной цели необходимо:
 проанализировать существующие модели обнаружения текстовых
областей на изображениях реальных сцен;
 выбрать модель для дальнейшей реализации;
 разработать алгоритм для распознавания надписей;
 реализовать программу на основе разработанного алгоритма;
 произвести обучение и тестирование разработанного алгоритма.
1 Методы распознавания текстовых областей
Методы распознавания текстовых областей используются для
определения наличия и выделения местоположения текстовых областей на
изображениях. Однако, точность данного определения может быть снижена из-
за различных размеров, стилей и направлений надписей. Кроме того, низкий
контраст с фоном или сложные фоны могут вызывать дополнительные
затруднения. Все существующие методы распознавания текстовых областей
можно разделить на следующие группы:
 методы связанных компонент;
 текстурные методы;
 методы глубокого обучения.

В ходе выполнения выпускной квалификационной работы был проведен
анализ предметной области, включающий в себя рассмотрение существующих
методов обнаружения текстовых областей на изображениях реальных сцен В
результате аналитической части в качестве классификатора была выбрана
сверточная нейронная сеть архитектуры U-Net.
В качестве базы изображений был выбран набор данных KAIST Scene
Text Database, для которого было проведено увеличение количества
изображений за счёт применения поворотов, сжатия и разделения.
Был разработан нейросетевой алгоритм распознавания надписей на
изображениях реальных сцен, для которого производился подбор таких
параметров нейронной сети как размеры входных изображений, количество и
типы используемых слоёв. Было произведено проектирование программного
обеспечения на основании разработанного алгоритма, а также его дальнейшая
реализация и тестирование.
В результате конечного обучения нейросетевого алгоритма удалось
добиться высокой точности: 91,1% для обучающей выборки, 90,0% для
валидационной и 88,0% для тестовой.
Было проведено сравнение с работами, проводившими тестирование на
базе изображений KAIST Scene Text Database: полная набор данных и только
английская часть. В ходе сравнения алгоритм данной работы показал наилучшие
результаты.

1.Text line segmentation in historical document images using an adaptive
U–Net architecture / O. Mechi, M. Mehri, R. Ingold, and N. Essoukri Ben Amara //
2019 International Conference on Document Analysis and Recognition (ICDAR). –
2019. – Р.369-374.
2.A new U-Net based license plate enhancement model in night and day
images / P. N. Chowdhury, P. Shivakumara, R. Raghavendra, U. Pal, T. Lu and M.
Blumenstein // The 5th Asian Conference on Pattern Recognition. – 2019. – P.749-763.
3.Robust wide-baseline stereo from maximally stable extremal regions /
J. Matas, O. Chum, M. Urban, and T. Pajdla // Image and Vision Computing. – 2004.
– Vol. 22, №10. – P.761-767.
4.Neumann L. Real-time scene text localization and recognition /
L. Neumann, J. Matas // 2012 IEEE Conference on Computer Vision and Pattern
Recognition. – 2012. – P.3538-3545.
5.Epshtein B. Detecting text in natural scenes with stroke width transform /
B. Epshtein, E. Ofek, Y. Wexler // 2010 IEEE Computer Society Conference on
Computer Vision and Pattern Recognition. – 2010. – P.2963-2970.
6.Ahmed N. Discrete Cosine Transform / N. Ahmed, T. Natarajan,
K. R. Rao // IEEE Transactions on Computers. – 1974. – Vol. C-23, №1. – P.90-93.
7.Zhong Y. Automatic caption localization in compressed video / Y. Zhong,
H. Zhang and A. K. Jain // Pattern Analysis and Machine Intelligence, IEEE
Transactions on. – 2000. – Vol. 22, №4. –P.385-392.
8.Dalal N. Histograms of Oriented Gradients for Human Detection /
N. Dalal, B. Triggs // 2005 IEEE Computer Society Conference on Computer Vision
and Pattern Recognition (CVPR’05) – 2005. – Vol. 1. – P.886-893.
9.Czarnek N. Physically Motivated Feature Development for Machine
Learning Applications // Department of Electrical and Computer Engineering Duke
University. – 2017.
10. Viola P. Rapid Object Detection using a Boosted Cascade of Simple
Features / P. Viola, M. Jones // Proceedings of the 2001 IEEE Computer Society
Conference on Computer Vision and Pattern Recognition. – 2001. – Vol. 1. – P.511-
518.
11. Ghorbel A. Generalized Haar-like filters for document analysis:
application to word spotting and text extraction from comics // Document and Text
Processing. Université de La Rochelle. – 2016.
12. Chen X. Detecting and reading text in natural scenes / X. Chen and
A. L. Yuille // Proceedings of the 2004 IEEE Computer Society Conference on
Computer Vision and Pattern Recognition. – 2004. – Vol. 2. – P.366-373.
13. Schmidhuber J. Deep learning in neural networks: An overview // Neural
Networks. – 2015. – Vol. 61. – P.85-117.
14. Goodfellow I. J. Multi-digit number recognition from street view imagery
using deep convolutional neural networks / I. J. Goodfellow, Y. Bulatov, J. Ibarz,
S. Arnoud, V.Shet // Proceedings of the International Conference on Learning
Representations (ICLR). – 2014.
15. Zhang, Z. Multi-oriented text detection with fully convolutional networks.
/ Z. Zhang, C. Zhang, W. Shen, C. Yao, W. Liu, X. Bai // Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition. – 2016. – P.4159-4167.
16. Ronneberger O. U-net: Convolutional networks for biomedical image
segmentation / O. Ronneberger, P. Fischer, T. Brox // Medical Image Computing and
Computer-Assisted Intervention. – 2015. – Vol. 9351. – P.234-241.
17. Bezmaternykh P.V. U-Net-bin: hacking the document image binarization
contest / P.V. Bezmaternykh, D.A. Ilin, D.P. Nikolaev // Computer Optics. – 2019. –
Vol. 43 №5. – P.825-832.
18. Краснящих А.В. Обработка оптических изображений. – СПб: НИУ
ИТМО, 2012. – 129 с.
19. Bai B. A Seed-Based Segmentation Method for Scene Text Extraction /
B. Bai, F. Yin and C. L. Liu // 2014 11th IAPR International Workshop on Document
Analysis Systems. – 2014. – P.262-266.
20. Agrawal A. Enhanced characterness for text detection in the wild /
A. Agrawal, P. Mukherjee, S. Srivastava, B. Lall // Proceedings of 2nd International
Conference on Computer Vision & Image Processing. – 2018. – P. 359-369.
21. Gomez L. A fast hierarchical method for multi-script and arbitrary
oriented scene text extraction / L. Gomez, D. Karatzas // International Journal on
Document Analysis and Recognition. – 2016. – Vol. 19, №4. – P.335-349.
22. Lee J. Page segmentation using a convolutional neural network with
trainable co–occurrence features. / J. Lee, H. Hayashi, W. Ohyama, S. Uchida // 2019
International Conference on Document Analysis and Recognition (ICDAR). – 2019. –
P.1023-1028.
23. Wick C. Fully convolutional neural networks for page segmentation of
historical document images / C. Wick, F. Puppe // 2018 13th IAPR International
Workshop on Document Analysis Systems (DAS). – 208. – P. 287-292.
24. Трудовой кодекс Российской Федерации от 30.12.2001 N 197-ФЗ
(ред. от 05.04.2021)
25. Федеральный закон от 28.12.2013 N 426-ФЗ (ред. от 30.12.2020)
О специальной оценке условий труда (с изменениями и дополнениями)
26. СП 2.4.3648-20 Санитарно-эпидемиологические требования к
организациям воспитания и обучения, отдыха и оздоровления детей и молодежи
27. ГОСТ 12.2.032-78 ССБТ. Рабочее место при выполнении работ сидя.
Общие эргономические требования.
28. ГОСТ 12.0.003-2015 ССБТ. Опасные и вредные производственные
факторы. Классификация.
29. СП 52.13330.2016 Естественное и искусственное освещение.
Актуализированная редакция СНиП 23-05-95*.
30. СанПиН 2.2.4.548-96. Гигиенические требования к микроклимату
производственных помещений.
31. ГОСТ 12.1.006-84 ССБТ. Электромагнитные поля радиочастот.
Общие требования безопасности.
32. ГОСТ 12.1.003-2014 ССБТ. Шум. Общие требования безопасности.
33. СН 2.2.4/2.1.8.562-96 Шум на рабочих местах, в помещениях жилых,
общественных зданий и на территории жилой застройки.
34. Р 2.2.2006-05 Гигиена труда. Руководство по гигиенической оценке
факторов рабочей среды и трудового процесса. Критерии и классификация
условий труда.
35. ГОСТР50948-2001Средстваотображенияинформации
индивидуального пользования. Общие эргономические требования и требования
безопасности.
36. ГОСТ 12.1.019-2017 ССБТ. Электробезопасность. Общие требования
и номенклатура видов защиты.
37. Правила устройства электроустановок (Седьмое издание).
38. Федеральной закон от 24.06.1998 N 89-ФЗ. Об отходах производства
и потребления (с изменениями и дополнениями).
39. ГОСТ Р53692-2009 Ресурсосбережение. Обращение с отходами.
Этапы технологического цикла отходов.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    Дмитрий К. преподаватель, кандидат наук
    5 (1241 отзыв)
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполня... Читать все
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполняю уже 30 лет.
    #Кандидатские #Магистерские
    2271 Выполненная работа
    Анна Н. Государственный университет управления 2021, Экономика и ...
    0 (13 отзывов)
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.
    #Кандидатские #Магистерские
    0 Выполненных работ
    Катерина М. кандидат наук, доцент
    4.9 (522 отзыва)
    Кандидат технических наук. Специализируюсь на выполнении работ по метрологии и стандартизации
    Кандидат технических наук. Специализируюсь на выполнении работ по метрологии и стандартизации
    #Кандидатские #Магистерские
    836 Выполненных работ
    Татьяна П.
    4.2 (6 отзывов)
    Помогаю студентам с решением задач по ТОЭ и физике на протяжении 9 лет. Пишу диссертацию на соискание степени кандидата технических наук, имею опыт годовой стажировки ... Читать все
    Помогаю студентам с решением задач по ТОЭ и физике на протяжении 9 лет. Пишу диссертацию на соискание степени кандидата технических наук, имею опыт годовой стажировки в одном из крупнейших университетов Германии.
    #Кандидатские #Магистерские
    9 Выполненных работ
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ
    Татьяна Б.
    4.6 (92 отзыва)
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские ди... Читать все
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские диссертации, курсовые работы средний балл - 4,5). Всегда на связи!
    #Кандидатские #Магистерские
    138 Выполненных работ
    Анна С. СФ ПГУ им. М.В. Ломоносова 2004, филологический, преподав...
    4.8 (9 отзывов)
    Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания... Читать все
    Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания и проверки (в качестве преподавателя) контрольных и курсовых работ.
    #Кандидатские #Магистерские
    16 Выполненных работ
    Дарья П. кандидат наук, доцент
    4.9 (20 отзывов)
    Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных... Читать все
    Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных исследований, связанных с журналистикой, филологией и литературой
    #Кандидатские #Магистерские
    33 Выполненных работы

    Другие учебные работы по предмету