Разработка нейросетевого алгоритма распознавания надписей на изображениях реальных сцен

Лобанова, Виктория Александровна Отделение информационных технологий (ОИТ)
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Объектом проектирования и разработки является нейросетевой алгоритм распознавания надписей на изображениях реальных сцен.
В процессе исследования был проведён анализ существующих моделей обнаружения текстовых областей на изображениях реальных сцен, на основании которого был произведён выбор модели для дальнейшей реализации.
В результате был предложен нейросетевой алгоритм распознавания надписей на изображениях реальных сцен. В ходе проведения тестирования были подобраны такие параметры нейронной сети как размеры входных изображений, количество и типы используемых слоёв. В результате конечного обучения нейросетевого алгоритма удалось добиться высокой точности.

Введение ……………………………………………………………………………………………………… 13
1 Методы распознавания текстовых областей ………………………………………………. 14

1.1 Методы связанных компонент ………………………………………………………………… 14
1.2 Текстурные методы ………………………………………………………………………………… 16
1.3 Методы глубокого обучения …………………………………………………………………… 20
1.4 Сравнение методов детектирования текстовых областей на изображениях 23

2 Проектирование алгоритма ……………………………………………………………………….. 26

2.1 Используемые инструменты …………………………………………………………………… 26
2.2 Модули программы для обучения сверточной нейронной сети ……………….. 28
2.3 Архитектура программного обеспечения ………………………………………………… 28
2.4 Описание структуры сети……………………………………………………………………….. 29
2.5 Параметры оценки при обучении сети ……………………………………………………. 31
2.6 Фильтры для предобработки изображений ……………………………………………… 32
2.7 Преобразование Фурье …………………………………………………………………………… 33
2.8 Сглаживающие частотные фильтры ……………………………………………………….. 33

3 Результаты обучения сети …………………………………………………………………………. 35

3.1 Подбор размеров входных изображений …………………………………………………. 35
3.2 Подбор количества слоёв ……………………………………………………………………….. 38
3.3 Подбор типов свёрточных слоёв …………………………………………………………….. 39
3.4 Предобработка входных изображений ……………………………………………………. 40
2.5 Частотный анализ с использованием преобразования Фурье …………………… 45
3.7 Сравнение с другими работами ………………………………………………………………. 54

4 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение ……. 58

4.1 Предпроектный анализ …………………………………………………………………………… 58
4.2 Планирование научно-исследовательских работ……………………………………… 61
4.3 Определение ресурсной (ресурсосберегающей), финансовой, бюджетной,
социальной и экономической эффективности исследования …………………………. 66
4.4 Вывод по разделу …………………………………………………………………………………… 69
5 Социальная ответственность …………………………………………………………………….. 70

5.1 Правовые и организационные вопросы обеспечения безопасности …………. 70
5.2 Профессиональная социальная безопасность. …………………………………………. 72
5.3. Экологическая безопасность ………………………………………………………………….. 82
5.4. Безопасность в чрезвычайных ситуациях……………………………………………….. 83
5.5 Выводы по разделу…………………………………………………………………………………. 84

Заключение …………………………………………………………………………………………………. 86
Список использованных источников ……………………………………………………………. 87
Приложение А …………………………………………………………………………………………….. 91
Приложение Б ……………………………………………………………………………………………. 102

В настоящее время существует огромное количество информации,
хранящейся в виде изображений, содержание которых представляет собой
определенную ценность. Детектирование и последующее распознавание текста
на изображениях может быть применено в таких областях как перевод
фотографий документов в текстовую форму [1], автоматическое определение
номерных знаков автомобилей [2], геолокация объекта по названиям улиц,
улучшение качества детектирования и распознавания объектов на изображениях.
Однако объемы информации, хранящейся в виде изображений, велики, что
делает невозможным ее обработку вручную. Тем не менее, автоматизированные
методы обработки изображений позволяют успешно справляться с этой задачей.
Несмотря на широкую область возможного применения и прогресс в
сфере машинного обучения, обнаружение и сегментация текстовых областей на
изображениях все еще представляет собой проблему. Текст, расположенный на
изображениях реальных сцен, может быть различным по размеру, стилю, цвету,
повороту относительно горизонта. Также возможно его перекрытие другими
объектами на изображении или низкая контрастность с фоном. Применение
фильтров для сглаживания шумов и увеличения контрастности на границах
объектов не является универсальным решением проблемы, так как может, как
вызывать ложные срабатывания, так и мешать обнаружению значимых областей.
Целью данной работы является разработка нейросетевого алгоритма
распознавания надписей на изображениях реальных сцен.
Для достижения данной цели необходимо:
 проанализировать существующие модели обнаружения текстовых
областей на изображениях реальных сцен;
 выбрать модель для дальнейшей реализации;
 разработать алгоритм для распознавания надписей;
 реализовать программу на основе разработанного алгоритма;
 произвести обучение и тестирование разработанного алгоритма.
1 Методы распознавания текстовых областей
Методы распознавания текстовых областей используются для
определения наличия и выделения местоположения текстовых областей на
изображениях. Однако, точность данного определения может быть снижена из-
за различных размеров, стилей и направлений надписей. Кроме того, низкий
контраст с фоном или сложные фоны могут вызывать дополнительные
затруднения. Все существующие методы распознавания текстовых областей
можно разделить на следующие группы:
 методы связанных компонент;
 текстурные методы;
 методы глубокого обучения.

В ходе выполнения выпускной квалификационной работы был проведен
анализ предметной области, включающий в себя рассмотрение существующих
методов обнаружения текстовых областей на изображениях реальных сцен В
результате аналитической части в качестве классификатора была выбрана
сверточная нейронная сеть архитектуры U-Net.
В качестве базы изображений был выбран набор данных KAIST Scene
Text Database, для которого было проведено увеличение количества
изображений за счёт применения поворотов, сжатия и разделения.
Был разработан нейросетевой алгоритм распознавания надписей на
изображениях реальных сцен, для которого производился подбор таких
параметров нейронной сети как размеры входных изображений, количество и
типы используемых слоёв. Было произведено проектирование программного
обеспечения на основании разработанного алгоритма, а также его дальнейшая
реализация и тестирование.
В результате конечного обучения нейросетевого алгоритма удалось
добиться высокой точности: 91,1% для обучающей выборки, 90,0% для
валидационной и 88,0% для тестовой.
Было проведено сравнение с работами, проводившими тестирование на
базе изображений KAIST Scene Text Database: полная набор данных и только
английская часть. В ходе сравнения алгоритм данной работы показал наилучшие
результаты.

1.Text line segmentation in historical document images using an adaptive
U–Net architecture / O. Mechi, M. Mehri, R. Ingold, and N. Essoukri Ben Amara //
2019 International Conference on Document Analysis and Recognition (ICDAR). –
2019. – Р.369-374.
2.A new U-Net based license plate enhancement model in night and day
images / P. N. Chowdhury, P. Shivakumara, R. Raghavendra, U. Pal, T. Lu and M.
Blumenstein // The 5th Asian Conference on Pattern Recognition. – 2019. – P.749-763.
3.Robust wide-baseline stereo from maximally stable extremal regions /
J. Matas, O. Chum, M. Urban, and T. Pajdla // Image and Vision Computing. – 2004.
– Vol. 22, №10. – P.761-767.
4.Neumann L. Real-time scene text localization and recognition /
L. Neumann, J. Matas // 2012 IEEE Conference on Computer Vision and Pattern
Recognition. – 2012. – P.3538-3545.
5.Epshtein B. Detecting text in natural scenes with stroke width transform /
B. Epshtein, E. Ofek, Y. Wexler // 2010 IEEE Computer Society Conference on
Computer Vision and Pattern Recognition. – 2010. – P.2963-2970.
6.Ahmed N. Discrete Cosine Transform / N. Ahmed, T. Natarajan,
K. R. Rao // IEEE Transactions on Computers. – 1974. – Vol. C-23, №1. – P.90-93.
7.Zhong Y. Automatic caption localization in compressed video / Y. Zhong,
H. Zhang and A. K. Jain // Pattern Analysis and Machine Intelligence, IEEE
Transactions on. – 2000. – Vol. 22, №4. –P.385-392.
8.Dalal N. Histograms of Oriented Gradients for Human Detection /
N. Dalal, B. Triggs // 2005 IEEE Computer Society Conference on Computer Vision
and Pattern Recognition (CVPR’05) – 2005. – Vol. 1. – P.886-893.
9.Czarnek N. Physically Motivated Feature Development for Machine
Learning Applications // Department of Electrical and Computer Engineering Duke
University. – 2017.
10. Viola P. Rapid Object Detection using a Boosted Cascade of Simple
Features / P. Viola, M. Jones // Proceedings of the 2001 IEEE Computer Society
Conference on Computer Vision and Pattern Recognition. – 2001. – Vol. 1. – P.511-
518.
11. Ghorbel A. Generalized Haar-like filters for document analysis:
application to word spotting and text extraction from comics // Document and Text
Processing. Université de La Rochelle. – 2016.
12. Chen X. Detecting and reading text in natural scenes / X. Chen and
A. L. Yuille // Proceedings of the 2004 IEEE Computer Society Conference on
Computer Vision and Pattern Recognition. – 2004. – Vol. 2. – P.366-373.
13. Schmidhuber J. Deep learning in neural networks: An overview // Neural
Networks. – 2015. – Vol. 61. – P.85-117.
14. Goodfellow I. J. Multi-digit number recognition from street view imagery
using deep convolutional neural networks / I. J. Goodfellow, Y. Bulatov, J. Ibarz,
S. Arnoud, V.Shet // Proceedings of the International Conference on Learning
Representations (ICLR). – 2014.
15. Zhang, Z. Multi-oriented text detection with fully convolutional networks.
/ Z. Zhang, C. Zhang, W. Shen, C. Yao, W. Liu, X. Bai // Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition. – 2016. – P.4159-4167.
16. Ronneberger O. U-net: Convolutional networks for biomedical image
segmentation / O. Ronneberger, P. Fischer, T. Brox // Medical Image Computing and
Computer-Assisted Intervention. – 2015. – Vol. 9351. – P.234-241.
17. Bezmaternykh P.V. U-Net-bin: hacking the document image binarization
contest / P.V. Bezmaternykh, D.A. Ilin, D.P. Nikolaev // Computer Optics. – 2019. –
Vol. 43 №5. – P.825-832.
18. Краснящих А.В. Обработка оптических изображений. – СПб: НИУ
ИТМО, 2012. – 129 с.
19. Bai B. A Seed-Based Segmentation Method for Scene Text Extraction /
B. Bai, F. Yin and C. L. Liu // 2014 11th IAPR International Workshop on Document
Analysis Systems. – 2014. – P.262-266.
20. Agrawal A. Enhanced characterness for text detection in the wild /
A. Agrawal, P. Mukherjee, S. Srivastava, B. Lall // Proceedings of 2nd International
Conference on Computer Vision & Image Processing. – 2018. – P. 359-369.
21. Gomez L. A fast hierarchical method for multi-script and arbitrary
oriented scene text extraction / L. Gomez, D. Karatzas // International Journal on
Document Analysis and Recognition. – 2016. – Vol. 19, №4. – P.335-349.
22. Lee J. Page segmentation using a convolutional neural network with
trainable co–occurrence features. / J. Lee, H. Hayashi, W. Ohyama, S. Uchida // 2019
International Conference on Document Analysis and Recognition (ICDAR). – 2019. –
P.1023-1028.
23. Wick C. Fully convolutional neural networks for page segmentation of
historical document images / C. Wick, F. Puppe // 2018 13th IAPR International
Workshop on Document Analysis Systems (DAS). – 208. – P. 287-292.
24. Трудовой кодекс Российской Федерации от 30.12.2001 N 197-ФЗ
(ред. от 05.04.2021)
25. Федеральный закон от 28.12.2013 N 426-ФЗ (ред. от 30.12.2020)
О специальной оценке условий труда (с изменениями и дополнениями)
26. СП 2.4.3648-20 Санитарно-эпидемиологические требования к
организациям воспитания и обучения, отдыха и оздоровления детей и молодежи
27. ГОСТ 12.2.032-78 ССБТ. Рабочее место при выполнении работ сидя.
Общие эргономические требования.
28. ГОСТ 12.0.003-2015 ССБТ. Опасные и вредные производственные
факторы. Классификация.
29. СП 52.13330.2016 Естественное и искусственное освещение.
Актуализированная редакция СНиП 23-05-95*.
30. СанПиН 2.2.4.548-96. Гигиенические требования к микроклимату
производственных помещений.
31. ГОСТ 12.1.006-84 ССБТ. Электромагнитные поля радиочастот.
Общие требования безопасности.
32. ГОСТ 12.1.003-2014 ССБТ. Шум. Общие требования безопасности.
33. СН 2.2.4/2.1.8.562-96 Шум на рабочих местах, в помещениях жилых,
общественных зданий и на территории жилой застройки.
34. Р 2.2.2006-05 Гигиена труда. Руководство по гигиенической оценке
факторов рабочей среды и трудового процесса. Критерии и классификация
условий труда.
35. ГОСТР50948-2001Средстваотображенияинформации
индивидуального пользования. Общие эргономические требования и требования
безопасности.
36. ГОСТ 12.1.019-2017 ССБТ. Электробезопасность. Общие требования
и номенклатура видов защиты.
37. Правила устройства электроустановок (Седьмое издание).
38. Федеральной закон от 24.06.1998 N 89-ФЗ. Об отходах производства
и потребления (с изменениями и дополнениями).
39. ГОСТ Р53692-2009 Ресурсосбережение. Обращение с отходами.
Этапы технологического цикла отходов.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Егор В. кандидат наук, доцент
    5 (428 отзывов)
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Ск... Читать все
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Скорее всего Ваш заказ будет выполнен раньше срока.
    #Кандидатские #Магистерские
    694 Выполненных работы
    Анна Н. Государственный университет управления 2021, Экономика и ...
    0 (13 отзывов)
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.
    #Кандидатские #Магистерские
    0 Выполненных работ
    Рима С.
    5 (18 отзывов)
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный универси... Читать все
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный университет, являюсь бакалавром, магистром юриспруденции (с отличием)
    #Кандидатские #Магистерские
    38 Выполненных работ
    Мария Б. преподаватель, кандидат наук
    5 (22 отзыва)
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальнос... Читать все
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальности "Экономика и управление народным хозяйством". Автор научных статей.
    #Кандидатские #Магистерские
    37 Выполненных работ
    AleksandrAvdiev Южный федеральный университет, 2010, преподаватель, канд...
    4.1 (20 отзывов)
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    #Кандидатские #Магистерские
    28 Выполненных работ
    Логик Ф. кандидат наук, доцент
    4.9 (826 отзывов)
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские дисс... Читать все
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские диссертации, рефераты, контрольные) уже много лет. Качество работ гарантирую.
    #Кандидатские #Магистерские
    1486 Выполненных работ
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Кормчий В.
    4.3 (248 отзывов)
    Специализация: диссертации; дипломные и курсовые работы; научные статьи.
    Специализация: диссертации; дипломные и курсовые работы; научные статьи.
    #Кандидатские #Магистерские
    335 Выполненных работ
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ

    Другие учебные работы по предмету