Разработка нейросетевого алгоритма распознавания надписей на изображениях реальных сцен

Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0
Лобанова, Виктория Александровна Отделение информационных технологий (ОИТ)
Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Объектом проектирования и разработки является нейросетевой алгоритм распознавания надписей на изображениях реальных сцен.
В процессе исследования был проведён анализ существующих моделей обнаружения текстовых областей на изображениях реальных сцен, на основании которого был произведён выбор модели для дальнейшей реализации.
В результате был предложен нейросетевой алгоритм распознавания надписей на изображениях реальных сцен. В ходе проведения тестирования были подобраны такие параметры нейронной сети как размеры входных изображений, количество и типы используемых слоёв. В результате конечного обучения нейросетевого алгоритма удалось добиться высокой точности.

Введение ……………………………………………………………………………………………………… 13
1 Методы распознавания текстовых областей ………………………………………………. 14

1.1 Методы связанных компонент ………………………………………………………………… 14
1.2 Текстурные методы ………………………………………………………………………………… 16
1.3 Методы глубокого обучения …………………………………………………………………… 20
1.4 Сравнение методов детектирования текстовых областей на изображениях 23

2 Проектирование алгоритма ……………………………………………………………………….. 26

2.1 Используемые инструменты …………………………………………………………………… 26
2.2 Модули программы для обучения сверточной нейронной сети ……………….. 28
2.3 Архитектура программного обеспечения ………………………………………………… 28
2.4 Описание структуры сети……………………………………………………………………….. 29
2.5 Параметры оценки при обучении сети ……………………………………………………. 31
2.6 Фильтры для предобработки изображений ……………………………………………… 32
2.7 Преобразование Фурье …………………………………………………………………………… 33
2.8 Сглаживающие частотные фильтры ……………………………………………………….. 33

3 Результаты обучения сети …………………………………………………………………………. 35

3.1 Подбор размеров входных изображений …………………………………………………. 35
3.2 Подбор количества слоёв ……………………………………………………………………….. 38
3.3 Подбор типов свёрточных слоёв …………………………………………………………….. 39
3.4 Предобработка входных изображений ……………………………………………………. 40
2.5 Частотный анализ с использованием преобразования Фурье …………………… 45
3.7 Сравнение с другими работами ………………………………………………………………. 54

4 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение ……. 58

4.1 Предпроектный анализ …………………………………………………………………………… 58
4.2 Планирование научно-исследовательских работ……………………………………… 61
4.3 Определение ресурсной (ресурсосберегающей), финансовой, бюджетной,
социальной и экономической эффективности исследования …………………………. 66
4.4 Вывод по разделу …………………………………………………………………………………… 69
5 Социальная ответственность …………………………………………………………………….. 70

5.1 Правовые и организационные вопросы обеспечения безопасности …………. 70
5.2 Профессиональная социальная безопасность. …………………………………………. 72
5.3. Экологическая безопасность ………………………………………………………………….. 82
5.4. Безопасность в чрезвычайных ситуациях……………………………………………….. 83
5.5 Выводы по разделу…………………………………………………………………………………. 84

Заключение …………………………………………………………………………………………………. 86
Список использованных источников ……………………………………………………………. 87
Приложение А …………………………………………………………………………………………….. 91
Приложение Б ……………………………………………………………………………………………. 102

В настоящее время существует огромное количество информации,
хранящейся в виде изображений, содержание которых представляет собой
определенную ценность. Детектирование и последующее распознавание текста
на изображениях может быть применено в таких областях как перевод
фотографий документов в текстовую форму [1], автоматическое определение
номерных знаков автомобилей [2], геолокация объекта по названиям улиц,
улучшение качества детектирования и распознавания объектов на изображениях.
Однако объемы информации, хранящейся в виде изображений, велики, что
делает невозможным ее обработку вручную. Тем не менее, автоматизированные
методы обработки изображений позволяют успешно справляться с этой задачей.
Несмотря на широкую область возможного применения и прогресс в
сфере машинного обучения, обнаружение и сегментация текстовых областей на
изображениях все еще представляет собой проблему. Текст, расположенный на
изображениях реальных сцен, может быть различным по размеру, стилю, цвету,
повороту относительно горизонта. Также возможно его перекрытие другими
объектами на изображении или низкая контрастность с фоном. Применение
фильтров для сглаживания шумов и увеличения контрастности на границах
объектов не является универсальным решением проблемы, так как может, как
вызывать ложные срабатывания, так и мешать обнаружению значимых областей.
Целью данной работы является разработка нейросетевого алгоритма
распознавания надписей на изображениях реальных сцен.
Для достижения данной цели необходимо:
 проанализировать существующие модели обнаружения текстовых
областей на изображениях реальных сцен;
 выбрать модель для дальнейшей реализации;
 разработать алгоритм для распознавания надписей;
 реализовать программу на основе разработанного алгоритма;
 произвести обучение и тестирование разработанного алгоритма.
1 Методы распознавания текстовых областей
Методы распознавания текстовых областей используются для
определения наличия и выделения местоположения текстовых областей на
изображениях. Однако, точность данного определения может быть снижена из-
за различных размеров, стилей и направлений надписей. Кроме того, низкий
контраст с фоном или сложные фоны могут вызывать дополнительные
затруднения. Все существующие методы распознавания текстовых областей
можно разделить на следующие группы:
 методы связанных компонент;
 текстурные методы;
 методы глубокого обучения.

В ходе выполнения выпускной квалификационной работы был проведен
анализ предметной области, включающий в себя рассмотрение существующих
методов обнаружения текстовых областей на изображениях реальных сцен В
результате аналитической части в качестве классификатора была выбрана
сверточная нейронная сеть архитектуры U-Net.
В качестве базы изображений был выбран набор данных KAIST Scene
Text Database, для которого было проведено увеличение количества
изображений за счёт применения поворотов, сжатия и разделения.
Был разработан нейросетевой алгоритм распознавания надписей на
изображениях реальных сцен, для которого производился подбор таких
параметров нейронной сети как размеры входных изображений, количество и
типы используемых слоёв. Было произведено проектирование программного
обеспечения на основании разработанного алгоритма, а также его дальнейшая
реализация и тестирование.
В результате конечного обучения нейросетевого алгоритма удалось
добиться высокой точности: 91,1% для обучающей выборки, 90,0% для
валидационной и 88,0% для тестовой.
Было проведено сравнение с работами, проводившими тестирование на
базе изображений KAIST Scene Text Database: полная набор данных и только
английская часть. В ходе сравнения алгоритм данной работы показал наилучшие
результаты.

1.Text line segmentation in historical document images using an adaptive
U–Net architecture / O. Mechi, M. Mehri, R. Ingold, and N. Essoukri Ben Amara //
2019 International Conference on Document Analysis and Recognition (ICDAR). –
2019. – Р.369-374.
2.A new U-Net based license plate enhancement model in night and day
images / P. N. Chowdhury, P. Shivakumara, R. Raghavendra, U. Pal, T. Lu and M.
Blumenstein // The 5th Asian Conference on Pattern Recognition. – 2019. – P.749-763.
3.Robust wide-baseline stereo from maximally stable extremal regions /
J. Matas, O. Chum, M. Urban, and T. Pajdla // Image and Vision Computing. – 2004.
– Vol. 22, №10. – P.761-767.
4.Neumann L. Real-time scene text localization and recognition /
L. Neumann, J. Matas // 2012 IEEE Conference on Computer Vision and Pattern
Recognition. – 2012. – P.3538-3545.
5.Epshtein B. Detecting text in natural scenes with stroke width transform /
B. Epshtein, E. Ofek, Y. Wexler // 2010 IEEE Computer Society Conference on
Computer Vision and Pattern Recognition. – 2010. – P.2963-2970.
6.Ahmed N. Discrete Cosine Transform / N. Ahmed, T. Natarajan,
K. R. Rao // IEEE Transactions on Computers. – 1974. – Vol. C-23, №1. – P.90-93.
7.Zhong Y. Automatic caption localization in compressed video / Y. Zhong,
H. Zhang and A. K. Jain // Pattern Analysis and Machine Intelligence, IEEE
Transactions on. – 2000. – Vol. 22, №4. –P.385-392.
8.Dalal N. Histograms of Oriented Gradients for Human Detection /
N. Dalal, B. Triggs // 2005 IEEE Computer Society Conference on Computer Vision
and Pattern Recognition (CVPR’05) – 2005. – Vol. 1. – P.886-893.
9.Czarnek N. Physically Motivated Feature Development for Machine
Learning Applications // Department of Electrical and Computer Engineering Duke
University. – 2017.
10. Viola P. Rapid Object Detection using a Boosted Cascade of Simple
Features / P. Viola, M. Jones // Proceedings of the 2001 IEEE Computer Society
Conference on Computer Vision and Pattern Recognition. – 2001. – Vol. 1. – P.511-
518.
11. Ghorbel A. Generalized Haar-like filters for document analysis:
application to word spotting and text extraction from comics // Document and Text
Processing. Université de La Rochelle. – 2016.
12. Chen X. Detecting and reading text in natural scenes / X. Chen and
A. L. Yuille // Proceedings of the 2004 IEEE Computer Society Conference on
Computer Vision and Pattern Recognition. – 2004. – Vol. 2. – P.366-373.
13. Schmidhuber J. Deep learning in neural networks: An overview // Neural
Networks. – 2015. – Vol. 61. – P.85-117.
14. Goodfellow I. J. Multi-digit number recognition from street view imagery
using deep convolutional neural networks / I. J. Goodfellow, Y. Bulatov, J. Ibarz,
S. Arnoud, V.Shet // Proceedings of the International Conference on Learning
Representations (ICLR). – 2014.
15. Zhang, Z. Multi-oriented text detection with fully convolutional networks.
/ Z. Zhang, C. Zhang, W. Shen, C. Yao, W. Liu, X. Bai // Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition. – 2016. – P.4159-4167.
16. Ronneberger O. U-net: Convolutional networks for biomedical image
segmentation / O. Ronneberger, P. Fischer, T. Brox // Medical Image Computing and
Computer-Assisted Intervention. – 2015. – Vol. 9351. – P.234-241.
17. Bezmaternykh P.V. U-Net-bin: hacking the document image binarization
contest / P.V. Bezmaternykh, D.A. Ilin, D.P. Nikolaev // Computer Optics. – 2019. –
Vol. 43 №5. – P.825-832.
18. Краснящих А.В. Обработка оптических изображений. – СПб: НИУ
ИТМО, 2012. – 129 с.
19. Bai B. A Seed-Based Segmentation Method for Scene Text Extraction /
B. Bai, F. Yin and C. L. Liu // 2014 11th IAPR International Workshop on Document
Analysis Systems. – 2014. – P.262-266.
20. Agrawal A. Enhanced characterness for text detection in the wild /
A. Agrawal, P. Mukherjee, S. Srivastava, B. Lall // Proceedings of 2nd International
Conference on Computer Vision & Image Processing. – 2018. – P. 359-369.
21. Gomez L. A fast hierarchical method for multi-script and arbitrary
oriented scene text extraction / L. Gomez, D. Karatzas // International Journal on
Document Analysis and Recognition. – 2016. – Vol. 19, №4. – P.335-349.
22. Lee J. Page segmentation using a convolutional neural network with
trainable co–occurrence features. / J. Lee, H. Hayashi, W. Ohyama, S. Uchida // 2019
International Conference on Document Analysis and Recognition (ICDAR). – 2019. –
P.1023-1028.
23. Wick C. Fully convolutional neural networks for page segmentation of
historical document images / C. Wick, F. Puppe // 2018 13th IAPR International
Workshop on Document Analysis Systems (DAS). – 208. – P. 287-292.
24. Трудовой кодекс Российской Федерации от 30.12.2001 N 197-ФЗ
(ред. от 05.04.2021)
25. Федеральный закон от 28.12.2013 N 426-ФЗ (ред. от 30.12.2020)
О специальной оценке условий труда (с изменениями и дополнениями)
26. СП 2.4.3648-20 Санитарно-эпидемиологические требования к
организациям воспитания и обучения, отдыха и оздоровления детей и молодежи
27. ГОСТ 12.2.032-78 ССБТ. Рабочее место при выполнении работ сидя.
Общие эргономические требования.
28. ГОСТ 12.0.003-2015 ССБТ. Опасные и вредные производственные
факторы. Классификация.
29. СП 52.13330.2016 Естественное и искусственное освещение.
Актуализированная редакция СНиП 23-05-95*.
30. СанПиН 2.2.4.548-96. Гигиенические требования к микроклимату
производственных помещений.
31. ГОСТ 12.1.006-84 ССБТ. Электромагнитные поля радиочастот.
Общие требования безопасности.
32. ГОСТ 12.1.003-2014 ССБТ. Шум. Общие требования безопасности.
33. СН 2.2.4/2.1.8.562-96 Шум на рабочих местах, в помещениях жилых,
общественных зданий и на территории жилой застройки.
34. Р 2.2.2006-05 Гигиена труда. Руководство по гигиенической оценке
факторов рабочей среды и трудового процесса. Критерии и классификация
условий труда.
35. ГОСТР50948-2001Средстваотображенияинформации
индивидуального пользования. Общие эргономические требования и требования
безопасности.
36. ГОСТ 12.1.019-2017 ССБТ. Электробезопасность. Общие требования
и номенклатура видов защиты.
37. Правила устройства электроустановок (Седьмое издание).
38. Федеральной закон от 24.06.1998 N 89-ФЗ. Об отходах производства
и потребления (с изменениями и дополнениями).
39. ГОСТ Р53692-2009 Ресурсосбережение. Обращение с отходами.
Этапы технологического цикла отходов.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Читать «Разработка нейросетевого алгоритма распознавания надписей на изображениях реальных сцен»

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Татьяна П.
    4.2 (6 отзывов)
    Помогаю студентам с решением задач по ТОЭ и физике на протяжении 9 лет. Пишу диссертацию на соискание степени кандидата технических наук, имею опыт годовой стажировки ... Читать все
    Помогаю студентам с решением задач по ТОЭ и физике на протяжении 9 лет. Пишу диссертацию на соискание степени кандидата технических наук, имею опыт годовой стажировки в одном из крупнейших университетов Германии.
    #Кандидатские #Магистерские
    9 Выполненных работ
    Ольга Б. кандидат наук, доцент
    4.8 (373 отзыва)
    Работаю на сайте четвертый год. Действующий преподаватель вуза. Основные направления: микробиология, биология и медицина. Написано несколько кандидатских, магистерских... Читать все
    Работаю на сайте четвертый год. Действующий преподаватель вуза. Основные направления: микробиология, биология и медицина. Написано несколько кандидатских, магистерских диссертаций, дипломных и курсовых работ. Слежу за новинками в медицине.
    #Кандидатские #Магистерские
    566 Выполненных работ
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Родион М. БГУ, выпускник
    4.6 (71 отзыв)
    Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.
    Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.
    #Кандидатские #Магистерские
    108 Выполненных работ
    Екатерина Д.
    4.8 (37 отзывов)
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два об... Читать все
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два образования: экономист-менеджер и маркетолог. Буду рада помочь и Вам.
    #Кандидатские #Магистерские
    55 Выполненных работ
    Сергей Н.
    4.8 (40 отзывов)
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных с... Читать все
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных статей в области экономики.
    #Кандидатские #Магистерские
    56 Выполненных работ
    Мария М. УГНТУ 2017, ТФ, преподаватель
    5 (14 отзывов)
    Имею 3 высших образования в сфере Экологии и техносферной безопасности (бакалавриат, магистратура, аспирантура), работаю на кафедре экологии одного из опорных ВУЗов РФ... Читать все
    Имею 3 высших образования в сфере Экологии и техносферной безопасности (бакалавриат, магистратура, аспирантура), работаю на кафедре экологии одного из опорных ВУЗов РФ. Большой опыт в написании курсовых, дипломов, диссертаций.
    #Кандидатские #Магистерские
    27 Выполненных работ
    Екатерина Б. кандидат наук, доцент
    5 (174 отзыва)
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподав... Читать все
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподавала учебные дисциплины: Бюджетная система Украины, Статистика.
    #Кандидатские #Магистерские
    300 Выполненных работ
    Елена С. Таганрогский институт управления и экономики Таганрогский...
    4.4 (93 отзыва)
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на напис... Читать все
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на написании курсовых и дипломных работ, а также диссертационных исследований.
    #Кандидатские #Магистерские
    158 Выполненных работ

    Другие учебные работы по предмету