Текст сцены

Текст сцены — это текст, который появляется на изображении, снятом камерой на открытом воздухе.

Обнаружение и распознавание текста сцены на изображениях, снятых камерой, — это задачи компьютерного зрения , которые стали важными после того, как смартфоны с хорошими камерами стали повсеместными. Текст в изображениях сцены различается по форме, шрифту, цвету и положению. Распознавание текста сцены иногда осложняется неравномерным освещением и фокусом.

Чтобы улучшить распознавание текста сцены, Международная конференция по анализу и распознаванию документов (ICDAR) раз в два года проводит масштабный конкурс по чтению. Конкурс проводился в 2003, 2005 гг. ^[1]^[2]^[3] и во время каждой конференции ICDAR. ^[4]^[5]^[6] Международная ассоциация по распознаванию образов (IAPR) создала список наборов данных как систем чтения. ^[7]

Обнаружение текста

Обнаружение текста — это процесс обнаружения текста, присутствующего на изображении, с последующим окружением его прямоугольной ограничивающей рамкой. Обнаружение текста может осуществляться с использованием методов на основе изображений или методов на основе частоты.

В методах, основанных на изображениях, изображение сегментируется на несколько сегментов. Каждый сегмент представляет собой связный компонент пикселей со схожими характеристиками. Статистические характеристики связных компонентов используются для их группировки и формирования текста. Подходы машинного обучения , такие как машина опорных векторов и сверточные нейронные сети, используются для классификации компонентов на текстовые и нетекстовые.

В частотных методах дискретное преобразование Фурье (DFT) или дискретное вейвлет-преобразование для извлечения высокочастотных коэффициентов используются (DWT). Предполагается, что текст, присутствующий на изображении, имеет высокочастотные компоненты, и выбор только высокочастотных коэффициентов фильтрует текст из нетекстовых областей изображения.

Распознавание слов

При распознавании слов предполагается, что текст уже обнаружен и расположен, и имеется прямоугольная ограничивающая рамка, содержащая текст. Необходимо распознать слово, присутствующее в ограничивающей рамке. Доступные методы распознавания слов можно разделить на нисходящие и восходящие.

В нисходящем подходе для определения того, какое слово соответствует данному изображению, используется набор слов из словаря. ^[8]^[9]^[10] В большинстве этих методов изображения не сегментируются. Следовательно, нисходящий подход иногда называют распознаванием без сегментации.

При восходящем подходе изображение сегментируется на несколько компонентов и сегментированное изображение передается через механизм распознавания. ^[11]^[12]^[13] Либо готовый механизм оптического распознавания символов (OCR). ^[14]^[15]^[16] или для распознавания текста используется специально обученный.

Ссылки

^ Лукас, С.М. (2005). «Результаты конкурса текстового поиска ICDAR 2005» . СМ Лукас. Текстовые результаты конкурса. В Proc. 8-й ИКДАР, страницы 80–85, 2005 г. С. 80–84 Том. 1. дои : 10.1109/ICDAR.2005.231 . ISBN 978-0-7695-2420-7 . S2CID 1842569 .
^ Соревнования ICDAR 2005. http://www.iapr-tc11.org/mediawiki/index.php/ICDAR_2005_Robust_Reading_Competitions .
^ Лукас, Саймон М.; Панаретос, Алекс; Соса, Луис; Тан, Энтони; Вонг, Ширли; Янг, Роберт; Асида, Кадзуки; Нагаи, Хироки; Окамото, Масаюки; Ямамото, Хироаки; Мияо, Хидетоши; Чжу, Цзюньмин; Оу, Вувен; Вольф, Кристиан; Жолион, Жан-Мишель; Тодоран, Леон; Тревожно, Марсель; Линь, Сяофань (2005). «СМ Лукас. Надежные соревнования по чтению ICDAR 2003: заявки, результаты и будущие направления. IJDAR, 7 (2): 105–122, июнь 2005 г.». Международный журнал анализа и распознавания документов . 7 (2–3): 105–122. CiteSeerX 10.1.1.104.1667 . дои : 10.1007/s10032-004-0134-3 . S2CID 2250003 .
^ ИКДАР 2013. http://www.icdar2013.org .
^ ИКДАР 2017. http://u-pat.org/ICDAR2017/
^ ICDAR 2011 Конкурс надежного чтения. http://www.cvc.uab.es/icdar2011competition/ .
^ IAPR TC11 Чтение списка систем-наборов данных. http://www.iapr-tc11.org/mediawiki/index.php?title=Наборы данных .
^ Вайнман, Джей Джей; Лирден-Миллер, Э.; Хэнсон, Арканзас (2009). «Дж. Дж. Вайнманн, Э. Лернед-Миллер и А. Р. Хэнсон. Распознавание текста сцены с использованием сходства и лексики с разреженным распространением убеждений. IEEE Trans. PAMI, 31 (10): 1733–1746, 2009» . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 31 (10): 1733–1746. дои : 10.1109/TPAMI.2009.38 . ПМК 3021989 . ПМИД 19696446 .
^ «А. Мишра, К. Алахари и К. В. Джавахар. Распознавание текста сцены с использованием априорных значений языка высшего порядка. В Proc. BMVC, 2012» (PDF) .
^ Новикова, Татьяна; Баринова Ольга; Кохли, Пушмит; Лемпицкий, Виктор (2012). «Распознавание текста с большим словарным запасом и атрибутами в естественных изображениях». Компьютерное зрение – ECCV 2012 . Конспекты лекций по информатике. Том. 7577. стр. 752–765. CiteSeerX 10.1.1.296.4807 . дои : 10.1007/978-3-642-33783-3_54 . ISBN 978-3-642-33782-6 .
^ Кумар, Дипак; Рамакришнан, АГ (2012). «Степенное преобразование для улучшенного распознавания цифровых словесных изображений». Д. Кумар и А. Г. Рамакришнан. Степенное преобразование для улучшенного распознавания цифровых изображений слов. В Proc. 9-я СПКОМ, 2012 г. стр. 1–5. дои : 10.1109/SPCOM.2012.6290009 . ISBN 978-1-4673-2014-6 . S2CID 13876092 .
^ Д. Кумар; М.Н. Анил Прасад; А.Г. Рамакришнан. «MAPS: анализ средней линии и распространение сегментации». Учеб. 8-й ICVGIP, 2012 г. дои : 10.1145/2425333.2425348 . S2CID 13303734 .
^ Кумар, Дипак; Анил Прасад, Миннесота; Рамакришнан, АГ (2013). «NESP: Нелинейное улучшение и выбор плоскости для оптимальной сегментации и распознавания изображений слов сцены». В Занибби, Ричард; Куаснон, Бертран (ред.). Распознавание и поиск документов XX . Том. 8658. с. 865806. дои : 10.1117/12.2008519 . S2CID 13848101 .
^ Эбби Файн Ридер. http://www.abbyy.com/
^ Nuance Omnipage Reader. http://www.nuance.com/
^ Механизм OCR Tesseract. http://code.google.com/p/tesseract-ocr/

[1] Лукас, С.М. (2005). «Результаты конкурса текстового поиска ICDAR 2005» . СМ Лукас. Текстовые результаты конкурса. В Proc. 8-й ИКДАР, страницы 80–85, 2005 г. С. 80–84 Том. 1. дои : 10.1109/ICDAR.2005.231 . ISBN 978-0-7695-2420-7 . S2CID 1842569 .

[2] Соревнования ICDAR 2005. http://www.iapr-tc11.org/mediawiki/index.php/ICDAR_2005_Robust_Reading_Competitions .

[3] Лукас, Саймон М.; Панаретос, Алекс; Соса, Луис; Тан, Энтони; Вонг, Ширли; Янг, Роберт; Асида, Кадзуки; Нагаи, Хироки; Окамото, Масаюки; Ямамото, Хироаки; Мияо, Хидетоши; Чжу, Цзюньмин; Оу, Вувен; Вольф, Кристиан; Жолион, Жан-Мишель; Тодоран, Леон; Тревожно, Марсель; Линь, Сяофань (2005). «СМ Лукас. Надежные соревнования по чтению ICDAR 2003: заявки, результаты и будущие направления. IJDAR, 7 (2): 105–122, июнь 2005 г.». Международный журнал анализа и распознавания документов . 7 (2–3): 105–122. CiteSeerX 10.1.1.104.1667 . дои : 10.1007/s10032-004-0134-3 . S2CID 2250003 .

[4] ИКДАР 2013. http://www.icdar2013.org .

[5] ИКДАР 2017. http://u-pat.org/ICDAR2017/

[6] ICDAR 2011 Конкурс надежного чтения. http://www.cvc.uab.es/icdar2011competition/ .

[7] IAPR TC11 Чтение списка систем-наборов данных. http://www.iapr-tc11.org/mediawiki/index.php?title=Наборы данных .

[8] Вайнман, Джей Джей; Лирден-Миллер, Э.; Хэнсон, Арканзас (2009). «Дж. Дж. Вайнманн, Э. Лернед-Миллер и А. Р. Хэнсон. Распознавание текста сцены с использованием сходства и лексики с разреженным распространением убеждений. IEEE Trans. PAMI, 31 (10): 1733–1746, 2009» . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 31 (10): 1733–1746. дои : 10.1109/TPAMI.2009.38 . ПМК 3021989 . ПМИД 19696446 .

[9] «А. Мишра, К. Алахари и К. В. Джавахар. Распознавание текста сцены с использованием априорных значений языка высшего порядка. В Proc. BMVC, 2012» (PDF) .

[10] Новикова, Татьяна; Баринова Ольга; Кохли, Пушмит; Лемпицкий, Виктор (2012). «Распознавание текста с большим словарным запасом и атрибутами в естественных изображениях». Компьютерное зрение – ECCV 2012 . Конспекты лекций по информатике. Том. 7577. стр. 752–765. CiteSeerX 10.1.1.296.4807 . дои : 10.1007/978-3-642-33783-3_54 . ISBN 978-3-642-33782-6 .

[11] Кумар, Дипак; Рамакришнан, АГ (2012). «Степенное преобразование для улучшенного распознавания цифровых словесных изображений». Д. Кумар и А. Г. Рамакришнан. Степенное преобразование для улучшенного распознавания цифровых изображений слов. В Proc. 9-я СПКОМ, 2012 г. стр. 1–5. дои : 10.1109/SPCOM.2012.6290009 . ISBN 978-1-4673-2014-6 . S2CID 13876092 .

[12] Д. Кумар; М.Н. Анил Прасад; А.Г. Рамакришнан. «MAPS: анализ средней линии и распространение сегментации». Учеб. 8-й ICVGIP, 2012 г. дои : 10.1145/2425333.2425348 . S2CID 13303734 .

[13] Кумар, Дипак; Анил Прасад, Миннесота; Рамакришнан, АГ (2013). «NESP: Нелинейное улучшение и выбор плоскости для оптимальной сегментации и распознавания изображений слов сцены». В Занибби, Ричард; Куаснон, Бертран (ред.). Распознавание и поиск документов XX . Том. 8658. с. 865806. дои : 10.1117/12.2008519 . S2CID 13848101 .

[14] Эбби Файн Ридер. http://www.abbyy.com/

[15] Nuance Omnipage Reader. http://www.nuance.com/

[16] Механизм OCR Tesseract. http://code.google.com/p/tesseract-ocr/

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]