Текст сцены
Текст сцены — это текст, который появляется на изображении, снятом камерой на открытом воздухе.

Обнаружение и распознавание текста сцены на изображениях, снятых камерой, — это задачи компьютерного зрения , которые стали важными после того, как смартфоны с хорошими камерами стали повсеместными. Текст в изображениях сцены различается по форме, шрифту, цвету и положению. Распознавание текста сцены иногда осложняется неравномерным освещением и фокусом.
Чтобы улучшить распознавание текста сцены, Международная конференция по анализу и распознаванию документов (ICDAR) раз в два года проводит масштабный конкурс по чтению. Конкурс проводился в 2003, 2005 гг. [1] [2] [3] и во время каждой конференции ICDAR. [4] [5] [6] Международная ассоциация по распознаванию образов (IAPR) создала список наборов данных как систем чтения. [7]
Обнаружение текста
[ редактировать ]Обнаружение текста — это процесс обнаружения текста, присутствующего на изображении, с последующим окружением его прямоугольной ограничивающей рамкой. Обнаружение текста может осуществляться с использованием методов на основе изображений или методов на основе частоты.
В методах, основанных на изображениях, изображение сегментируется на несколько сегментов. Каждый сегмент представляет собой связный компонент пикселей со схожими характеристиками. Статистические характеристики связных компонентов используются для их группировки и формирования текста. Подходы машинного обучения , такие как машина опорных векторов и сверточные нейронные сети, используются для классификации компонентов на текстовые и нетекстовые.
В частотных методах дискретное преобразование Фурье (DFT) или дискретное вейвлет-преобразование для извлечения высокочастотных коэффициентов используются (DWT). Предполагается, что текст, присутствующий на изображении, имеет высокочастотные компоненты, и выбор только высокочастотных коэффициентов фильтрует текст из нетекстовых областей изображения.
Распознавание слов
[ редактировать ]При распознавании слов предполагается, что текст уже обнаружен и расположен, и имеется прямоугольная ограничивающая рамка, содержащая текст. Необходимо распознать слово, присутствующее в ограничивающей рамке. Доступные методы распознавания слов можно разделить на нисходящие и восходящие.
В нисходящем подходе для определения того, какое слово соответствует данному изображению, используется набор слов из словаря. [8] [9] [10] В большинстве этих методов изображения не сегментируются. Следовательно, нисходящий подход иногда называют распознаванием без сегментации.
При восходящем подходе изображение сегментируется на несколько компонентов и сегментированное изображение передается через механизм распознавания. [11] [12] [13] Либо готовый механизм оптического распознавания символов (OCR). [14] [15] [16] или для распознавания текста используется специально обученный.
Ссылки
[ редактировать ]- ^ Лукас, С.М. (2005). «Результаты конкурса текстового поиска ICDAR 2005» . СМ Лукас. Текстовые результаты конкурса. В Proc. 8-й ИКДАР, страницы 80–85, 2005 г. С. 80–84 Том. 1. дои : 10.1109/ICDAR.2005.231 . ISBN 978-0-7695-2420-7 . S2CID 1842569 .
- ^ Соревнования ICDAR 2005. http://www.iapr-tc11.org/mediawiki/index.php/ICDAR_2005_Robust_Reading_Competitions .
- ^ Лукас, Саймон М.; Панаретос, Алекс; Соса, Луис; Тан, Энтони; Вонг, Ширли; Янг, Роберт; Асида, Кадзуки; Нагаи, Хироки; Окамото, Масаюки; Ямамото, Хироаки; Мияо, Хидетоши; Чжу, Цзюньмин; Оу, Вувен; Вольф, Кристиан; Жолион, Жан-Мишель; Тодоран, Леон; Тревожно, Марсель; Линь, Сяофань (2005). «СМ Лукас. Надежные соревнования по чтению ICDAR 2003: заявки, результаты и будущие направления. IJDAR, 7 (2): 105–122, июнь 2005 г.». Международный журнал анализа и распознавания документов . 7 (2–3): 105–122. CiteSeerX 10.1.1.104.1667 . дои : 10.1007/s10032-004-0134-3 . S2CID 2250003 .
- ^ ИКДАР 2013. http://www.icdar2013.org .
- ^ ИКДАР 2017. http://u-pat.org/ICDAR2017/
- ^ ICDAR 2011 Конкурс надежного чтения. http://www.cvc.uab.es/icdar2011competition/ .
- ^ IAPR TC11 Чтение списка систем-наборов данных. http://www.iapr-tc11.org/mediawiki/index.php?title=Наборы данных .
- ^ Вайнман, Джей Джей; Лирден-Миллер, Э.; Хэнсон, Арканзас (2009). «Дж. Дж. Вайнманн, Э. Лернед-Миллер и А. Р. Хэнсон. Распознавание текста сцены с использованием сходства и лексики с разреженным распространением убеждений. IEEE Trans. PAMI, 31 (10): 1733–1746, 2009» . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 31 (10): 1733–1746. дои : 10.1109/TPAMI.2009.38 . ПМК 3021989 . ПМИД 19696446 .
- ^ «А. Мишра, К. Алахари и К. В. Джавахар. Распознавание текста сцены с использованием априорных значений языка высшего порядка. В Proc. BMVC, 2012» (PDF) .
- ^ Новикова, Татьяна; Баринова Ольга; Кохли, Пушмит; Лемпицкий, Виктор (2012). «Распознавание текста с большим словарным запасом и атрибутами в естественных изображениях». Компьютерное зрение – ECCV 2012 . Конспекты лекций по информатике. Том. 7577. стр. 752–765. CiteSeerX 10.1.1.296.4807 . дои : 10.1007/978-3-642-33783-3_54 . ISBN 978-3-642-33782-6 .
- ^ Кумар, Дипак; Рамакришнан, АГ (2012). «Степенное преобразование для улучшенного распознавания цифровых словесных изображений». Д. Кумар и А. Г. Рамакришнан. Степенное преобразование для улучшенного распознавания цифровых изображений слов. В Proc. 9-я СПКОМ, 2012 г. стр. 1–5. дои : 10.1109/SPCOM.2012.6290009 . ISBN 978-1-4673-2014-6 . S2CID 13876092 .
- ^ Д. Кумар; М.Н. Анил Прасад; А.Г. Рамакришнан. «MAPS: анализ средней линии и распространение сегментации». Учеб. 8-й ICVGIP, 2012 г. дои : 10.1145/2425333.2425348 . S2CID 13303734 .
- ^ Кумар, Дипак; Анил Прасад, Миннесота; Рамакришнан, АГ (2013). «NESP: Нелинейное улучшение и выбор плоскости для оптимальной сегментации и распознавания изображений слов сцены». В Занибби, Ричард; Куаснон, Бертран (ред.). Распознавание и поиск документов XX . Том. 8658. с. 865806. дои : 10.1117/12.2008519 . S2CID 13848101 .
- ^ Эбби Файн Ридер. http://www.abbyy.com/
- ^ Nuance Omnipage Reader. http://www.nuance.com/
- ^ Механизм OCR Tesseract. http://code.google.com/p/tesseract-ocr/