Jump to content

Текст сцены

Текст сцены — это текст, который появляется на изображении, снятом камерой на открытом воздухе.

На изображении отображается категория тренера в текстовом формате. Мы видим, что тренер относится к категории Sleeper .

Обнаружение и распознавание текста сцены на изображениях, снятых камерой, — это задачи компьютерного зрения , которые стали важными после того, как смартфоны с хорошими камерами стали повсеместными. Текст в изображениях сцены различается по форме, шрифту, цвету и положению. Распознавание текста сцены иногда осложняется неравномерным освещением и фокусом.

Чтобы улучшить распознавание текста сцены, Международная конференция по анализу и распознаванию документов (ICDAR) раз в два года проводит масштабный конкурс по чтению. Конкурс проводился в 2003, 2005 гг. [1] [2] [3] и во время каждой конференции ICDAR. [4] [5] [6] Международная ассоциация по распознаванию образов (IAPR) создала список наборов данных как систем чтения. [7]

Обнаружение текста

[ редактировать ]

Обнаружение текста — это процесс обнаружения текста, присутствующего на изображении, с последующим окружением его прямоугольной ограничивающей рамкой. Обнаружение текста может осуществляться с использованием методов на основе изображений или методов на основе частоты.

В методах, основанных на изображениях, изображение сегментируется на несколько сегментов. Каждый сегмент представляет собой связный компонент пикселей со схожими характеристиками. Статистические характеристики связных компонентов используются для их группировки и формирования текста. Подходы машинного обучения , такие как машина опорных векторов и сверточные нейронные сети, используются для классификации компонентов на текстовые и нетекстовые.

В частотных методах дискретное преобразование Фурье (DFT) или дискретное вейвлет-преобразование для извлечения высокочастотных коэффициентов используются (DWT). Предполагается, что текст, присутствующий на изображении, имеет высокочастотные компоненты, и выбор только высокочастотных коэффициентов фильтрует текст из нетекстовых областей изображения.

Распознавание слов

[ редактировать ]

При распознавании слов предполагается, что текст уже обнаружен и расположен, и имеется прямоугольная ограничивающая рамка, содержащая текст. Необходимо распознать слово, присутствующее в ограничивающей рамке. Доступные методы распознавания слов можно разделить на нисходящие и восходящие.

В нисходящем подходе для определения того, какое слово соответствует данному изображению, используется набор слов из словаря. [8] [9] [10] В большинстве этих методов изображения не сегментируются. Следовательно, нисходящий подход иногда называют распознаванием без сегментации.

При восходящем подходе изображение сегментируется на несколько компонентов и сегментированное изображение передается через механизм распознавания. [11] [12] [13] Либо готовый механизм оптического распознавания символов (OCR). [14] [15] [16] или для распознавания текста используется специально обученный.

  1. ^ Лукас, С.М. (2005). «Результаты конкурса текстового поиска ICDAR 2005» . СМ Лукас. Текстовые результаты конкурса. В Proc. 8-й ИКДАР, страницы 80–85, 2005 г. С. 80–84 Том. 1. дои : 10.1109/ICDAR.2005.231 . ISBN  978-0-7695-2420-7 . S2CID   1842569 .
  2. ^ Соревнования ICDAR 2005. http://www.iapr-tc11.org/mediawiki/index.php/ICDAR_2005_Robust_Reading_Competitions .
  3. ^ Лукас, Саймон М.; Панаретос, Алекс; Соса, Луис; Тан, Энтони; Вонг, Ширли; Янг, Роберт; Асида, Кадзуки; Нагаи, Хироки; Окамото, Масаюки; Ямамото, Хироаки; Мияо, Хидетоши; Чжу, Цзюньмин; Оу, Вувен; Вольф, Кристиан; Жолион, Жан-Мишель; Тодоран, Леон; Тревожно, Марсель; Линь, Сяофань (2005). «СМ Лукас. Надежные соревнования по чтению ICDAR 2003: заявки, результаты и будущие направления. IJDAR, 7 (2): 105–122, июнь 2005 г.». Международный журнал анализа и распознавания документов . 7 (2–3): 105–122. CiteSeerX   10.1.1.104.1667 . дои : 10.1007/s10032-004-0134-3 . S2CID   2250003 .
  4. ^ ИКДАР 2013. http://www.icdar2013.org .
  5. ^ ИКДАР 2017. http://u-pat.org/ICDAR2017/
  6. ^ ICDAR 2011 Конкурс надежного чтения. http://www.cvc.uab.es/icdar2011competition/ .
  7. ^ IAPR TC11 Чтение списка систем-наборов данных. http://www.iapr-tc11.org/mediawiki/index.php?title=Наборы данных .
  8. ^ Вайнман, Джей Джей; Лирден-Миллер, Э.; Хэнсон, Арканзас (2009). «Дж. Дж. Вайнманн, Э. Лернед-Миллер и А. Р. Хэнсон. Распознавание текста сцены с использованием сходства и лексики с разреженным распространением убеждений. IEEE Trans. PAMI, 31 (10): 1733–1746, 2009» . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 31 (10): 1733–1746. дои : 10.1109/TPAMI.2009.38 . ПМК   3021989 . ПМИД   19696446 .
  9. ^ «А. Мишра, К. Алахари и К. В. Джавахар. Распознавание текста сцены с использованием априорных значений языка высшего порядка. В Proc. BMVC, 2012» (PDF) .
  10. ^ Новикова, Татьяна; Баринова Ольга; Кохли, Пушмит; Лемпицкий, Виктор (2012). «Распознавание текста с большим словарным запасом и атрибутами в естественных изображениях». Компьютерное зрение – ECCV 2012 . Конспекты лекций по информатике. Том. 7577. стр. 752–765. CiteSeerX   10.1.1.296.4807 . дои : 10.1007/978-3-642-33783-3_54 . ISBN  978-3-642-33782-6 .
  11. ^ Кумар, Дипак; Рамакришнан, АГ (2012). «Степенное преобразование для улучшенного распознавания цифровых словесных изображений». Д. Кумар и А. Г. Рамакришнан. Степенное преобразование для улучшенного распознавания цифровых изображений слов. В Proc. 9-я СПКОМ, 2012 г. стр. 1–5. дои : 10.1109/SPCOM.2012.6290009 . ISBN  978-1-4673-2014-6 . S2CID   13876092 .
  12. ^ Д. Кумар; М.Н. Анил Прасад; А.Г. Рамакришнан. «MAPS: анализ средней линии и распространение сегментации». Учеб. 8-й ICVGIP, 2012 г. дои : 10.1145/2425333.2425348 . S2CID   13303734 .
  13. ^ Кумар, Дипак; Анил Прасад, Миннесота; Рамакришнан, АГ (2013). «NESP: Нелинейное улучшение и выбор плоскости для оптимальной сегментации и распознавания изображений слов сцены». В Занибби, Ричард; Куаснон, Бертран (ред.). Распознавание и поиск документов XX . Том. 8658. с. 865806. дои : 10.1117/12.2008519 . S2CID   13848101 .
  14. ^ Эбби Файн Ридер. http://www.abbyy.com/
  15. ^ Nuance Omnipage Reader. http://www.nuance.com/
  16. ^ Механизм OCR Tesseract. http://code.google.com/p/tesseract-ocr/
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f785bbd8d1911234f4915be0e7574994__1715160540
URL1:https://arc.ask3.ru/arc/aa/f7/94/f785bbd8d1911234f4915be0e7574994.html
Заголовок, (Title) документа по адресу, URL1:
Scene text - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)