Индийское распознавание текста
Эта статья нуждается в дополнительных цитатах для проверки . ( февраль 2022 г. ) |
Индийское распознавание текста — это процесс преобразования текстовых изображений, написанных индийскими алфавитами , в электронный текст с использованием методов оптического распознавания символов (OCR). В широком смысле это может также относиться к системам OCR брахмических сценариев для языков Южной Азии и Юго-Восточной Азии , а не только к сценариям Индийского субконтинента , которые все написаны в системе письма, основанной на абугиде .
Оптическое распознавание символов латинского алфавита по-прежнему не дает 100% точности, но удалось достичь относительно высокой степени точности преобразования. Такой точности пока не удалось достичь для индийских шрифтов с использованием OCR. Частично это связано с системами письма индийских языков , а также с отсутствием стандартного представления, кодирования и поддержки среди операционных систем и клавиатур.
Центр развития передовых вычислений (C-DAC) и развития технологий для индийских языков , ведущая научно-исследовательская организация Министерства электроники и информационных технологий (также известного как MeitY) Индии, реализовал множество проектов, связанных с оптическим распознаванием символов. Их проекты включают в себя распознавание текста для малаялам , одиа , пенджаби , телугу и деванагари языков .
Свойства индийских систем письма
[ редактировать ]В Индии 22 официально признанных языка . Из них хинди , бенгали и пенджаби являются наиболее распространенными индоарийскими языками, а также четвертым, седьмым и десятым по распространенности языками в мире соответственно. [1] Два или более языков могут быть написаны одним и тем же шрифтом. Например, деванагари используется для написания хинди , маратхи , раджастхани , санскрита , бходжпури и других, тогда как восточный нагари используется для написания бенгали , ассамского , манипури и других.
Помимо основных символов, таких как согласные и гласные , большинство индийских языков объединяют два или более основных символа, образуя составные символы. Форма составного иероглифа сложнее, чем у составляющих его основных иероглифов. В некоторых индоарийских языках (включая хинди и пенджаби) над буквами есть горизонтальная линия, тогда как в других языках (включая гуджарати ) и дравидийских языках ( малаялам , каннада , тамильский и телугу ) ее нет. Это некоторые из основных проблем при создании единого OCR для всех индийских языков. [2]
Индийское OCR также обычно включает поддержку недавно изобретенных в Индии алфавитов, таких как Ol Chiki , Warang Citi , Mundari Bani и т. д., которые в основном созданы для написания языков мунда австроазиатской семьи .
Понятие верхнего/нижнего регистра отсутствует в индийских сценариях. За исключением урду , синдхи , кашмири и тааны , все остальные индийские языки пишутся слева направо.
Примеры
[ редактировать ]- SanskritOCR — программа оптического распознавания символов для санскрита, хинди и других индоарийских языков, основанная на сценарии деванагари. Санскрит OCR разработан ученым-санскритологом из Германии — доктором Оливером Хельвигом из Департамента языков и культур Южной Азии Свободного университета Берлина . Официальный сайт на немецком языке. Интерфейс более ранних версий программного обеспечения также был на немецком языке, но в более поздних версиях есть и английский интерфейс. [3] [4] [5]
- E-aksharayan — система оптического распознавания символов для индийских языков.
- Читранкан — эта технология была разработана компанией ISI , Калькутта, и передана в C-DAC . Он обрабатывает напечатанный на хинди текст со сканера или с изображения .
- Индийские модели OCR для Tesseract (программное обеспечение)
OCR используется
[ редактировать ]OCR использовалось для Wikisource и других проектов. [6] [7] [8]
Ссылки
[ редактировать ]- ^ GmbH, Урок девятый. «10 самых распространенных языков в мире» . Журнал Баббель . Проверено 20 марта 2018 г.
- ^ Пал, У.; Чаудхури, BB (1 сентября 2004 г.). «Распознавание символов индийского письма: опрос». Распознавание образов . 37 (9): 1887–1899. дои : 10.1016/j.patcog.2004.02.003 . ISSN 0031-3203 .
- ^ Прабху, С. (04.06.2020). «Пажур Патасала — история возрождения» . Индус . ISSN 0971-751X . Проверено 1 сентября 2021 г.
Благодаря OCR (оптическому распознаванию символов) для санскрита был создан автономный корпус, включающий более 3000 книг.
- ^ «Цифровизация идет быстрыми темпами: вице-канцлер профессор В. Муралидхара Шарма» . www.thehansindia.com . Служба новостей Ганса. 20 марта 2019 г. Проверено 1 сентября 2021 г.
- ^ Дикшит, Ашиш (27 октября 2016 г.). «Кто сказал, что санскрит мертв? Он потрясает мир Wiki» . Квинт . Проверено 1 сентября 2021 г.
- ^ Прабху, С. (04.06.2020). «Пажур Патасала — история возрождения» . Индус . ISSN 0971-751X . Проверено 1 сентября 2021 г.
Благодаря OCR (оптическому распознаванию символов) для санскрита был создан автономный корпус, включающий более 3000 книг.
- ^ «Цифровизация идет быстрыми темпами: вице-канцлер профессор В. Муралидхара Шарма» . www.thehansindia.com . Служба новостей Ганса. 20 марта 2019 г. Проверено 1 сентября 2021 г.
- ^ Дикшит, Ашиш (27 октября 2016 г.). «Кто сказал, что санскрит мертв? Он потрясает мир Wiki» . Квинт . Проверено 1 сентября 2021 г.
- «Многоязычные вычисления и традиционные вычисления» . www.cdac.in. Проверено 12 февраля 2017 г.
- Сингх, Рустам (16 апреля 2016 г.). «Магия оптического распознавания символов и дополненной реальности переводит текст на индийские языки в реальном времени - без Интернета» . Предприниматель . Проверено 12 февраля 2017 г.
- «Центр распространения и внедрения индийских языковых технологий - Главная» . www.tdil-dc.in . Проверено 12 февраля 2017 г.
- Пал, У.; Чаудхури, BB (1 сентября 2004 г.). «Распознавание символов индийского письма: опрос». Распознавание образов . 37 (9): 1887–1899. дои : 10.1016/j.patcog.2004.02.003 . ISSN 0031-3203 .
Внешние ссылки
[ редактировать ]- «SanskritOCR — оптическое распознавание текста для санскритских документов» .
- «C-DAC: GIST — Продукты — Читранкан» . cdac.in. Проверено 12 февраля 2017 г.