Jump to content

Индийское распознавание текста

(Перенаправлено из OCR на индийских языках )

Индийское распознавание текста — это процесс преобразования текстовых изображений, написанных индийскими алфавитами , в электронный текст с использованием методов оптического распознавания символов (OCR). В широком смысле это может также относиться к системам OCR брахмических сценариев для языков Южной Азии и Юго-Восточной Азии , а не только к сценариям Индийского субконтинента , которые все написаны в системе письма, основанной на абугиде .

Оптическое распознавание символов латинского алфавита по-прежнему не дает 100% точности, но удалось достичь относительно высокой степени точности преобразования. Такой точности пока не удалось достичь для индийских шрифтов с использованием OCR. Частично это связано с системами письма индийских языков , а также с отсутствием стандартного представления, кодирования и поддержки среди операционных систем и клавиатур.

Центр развития передовых вычислений (C-DAC) и развития технологий для индийских языков , ведущая научно-исследовательская организация Министерства электроники и информационных технологий (также известного как MeitY) Индии, реализовал множество проектов, связанных с оптическим распознаванием символов. Их проекты включают в себя распознавание текста для малаялам , одиа , пенджаби , телугу и деванагари языков .

Свойства индийских систем письма

[ редактировать ]

В Индии 22 официально признанных языка . Из них хинди , бенгали и пенджаби являются наиболее распространенными индоарийскими языками, а также четвертым, седьмым и десятым по распространенности языками в мире соответственно. [1] Два или более языков могут быть написаны одним и тем же шрифтом. Например, деванагари используется для написания хинди , маратхи , раджастхани , санскрита , бходжпури и других, тогда как восточный нагари используется для написания бенгали , ассамского , манипури и других.

Помимо основных символов, таких как согласные и гласные , большинство индийских языков объединяют два или более основных символа, образуя составные символы. Форма составного иероглифа сложнее, чем у составляющих его основных иероглифов. В некоторых индоарийских языках (включая хинди и пенджаби) над буквами есть горизонтальная линия, тогда как в других языках (включая гуджарати ) и дравидийских языках ( малаялам , каннада , тамильский и телугу ) ее нет. Это некоторые из основных проблем при создании единого OCR для всех индийских языков. [2]

Индийское OCR также обычно включает поддержку недавно изобретенных в Индии алфавитов, таких как Ol Chiki , Warang Citi , Mundari Bani и т. д., которые в основном созданы для написания языков мунда австроазиатской семьи .

Понятие верхнего/нижнего регистра отсутствует в индийских сценариях. За исключением урду , синдхи , кашмири и тааны , все остальные индийские языки пишутся слева направо.

  1. SanskritOCR — программа оптического распознавания символов для санскрита, хинди и других индоарийских языков, основанная на сценарии деванагари. Санскрит OCR разработан ученым-санскритологом из Германии доктором Оливером Хельвигом из Департамента языков и культур Южной Азии Свободного университета Берлина . Официальный сайт на немецком языке. Интерфейс более ранних версий программного обеспечения также был на немецком языке, но в более поздних версиях есть и английский интерфейс. [3] [4] [5]
  2. E-aksharayan — система оптического распознавания символов для индийских языков.
  3. Читранкан — эта технология была разработана компанией ISI , Калькутта, и передана в C-DAC . Он обрабатывает напечатанный на хинди текст со сканера или с изображения .
  4. Индийские модели OCR для Tesseract (программное обеспечение)

OCR используется

[ редактировать ]

OCR использовалось для Wikisource и других проектов. [6] [7] [8]

  1. ^ GmbH, Урок девятый. «10 самых распространенных языков в мире» . Журнал Баббель . Проверено 20 марта 2018 г.
  2. ^ Пал, У.; Чаудхури, BB (1 сентября 2004 г.). «Распознавание символов индийского письма: опрос». Распознавание образов . 37 (9): 1887–1899. дои : 10.1016/j.patcog.2004.02.003 . ISSN   0031-3203 .
  3. ^ Прабху, С. (04.06.2020). «Пажур Патасала — история возрождения» . Индус . ISSN   0971-751X . Проверено 1 сентября 2021 г. Благодаря OCR (оптическому распознаванию символов) для санскрита был создан автономный корпус, включающий более 3000 книг.
  4. ^ «Цифровизация идет быстрыми темпами: вице-канцлер профессор В. Муралидхара Шарма» . www.thehansindia.com . Служба новостей Ганса. 20 марта 2019 г. Проверено 1 сентября 2021 г.
  5. ^ Дикшит, Ашиш (27 октября 2016 г.). «Кто сказал, что санскрит мертв? Он потрясает мир Wiki» . Квинт . Проверено 1 сентября 2021 г.
  6. ^ Прабху, С. (04.06.2020). «Пажур Патасала — история возрождения» . Индус . ISSN   0971-751X . Проверено 1 сентября 2021 г. Благодаря OCR (оптическому распознаванию символов) для санскрита был создан автономный корпус, включающий более 3000 книг.
  7. ^ «Цифровизация идет быстрыми темпами: вице-канцлер профессор В. Муралидхара Шарма» . www.thehansindia.com . Служба новостей Ганса. 20 марта 2019 г. Проверено 1 сентября 2021 г.
  8. ^ Дикшит, Ашиш (27 октября 2016 г.). «Кто сказал, что санскрит мертв? Он потрясает мир Wiki» . Квинт . Проверено 1 сентября 2021 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 308b0886772c5bd514aa83ae2f4cd4b3__1704111960
URL1:https://arc.ask3.ru/arc/aa/30/b3/308b0886772c5bd514aa83ae2f4cd4b3.html
Заголовок, (Title) документа по адресу, URL1:
Indic OCR - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)