Jump to content

Интеллектуальное распознавание символов

Интеллектуальное распознавание символов ( ICR ) используется для извлечения рукописного текста из изображений. Это более сложный тип технологии оптического распознавания символов, который распознает различные стили рукописного ввода и шрифты для интеллектуальной интерпретации данных в формах и физических документах. [1]

Эти бумажные документы сканируются, информация извлекается, а затем данные сохраняются в цифровом виде в программе базы данных с использованием технологии ICR. Данные используются для аналитической отчетности и интегрируются с бизнес-процессами. Технология ICR используется предприятиями для организации неструктурированных данных и получения актуальной информации из этих отчетов. Пользователи могут быстро читать рукописные данные на бумаге с помощью ICR, а затем конвертировать их в цифровой формат. Алгоритмы ICR взаимодействуют с OCR для автоматизации ввода данных из форм, устраняя необходимость нажатия клавиш. Он имеет высокую степень точности и является надежным методом быстрой обработки различных видов бумаги. [1]

Возможности

[ редактировать ]

Большая часть программного обеспечения ICR имеет систему самообучения, называемую нейронной сетью , которая автоматически обновляет базу данных распознавания для новых образцов рукописного ввода. Он расширяет возможности сканирующих устройств для обработки документов: от распознавания печатных символов (функция OCR) до распознавания рукописных материалов. Поскольку этот процесс участвует в распознавании рукописного текста, уровень точности в некоторых обстоятельствах может быть не очень хорошим, но может достигать 97%+ точности при чтении рукописного текста в структурированных формах. Часто для достижения таких высоких показателей распознавания в программном обеспечении используется несколько механизмов чтения, и каждому предоставляется выборное право голоса для определения истинного чтения символов. В числовых полях предпочтение отдают машинам, предназначенным для чтения чисел, тогда как в альфа-полях более высокие избирательные права имеют машины, предназначенные для чтения рукописных букв. При использовании в сочетании со специальным интерфейсным концентратором рукописные данные могут автоматически заполняться в Система бэк-офиса позволяет избежать трудоемкого ручного ввода данных и может быть более точной, чем традиционный ввод данных человеком.

Автоматизированная обработка форм

[ редактировать ]

Важным достижением ICR стало изобретение в 1993 году автоматизированной обработки форм Джозефом Коркораном, которому был выдан патент на это изобретение. Это включало в себя трехэтапный процесс захвата изображения формы, подлежащей обработке с помощью ICR, и его подготовки, чтобы механизм ICR давал наилучшие результаты, затем захват информации с помощью механизма ICR и, наконец, обработку результатов для автоматической проверки выходных данных. из двигателя ICR.

Это применение ICR повысило полезность технологии и сделало ее применимой для использования с реальными формами в обычных бизнес-приложениях. Современные программные приложения используют ICR как технологию распознавания текста в формах, заполненных от руки (напечатанных вручную).

Различия между ICR и OCR

[ редактировать ]

оптическое распознавание текста

[ редактировать ]

Обычно считается, что оптическое распознавание символов (OCR) применимо к любому методу распознавания, который считывает машинно напечатанный текст. Примером традиционного варианта использования OCR может быть перевод символов из изображения печатного документа, например страницы книги, вырезки из газеты или юридического контракта, в отдельный файл, который можно искать и обновлять с помощью текстового процессора или просмотрщик документов. Это также весьма полезно для автоматизации обработки форм. Информацию можно быстро извлечь из полей формы и ввести в другое приложение, например в электронную таблицу или базу данных, путем зонального применения механизма OCR к этим полям.

Однако данные обычно вводятся вручную, а не вводятся в поля формы. Идентификация персонажей становится еще более сложной задачей при чтении рукописного материала. Разнообразие более чем 700 000 вариантов печатных шрифтов ничтожно по сравнению с практически неограниченными вариациями символов, напечатанных вручную. Программа распознавания должна учитывать не только стилистические различия, но и тип используемого пишущего инструмента, стандарт бумаги, ошибки, устойчивость руки, а также подтеки или потекшие чернила. [2]

Интеллектуальное распознавание символов (ICR) использует постоянно совершенствующиеся алгоритмы для сбора большего количества информации о различиях в напечатанных вручную символах и более точной их идентификации. ICR, созданный в начале 1990-х годов для автоматизации обработки форм, позволяет преобразовывать введенные вручную данные в текст, который легко читать, искать и изменять. Когда он используется для чтения символов, которые явно разделены на отдельные области или зоны, например фиксированные поля, встречающиеся во многих структурированных формах, он работает лучше всего. [2]

И OCR, и ICR можно настроить для чтения на разных языках; однако ограничение ожидаемого набора символов меньшим количеством языков приведет к лучшим результатам распознавания. ICR не может читать рукописный текст, поскольку он все равно должен иметь возможность оценивать каждый символ индивидуально. При написании курсивом может быть сложно определить, где заканчивается один символ и начинается другой, и между образцами больше различий, чем при печати текста вручную. Более поздний метод, называемый интеллектуальным распознаванием слов (IWR), фокусируется на чтении слова в контексте, а не на распознавании отдельных символов. [2]

Интеллектуальное распознавание слов

[ редактировать ]

Интеллектуальное распознавание слов (IWR) может распознавать и извлекать не только печатную рукописную информацию, но и рукописный текст. ICR распознает на уровне символов, тогда как IWR работает с полными словами или фразами. Считается, что IWR, способный собирать неструктурированную информацию со страниц повседневного использования, является более развитым, чем ICR, печатаемый вручную. [ нужна ссылка ]

Не предназначенный для замены традиционных систем ICR и OCR, IWR оптимизирован для обработки реальных документов, которые содержат в основном трудно распознаваемые поля данных произвольной формы, которые по своей сути не подходят для ICR. Это означает, что наиболее эффективное и лучшее использование IWR — это устранение большого процента ручного ввода рукописных данных и полей ручной печати в документах, которые в противном случае могли бы вводиться только людьми.

См. также

[ редактировать ]

Список литературы

[ редактировать ]
  1. ^ Jump up to: а б «Что такое интеллектуальное распознавание символов. Знакомство с интеллектуальным распознаванием символов» . www.docsumo.com . Проверено 19 марта 2023 г.
  2. ^ Jump up to: а б с «OCR против ICR: в чем разница?» . Аккусофт . Проверено 19 марта 2023 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 35ed8f2cf231fdce822826cd14bf2905__1719159180
URL1:https://arc.ask3.ru/arc/aa/35/05/35ed8f2cf231fdce822826cd14bf2905.html
Заголовок, (Title) документа по адресу, URL1:
Intelligent character recognition - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)