Обработка форм
Обработка форм — это процесс, с помощью которого можно собирать информацию, введенную в поля данных, и преобразовывать ее в электронный формат. Это можно сделать вручную или автоматически, но общий процесс заключается в том, что данные на бумажном носителе заполняются людьми, а затем «снимаются» из соответствующих полей и вводятся в базу данных или другой электронный формат.
Обзор
[ редактировать ]В самом широком смысле системы обработки форм могут варьироваться от обработки небольших форм заявок до крупномасштабных форм опросов с несколькими страницами. Существует несколько распространенных проблем, связанных с обработкой форм вручную. Это требует большого количества утомительных человеческих усилий, данные, вводимые пользователем, могут привести к опечаткам, и этот длительный процесс требует многих часов труда. Если формы обрабатываются с использованием компьютерных программных приложений, эти распространенные проблемы можно решить и в значительной степени свести к минимуму. Большинство методов обработки форм относятся к следующим областям.
Ручной ввод данных
[ редактировать ]Этот метод обработки данных подразумевает, что операторы вводят данные, найденные в форме. Ручной процесс ввода данных имеет множество недостатков с точки зрения скорости, точности и стоимости. Исходя из средней скорости профессиональной машинистки от 50 до 80 слов в минуту, [ 1 ] для форм с пятнадцатью полями из одного слова можно было бы щедро оценить около двухсот страниц в час (не считая времени на чтение и сортировку страниц). Напротив, современные коммерческие сканеры могут сканировать и оцифровывать до 200 страниц в минуту . [ 2 ] Вторым серьезным недостатком ручного ввода данных является вероятность опечаток . С учетом стоимости рабочей силы и рабочего пространства ручной ввод данных оказывается очень неэффективным процессом.
Автоматизированная обработка форм
[ редактировать ]Этот метод позволяет автоматизировать обработку данных с помощью заранее определенных шаблонов и конфигураций. В этом случае шаблоном будет карта документа с подробным описанием расположения полей данных в форме или документе. По сравнению с процессом ввода данных вручную, системы автоматического ввода форм предпочтительнее, поскольку они помогают уменьшить проблемы, возникающие при обработке данных вручную.
Системы автоматического ввода форм используют различные типы методов распознавания, такие как оптическое распознавание символов (OCR) для машинной печати, считывание оптических меток (OMR) для контрольных полей/пометок, распознавание штрих-кода (BCR) для штрих-кодов и интеллектуальное распознавание символов (ICR). ) для ручной печати.
Благодаря технологии автоматизированной системы обработки форм пользователи могут преобразовывать документы из отсканированных изображений в машиночитаемый формат, такой как ANSI, XML, CSV, PDF, или вводить непосредственно в базу данных.
Обработка форм вышла за рамки простого сбора данных. Обработка форм не только включает в себя процесс распознавания, но также помогает управлять полным жизненным циклом документов, который начинается от сканирования документа до извлечения данных и часто до доставки в серверную систему. В некоторых случаях это может также включать обработку или создание хорошо отформатированных результатов посредством вычислений и анализа. Автоматизированная система обработки форм может оказаться полезной, если есть необходимость обрабатывать сотни или тысячи изображений каждый день.
Первый шаг: оценка структуры формы
[ редактировать ]Первым шагом в понимании автоматизированной обработки форм является анализ типа формы, из которой желательно извлечь данные. Формы можно отнести к одной из двух категорий высокого уровня с целью извлечения данных. Было предложено четыре категории [ 3 ] однако индустрия захвата документов урегулировала эти два вопроса:
- Фиксированные формы. Этот тип формы определяется как форма, в которой извлекаемые данные всегда находятся в одной и той же абсолютной позиции на странице. Это позволяет применять к документу и каждому последующему появлению этого документа тип линзовой сетки для извлечения данных. Примером фиксированной формы является типичная форма заявки на получение кредита. [ 4 ]
- Полуструктурированная (или неструктурированная) форма. В этой форме расположение данных и полей, содержащих данные, варьируется от документа к документу. Этот тип документа, пожалуй, легче всего определить по тому факту, что он не имеет фиксированной формы. В сфере ввода документов полуструктурированную форму также называют неструктурированной формой. Примерами таких типов форм являются письма, контракты и счета-фактуры. Согласно исследованию AIIM, около 80% документов в организации подпадают под полуструктурированное определение. [ 5 ]
Хотя компоненты (описанные ниже), используемые для извлечения данных из форм любого типа, одинаковы, способ их применения значительно различается в зависимости от типа документа.
Компоненты
[ редактировать ]Различные компоненты, включенные в обработку данных с использованием системы автоматического ввода форм, включают:
- OCR – Оптическое распознавание символов
- OMR – Оптическое распознавание меток
- ICR – Интеллектуальное распознавание символов
- BCR – штрих-кода распознавание
- MICR – распознавание символов магнитными чернилами
OCR распознает машинно напечатанные буквы верхнего и нижнего регистра, цифры, символы с диакритическими знаками, многие символы валют , цифры, арифметические символы, расширенные знаки препинания и многое другое.
ICR распознает напечатанные вручную американские и европейские английские символы с использованием заранее определенных наборов символов: прописные, строчные, смешанные буквы, цифры, валюта (включая $ (доллар), ¢ (цент) € (евро) £ (фунт), ¥ ( Йена)), арифметические символы и знаки пунктуации (включая точку, запятую, одинарную кавычку , двойную кавычку, ! & ( ) ? @ { } \ # % * + – / : ; < = >)
MICR — это технология распознавания, упрощающая обработку шрифтов MICR чеков. Это сводит к минимуму вероятность ошибок при оплате чеков. Это также полезно для более простого и быстрого перевода средств. MICR обеспечивает безопасный и высокоскоростной метод сканирования и обработки информации.
Оптическое распознавание меток (OMR) идентифицирует пузырьки, заполненные вручную или в полях с флажками на печатных формах. Обычно OMR поддерживает распознавание одной и нескольких меток. Поля, которые необходимо распознать, можно указать в виде сеток (строки по столбцам) или отдельных пузырьков.
Распознавание штрих-кода может считывать более 20 промышленных штрих-кодов 1D и 2D, включая Code39, CODABAR, Interleaved 2 of 5 , Code93 и другие. Он автоматически обнаруживает все штрих-коды на изображении или в определенной области изображения.
Процесс
[ редактировать ]Процесс автоматизированной обработки форм обычно включает в себя следующие этапы:
- Пакет заполненных форм сканируется с помощью высокоскоростного сканера.
- Изображения очищаются с помощью алгоритмов обработки изображений документов для повышения точности.
- Формы классифицируются на основе исходных шаблонных форм, а поля извлекаются с использованием соответствующих компонентов распознавания.
- Поля, которые система пометила с низкой достоверностью, ставятся в очередь на проверку человеком-оператором.
- Проверенные данные сохраняются в базе данных или экспортируются в текстовый формат с возможностью поиска, например CSV, XML или PDF.
Предварительные условия
[ редактировать ]Хотя автоматическая обработка форм имеет множество преимуществ по сравнению с вводом данных вручную, она все же имеет некоторые ограничения. Для достижения максимальной точности следует соблюдать некоторые предварительные условия.
- Формат сканирования: включает формат отсканированного файла, разрешение и DPI, цветовой режим.
- Конфигурация: для этой автоматизации необходимо настроить макет отсканированного изображения.
- Распознавание: предварительно определенные форматы вывода.
- Результат/анализ: любой конкретный формат представления данных о значении улавливания.
Одним из очень важных соображений является индексирование, определение метаданных , которые будут использоваться для описания данных, содержащихся в документах. Этот атрибут, возможно, влияет на решение обработки форм больше, чем любой другой.
Внешние ссылки
[ редактировать ]
Ссылки
[ редактировать ]- ^ Терезия Р. Острах (1997), Скорость набора текста: насколько быстрая средняя (PDF) , заархивировано из оригинала (PDF) 2 мая 2012 г.
- ^ «Kodak представляет коммерческий сканер i1860 со скоростью печати 200 страниц в минуту» . Engadget . Проверено 4 ноября 2011 г.
- ^ Кузнецов Сергей О.; Мандал, Деба П.; Кунду, Малай К.; Пал, Санкар Кумар (25 июня 2011 г.). Распознавание образов и машинный интеллект: 4-я Международная конференция, PReMI 2011, Москва, Россия, 27 июня – 1 июля 2011, Труды . Спрингер. ISBN 9783642217869 .
- ^ Васильев, Артур (10 июня 2008 г.). «СХЕМА ПОЛУСТРУКТУРИРОВАННЫХ ФОРМ И ДОКУМЕНТОВ: ПРОБЛЕМЫ И ДОСТУПНЫЕ ТЕХНОЛОГИИ» (PDF) . Архивировано из оригинала (PDF) 28 апреля 2017 г. Проверено 4 апреля 2017 г.
- ^ «Обработка форм — пользовательский опыт распознавания текста и рукописного ввода (OCR/ICR)» (PDF) . Архивировано из оригинала (PDF) 28 апреля 2017 года . Проверено 4 апреля 2017 г.