Jump to content

Обработка форм

(Перенаправлено из «Обработка форм »)

Обработка форм — это процесс, с помощью которого можно собирать информацию, введенную в поля данных, и преобразовывать ее в электронный формат. Это можно сделать вручную или автоматически, но общий процесс заключается в том, что данные на бумажном носителе заполняются людьми, а затем «снимаются» из соответствующих полей и вводятся в базу данных или другой электронный формат.

В самом широком смысле системы обработки форм могут варьироваться от обработки небольших форм заявок до крупномасштабных форм опросов с несколькими страницами. Существует несколько распространенных проблем, связанных с обработкой форм вручную. Это требует большого количества утомительных человеческих усилий, данные, вводимые пользователем, могут привести к опечаткам, и этот длительный процесс требует многих часов труда. Если формы обрабатываются с использованием компьютерных программных приложений, эти распространенные проблемы можно решить и в значительной степени свести к минимуму. Большинство методов обработки форм относятся к следующим областям.

Ручной ввод данных

[ редактировать ]

Этот метод обработки данных подразумевает, что операторы вводят данные, найденные в форме. Ручной процесс ввода данных имеет множество недостатков с точки зрения скорости, точности и стоимости. Исходя из средней скорости профессиональной машинистки от 50 до 80 слов в минуту, [ 1 ] для форм с пятнадцатью полями из одного слова можно было бы щедро оценить около двухсот страниц в час (не считая времени на чтение и сортировку страниц). Напротив, современные коммерческие сканеры могут сканировать и оцифровывать до 200 страниц в минуту . [ 2 ] Вторым серьезным недостатком ручного ввода данных является вероятность опечаток . С учетом стоимости рабочей силы и рабочего пространства ручной ввод данных оказывается очень неэффективным процессом.

Автоматизированная обработка форм

[ редактировать ]

Этот метод позволяет автоматизировать обработку данных с помощью заранее определенных шаблонов и конфигураций. В этом случае шаблоном будет карта документа с подробным описанием расположения полей данных в форме или документе. По сравнению с процессом ввода данных вручную, системы автоматического ввода форм предпочтительнее, поскольку они помогают уменьшить проблемы, возникающие при обработке данных вручную.

Системы автоматического ввода форм используют различные типы методов распознавания, такие как оптическое распознавание символов (OCR) для машинной печати, считывание оптических меток (OMR) для контрольных полей/пометок, распознавание штрих-кода (BCR) для штрих-кодов и интеллектуальное распознавание символов (ICR). ) для ручной печати.

Благодаря технологии автоматизированной системы обработки форм пользователи могут преобразовывать документы из отсканированных изображений в машиночитаемый формат, такой как ANSI, XML, CSV, PDF, или вводить непосредственно в базу данных.

Обработка форм вышла за рамки простого сбора данных. Обработка форм не только включает в себя процесс распознавания, но также помогает управлять полным жизненным циклом документов, который начинается от сканирования документа до извлечения данных и часто до доставки в серверную систему. В некоторых случаях это может также включать обработку или создание хорошо отформатированных результатов посредством вычислений и анализа. Автоматизированная система обработки форм может оказаться полезной, если есть необходимость обрабатывать сотни или тысячи изображений каждый день.

Первый шаг: оценка структуры формы

[ редактировать ]

Первым шагом в понимании автоматизированной обработки форм является анализ типа формы, из которой желательно извлечь данные. Формы можно отнести к одной из двух категорий высокого уровня с целью извлечения данных. Было предложено четыре категории [ 3 ] однако индустрия захвата документов урегулировала эти два вопроса:

  1. Фиксированные формы. Этот тип формы определяется как форма, в которой извлекаемые данные всегда находятся в одной и той же абсолютной позиции на странице. Это позволяет применять к документу и каждому последующему появлению этого документа тип линзовой сетки для извлечения данных. Примером фиксированной формы является типичная форма заявки на получение кредита. [ 4 ]
  2. Полуструктурированная (или неструктурированная) форма. В этой форме расположение данных и полей, содержащих данные, варьируется от документа к документу. Этот тип документа, пожалуй, легче всего определить по тому факту, что он не имеет фиксированной формы. В сфере ввода документов полуструктурированную форму также называют неструктурированной формой. Примерами таких типов форм являются письма, контракты и счета-фактуры. Согласно исследованию AIIM, около 80% документов в организации подпадают под полуструктурированное определение. [ 5 ]

Хотя компоненты (описанные ниже), используемые для извлечения данных из форм любого типа, одинаковы, способ их применения значительно различается в зависимости от типа документа.

Компоненты

[ редактировать ]

Различные компоненты, включенные в обработку данных с использованием системы автоматического ввода форм, включают:

  1. OCR – Оптическое распознавание символов
  2. OMR – Оптическое распознавание меток
  3. ICR – Интеллектуальное распознавание символов
  4. BCR – штрих-кода распознавание
  5. MICR – распознавание символов магнитными чернилами

OCR распознает машинно напечатанные буквы верхнего и нижнего регистра, цифры, символы с диакритическими знаками, многие символы валют , цифры, арифметические символы, расширенные знаки препинания и многое другое.

ICR распознает напечатанные вручную американские и европейские английские символы с использованием заранее определенных наборов символов: прописные, строчные, смешанные буквы, цифры, валюта (включая $ (доллар), ¢ (цент) € (евро) £ (фунт), ¥ ( Йена)), арифметические символы и знаки пунктуации (включая точку, запятую, одинарную кавычку , двойную кавычку, ! & ( ) ? @ { } \ # % * + – / : ; < = >)

MICR — это технология распознавания, упрощающая обработку шрифтов MICR чеков. Это сводит к минимуму вероятность ошибок при оплате чеков. Это также полезно для более простого и быстрого перевода средств. MICR обеспечивает безопасный и высокоскоростной метод сканирования и обработки информации.

Оптическое распознавание меток (OMR) идентифицирует пузырьки, заполненные вручную или в полях с флажками на печатных формах. Обычно OMR поддерживает распознавание одной и нескольких меток. Поля, которые необходимо распознать, можно указать в виде сеток (строки по столбцам) или отдельных пузырьков.

Распознавание штрих-кода может считывать более 20 промышленных штрих-кодов 1D и 2D, включая Code39, CODABAR, Interleaved 2 of 5 , Code93 и другие. Он автоматически обнаруживает все штрих-коды на изображении или в определенной области изображения.

Процесс автоматизированной обработки форм обычно включает в себя следующие этапы:

  1. Пакет заполненных форм сканируется с помощью высокоскоростного сканера.
  2. Изображения очищаются с помощью алгоритмов обработки изображений документов для повышения точности.
  3. Формы классифицируются на основе исходных шаблонных форм, а поля извлекаются с использованием соответствующих компонентов распознавания.
  4. Поля, которые система пометила с низкой достоверностью, ставятся в очередь на проверку человеком-оператором.
  5. Проверенные данные сохраняются в базе данных или экспортируются в текстовый формат с возможностью поиска, например CSV, XML или PDF.

Предварительные условия

[ редактировать ]

Хотя автоматическая обработка форм имеет множество преимуществ по сравнению с вводом данных вручную, она все же имеет некоторые ограничения. Для достижения максимальной точности следует соблюдать некоторые предварительные условия.

  1. Формат сканирования: включает формат отсканированного файла, разрешение и DPI, цветовой режим.
  2. Конфигурация: для этой автоматизации необходимо настроить макет отсканированного изображения.
  3. Распознавание: предварительно определенные форматы вывода.
  4. Результат/анализ: любой конкретный формат представления данных о значении улавливания.

Одним из очень важных соображений является индексирование, определение метаданных , которые будут использоваться для описания данных, содержащихся в документах. Этот атрибут, возможно, влияет на решение обработки форм больше, чем любой другой.

[ редактировать ]
  1. ^ Терезия Р. Острах (1997), Скорость набора текста: насколько быстрая средняя (PDF) , заархивировано из оригинала (PDF) 2 мая 2012 г.
  2. ^ «Kodak представляет коммерческий сканер i1860 со скоростью печати 200 страниц в минуту» . Engadget . Проверено 4 ноября 2011 г.
  3. ^ Кузнецов Сергей О.; Мандал, Деба П.; Кунду, Малай К.; Пал, Санкар Кумар (25 июня 2011 г.). Распознавание образов и машинный интеллект: 4-я Международная конференция, PReMI 2011, Москва, Россия, 27 июня – 1 июля 2011, Труды . Спрингер. ISBN  9783642217869 .
  4. ^ Васильев, Артур (10 июня 2008 г.). «СХЕМА ПОЛУСТРУКТУРИРОВАННЫХ ФОРМ И ДОКУМЕНТОВ: ПРОБЛЕМЫ И ДОСТУПНЫЕ ТЕХНОЛОГИИ» (PDF) . Архивировано из оригинала (PDF) 28 апреля 2017 г. Проверено 4 апреля 2017 г.
  5. ^ «Обработка форм — пользовательский опыт распознавания текста и рукописного ввода (OCR/ICR)» (PDF) . Архивировано из оригинала (PDF) 28 апреля 2017 года . Проверено 4 апреля 2017 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 96b2b1f59bd925a154ac46c6902f6c92__1724407560
URL1:https://arc.ask3.ru/arc/aa/96/92/96b2b1f59bd925a154ac46c6902f6c92.html
Заголовок, (Title) документа по адресу, URL1:
Forms processing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)