Анализ макета документа

В компьютерном зрении или обработке естественного языка — анализ макета документа это процесс идентификации и категоризации интересующих областей в отсканированном изображении текстового документа. Система чтения требует сегментации текстовых зон от нетекстовых и расположения в правильном порядке их чтения. ^[1] Обнаружение и маркировка различных зон (или блоков) в виде текста , иллюстраций , математических символов и таблиц, встроенных в документ, называется геометрическим анализом макета . ^[2] Но текстовые зоны играют внутри документа разные логические роли (заголовки, подписи, сноски и т. д.), и такая семантическая разметка входит в сферу анализа логической компоновки .

Анализ макета документа — это объединение геометрической и логической разметки. Обычно это выполняется перед отправкой изображения документа в механизм оптического распознавания символов , но его также можно использовать для обнаружения дубликатов одного и того же документа в больших архивах или для индексации документов по их структуре или графическому содержимому.

Формат документа формально определен в международном стандарте ISO 8613-1:1989 .

Обзор методов

Существует два основных подхода к анализу структуры документа. Во-первых, существуют восходящие подходы, которые итеративно анализируют документ на основе необработанных данных пикселей. Эти подходы обычно сначала анализируют документ на связанные черно-белые области, затем эти области группируются в слова, затем в текстовые строки и, наконец, в текстовые блоки. ^[3]^[4] Во-вторых, существуют нисходящие подходы, которые пытаются итеративно разбить документ на столбцы и блоки на основе пробелов и геометрической информации. ^[4]

Подходы «снизу вверх» являются традиционными и имеют то преимущество, что не требуют предположений об общей структуре документа. С другой стороны, восходящие подходы требуют итеративной сегментации и кластеризации, что может занять много времени. ^[4] Подходы «сверху вниз» имеют то преимущество, что они анализируют глобальную структуру документа напрямую, что устраняет необходимость итеративной кластеризации сотен или даже тысяч символов/символов, которые появляются в документе. Они, как правило, работают быстрее, но для надежной работы обычно требуется сделать ряд предположений о макете документа. ^[4] Примеры подходов «сверху вниз» включают алгоритм рекурсивного разреза XY, который разбивает документ на прямоугольные секции. ^[5]

Есть две проблемы, общие для любого подхода к анализу макета документа: шум и перекос. Под шумом понимается шум изображения, например шум соли и перца или гауссов шум . Под наклоном подразумевается тот факт, что изображение документа может быть повернуто таким образом, что текстовые строки не будут идеально горизонтальными. является общим предположением Как в алгоритмах анализа макета документа, так и в алгоритмах оптического распознавания символов , что символы в изображении документа ориентированы так, что текстовые строки расположены горизонтально. Поэтому, если имеется перекос, важно повернуть изображение документа, чтобы удалить его.

Отсюда следует, что первыми шагами в любом коде анализа макета документа являются удаление шума изображения и оценка угла перекоса документа.

Пример подхода «снизу вверх»

В этом разделе мы рассмотрим этапы восходящего алгоритма анализа макета документа, разработанного в 1993 году О`Горманом. ^[3] Шаги в этом подходе следующие:

Предварительно обработайте изображение, чтобы удалить гауссовский шум и шум «соль и перец». Обратите внимание, что некоторые фильтры удаления шума могут рассматривать запятые и точки как шум, поэтому необходимо соблюдать определенную осторожность.
Преобразуйте изображение в бинарное изображение , т.е. преобразуйте значение каждого пикселя в полностью белое или полностью черное.
Сегментируйте изображение на связанные компоненты черных пикселей. Это символы изображения. Для каждого символа вычислите ограничивающую рамку и центроид.
Для каждого символа определите его k ближайших соседей , где k — целое число, большее или равное четырем. О`Горман в своей статье предлагает k=5 как хороший компромисс между надежностью и скоростью. Причина использования не менее k=4 заключается в том, что для символа в документе два или три ближайших символа — это те, которые находятся рядом с ним в той же текстовой строке. Четвертый по величине символ обычно находится на строке справа вверху или внизу, и важно включить эти символы в вычисление ближайшего соседа для дальнейшего.
Каждая ближайшая соседняя пара символов связана вектором, указывающим от центроида одного символа к центроиду другого символа. Если эти векторы построить для каждой пары символов ближайших соседей, то получится так называемый документ для документа (см. рисунок ниже). Можно также использовать угол Θ от горизонтали и расстояние D между двумя символами ближайших соседей и создать гистограмму угла ближайшего соседа и расстояния до ближайшего соседа.
Используя гистограмму угла ближайшего соседа, можно рассчитать перекос документа. Если перекос приемлемо низкий, перейдите к следующему шагу. Если это не так, поверните изображение, чтобы устранить перекос, и вернитесь к шагу 3.
Гистограмма расстояния до ближайшего соседа имеет несколько пиков, и эти пики обычно представляют собой расстояние между символами, расстояние между словами и расстояние между строками. Рассчитайте эти значения по гистограмме и отложите их в сторону.
Для каждого символа посмотрите на его ближайших соседей и отметьте всех из них, которые находятся на расстоянии, находящемся в пределах некоторого допуска между расстоянием между символами или расстоянием между словами. Для каждого помеченного символа ближайшего соседа нарисуйте отрезок линии, соединяющий их центроиды.
Символы, соединенные со своими соседями отрезками линий, образуют текстовые строки . Используя все центроиды текстовой строки, можно вычислить фактический сегмент линии, представляющий текстовую строку, с помощью линейной регрессии. Это важно, поскольку маловероятно, что все центроиды символов в текстовой строке на самом деле коллинеарны.
Для каждой пары текстовых строк можно вычислить минимальное расстояние между соответствующими сегментами строк. Если это расстояние находится в пределах некоторого допуска между межстрочными интервалами, рассчитанными на шаге 7, то две текстовые строки группируются в один текстовый блок .
Наконец, можно рассчитать ограничивающую рамку для каждого текстового блока, и анализ макета документа завершен.

Программное обеспечение для анализа макета

OCRopus — бесплатная система анализа макета документа и система оптического распознавания символов, реализованная на C++ и Python, а также для FreeBSD, Linux и Mac OS X. Это программное обеспечение поддерживает архитектуру подключаемых модулей, которая позволяет пользователю выбирать из множества различных методов анализа макета документа и Алгоритмы оптического распознавания символов.
OCRFeeder — пакет оптического распознавания символов для Linux, написанный на Python, который также поддерживает анализ макета документа. Это программное обеспечение активно разрабатывается, является бесплатным и имеет открытый исходный код.

См. также

Внешние ссылки

Дальнейшее чтение

О'Горман, Л. (1993). «Спектр документов для анализа макета страницы». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 15 (11): 1162–1173. дои : 10.1109/34.244677 .
Саймон, А.; Прет, Ж.-К.; Джонсон, AP (1997). «Быстрый алгоритм восходящего анализа макета документа». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 19 (3): 273–277. дои : 10.1109/34.584106 .
Сон-Ван Ли; Дэ-Сок Рю (2001). «Безпараметрический геометрический анализ компоновки документа». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 23 (11): 1240–1256. дои : 10.1109/34.969115 .
Денгель, Андреас; Барт, Герхард (1989). «АНАСТАСИЛ: гибридная интеллектуальная система для анализа верстки документов» . Иджкай'89: 1249–1254. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

Ссылки

^ Бэрд, Канзас (июль 1992 г.). «Анатомия универсального устройства чтения страниц». Труды IEEE . 80 (7): 1059–1065. CiteSeerX 10.1.1.40.8060 . дои : 10.1109/5.156469 .
^ Каттони, Р.; Кояниз, Т.; Месселоди, С.; Модена, К.М. «Методы анализа геометрической компоновки для понимания изображения документа: обзор. Первый технический отчет ITC TR № 9703-09». {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Перейти обратно: ^а ^б О'Горман, Л. (1993). «Спектр документов для анализа макета страницы». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 15 (11): 1162–1173. дои : 10.1109/34.244677 .
^ Перейти обратно: ^а ^б ^с ^д Сон-Ван Ли; Дэ-Сок Рю (2001). «Безпараметрический геометрический анализ компоновки документа». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 23 (11): 1240–1256. CiteSeerX 10.1.1.574.7875 . дои : 10.1109/34.969115 .
^ Ха, Джэкю; Харалик, Роберт М.; Филлипс, Ихсин Т. (1995). «Рекурсивный разрез XY с использованием ограничивающих рамок связанных компонентов» (PDF) . Материалы Третьей Международной конференции по анализу и распознаванию документов (ICDAR '95) .

[baird92-1] Бэрд, Канзас (июль 1992 г.). «Анатомия универсального устройства чтения страниц». Труды IEEE . 80 (7): 1059–1065. CiteSeerX 10.1.1.40.8060 . дои : 10.1109/5.156469 .

[2] Каттони, Р.; Кояниз, Т.; Месселоди, С.; Модена, К.М. «Методы анализа геометрической компоновки для понимания изображения документа: обзор. Первый технический отчет ITC TR № 9703-09». {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[Gorman93-3] Перейти обратно: ^а ^б О'Горман, Л. (1993). «Спектр документов для анализа макета страницы». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 15 (11): 1162–1173. дои : 10.1109/34.244677 .

[Lee01-4] Перейти обратно: ^а ^б ^с ^д Сон-Ван Ли; Дэ-Сок Рю (2001). «Безпараметрический геометрический анализ компоновки документа». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 23 (11): 1240–1256. CiteSeerX 10.1.1.574.7875 . дои : 10.1109/34.969115 .

[5] Ха, Джэкю; Харалик, Роберт М.; Филлипс, Ихсин Т. (1995). «Рекурсивный разрез XY с использованием ограничивающих рамок связанных компонентов» (PDF) . Материалы Третьей Международной конференции по анализу и распознаванию документов (ICDAR '95) .

[1]

[2]

[3]

[4]

[5]

v т и для оптического распознавания символов Программное обеспечение
Бесплатное программное обеспечение	КунейФорм ГОКР Окрад OCRFeeder ОКРопус Тессеракт
Собственное программное обеспечение	ABBYY FineReader Adobe Акробат Про Асприз OCR Обработка изображений документов Microsoft Office ОмниПейдж ReadSoft СмартСкор ТелеФорм VueScan
См. также	Сравнение программного обеспечения для оптического распознавания символов