Анализ макета документа
Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( Май 2010 г. ) |
В компьютерном зрении или обработке естественного языка — анализ макета документа это процесс идентификации и категоризации интересующих областей в отсканированном изображении текстового документа. Система чтения требует сегментации текстовых зон от нетекстовых и расположения в правильном порядке их чтения. [ 1 ] Обнаружение и маркировка различных зон (или блоков) в виде текста , иллюстраций , математических символов и таблиц, встроенных в документ, называется геометрическим анализом макета . [ 2 ] Но текстовые зоны играют внутри документа разные логические роли (заголовки, подписи, сноски и т. д.), и такая семантическая разметка входит в сферу анализа логической компоновки .
Анализ макета документа — это объединение геометрической и логической разметки. Обычно это выполняется перед отправкой изображения документа в механизм оптического распознавания символов , но его также можно использовать для обнаружения дубликатов одного и того же документа в больших архивах или для индексации документов по их структуре или графическому содержимому.
Формат документа формально определен в международном стандарте ISO 8613-1:1989 .
Обзор методов
[ редактировать ]Существует два основных подхода к анализу структуры документа. Во-первых, существуют восходящие подходы, которые итеративно анализируют документ на основе необработанных данных пикселей. Эти подходы обычно сначала анализируют документ на связанные черно-белые области, затем эти области группируются в слова, затем в текстовые строки и, наконец, в текстовые блоки. [ 3 ] [ 4 ] Во-вторых, существуют нисходящие подходы, которые пытаются итеративно разбить документ на столбцы и блоки на основе пробелов и геометрической информации. [ 4 ]
Подходы «снизу вверх» являются традиционными и имеют то преимущество, что не требуют предположений об общей структуре документа. С другой стороны, восходящие подходы требуют итеративной сегментации и кластеризации, что может занять много времени. [ 4 ] Подходы «сверху вниз» имеют то преимущество, что они анализируют глобальную структуру документа напрямую, что устраняет необходимость итеративной кластеризации сотен или даже тысяч символов/символов, которые появляются в документе. Они, как правило, работают быстрее, но для надежной работы им обычно требуется сделать ряд предположений о макете документа. [ 4 ] Примеры подходов «сверху вниз» включают алгоритм рекурсивного разреза XY, который разбивает документ на прямоугольные секции. [ 5 ]
Есть две проблемы, общие для любого подхода к анализу макета документа: шум и перекос. Под шумом понимается шум изображения, например шум соли и перца или гауссов шум . Под наклоном подразумевается тот факт, что изображение документа может быть повернуто таким образом, что текстовые строки не будут идеально горизонтальными. является общим предположением Как в алгоритмах анализа макета документа, так и в алгоритмах оптического распознавания символов , что символы в изображении документа ориентированы так, чтобы текстовые строки были горизонтальными. Поэтому, если имеется перекос, важно повернуть изображение документа, чтобы удалить его.
Отсюда следует, что первыми шагами в любом коде анализа макета документа являются удаление шума изображения и оценка угла перекоса документа.
Пример подхода «снизу вверх»
[ редактировать ]В этом разделе мы рассмотрим этапы восходящего алгоритма анализа макета документа, разработанного в 1993 году О`Горманом. [ 3 ] Шаги в этом подходе следующие:
- Предварительно обработайте изображение, чтобы удалить гауссовский шум и шум «соль и перец». Обратите внимание, что некоторые фильтры удаления шума могут рассматривать запятые и точки как шум, поэтому необходимо соблюдать определенную осторожность.
- Преобразуйте изображение в бинарное изображение , т.е. преобразуйте значение каждого пикселя в полностью белое или полностью черное.
- Сегментируйте изображение на связанные компоненты черных пикселей. Это символы изображения. Для каждого символа вычислите ограничивающую рамку и центроид.
- Для каждого символа определите его k ближайших соседей , где k — целое число, большее или равное четырем. О`Горман в своей статье предлагает k=5 как хороший компромисс между надежностью и скоростью. Причина использования не менее k=4 заключается в том, что для символа в документе два или три ближайших символа — это те, которые находятся рядом с ним в той же текстовой строке. Четвертый по величине символ обычно находится на строке справа вверху или внизу, и важно включить эти символы в вычисление ближайшего соседа для дальнейшего.
- Каждая ближайшая соседняя пара символов связана вектором, указывающим от центроида одного символа к центроиду другого символа. Если эти векторы построить для каждой пары символов ближайших соседей, то получится так называемый документ для документа (см. рисунок ниже). Можно также использовать угол Θ от горизонтали и расстояние D между двумя символами ближайших соседей и создать гистограмму угла ближайшего соседа и расстояния до ближайшего соседа.
- Используя гистограмму угла ближайшего соседа, можно рассчитать перекос документа. Если перекос приемлемо низкий, перейдите к следующему шагу. Если это не так, поверните изображение, чтобы устранить перекос, и вернитесь к шагу 3.
- Гистограмма расстояния до ближайшего соседа имеет несколько пиков, и эти пики обычно представляют собой расстояние между символами, расстояние между словами и расстояние между строками. Рассчитайте эти значения по гистограмме и отложите их в сторону.
- Для каждого символа посмотрите на его ближайших соседей и отметьте всех из них, которые находятся на расстоянии, находящемся в пределах некоторого допуска между расстоянием между символами или расстоянием между словами. Для каждого помеченного символа ближайшего соседа нарисуйте отрезок линии, соединяющий их центроиды.
- Символы, соединенные со своими соседями отрезками линий, образуют текстовые строки . Используя все центроиды текстовой строки, можно вычислить фактический сегмент линии, представляющий текстовую строку, с помощью линейной регрессии. Это важно, поскольку маловероятно, что все центроиды символов в текстовой строке на самом деле коллинеарны.
- Для каждой пары текстовых строк можно вычислить минимальное расстояние между соответствующими сегментами строк. Если это расстояние находится в пределах некоторого допуска по отношению к межстрочному интервалу, рассчитанному на шаге 7, то две текстовые строки группируются в один текстовый блок .
- Наконец, можно рассчитать ограничивающую рамку для каждого текстового блока, и анализ макета документа завершен.
Программное обеспечение для анализа макета
[ редактировать ]- OCRopus — бесплатная система анализа макета документа и система оптического распознавания символов, реализованная на C++ и Python, а также для FreeBSD, Linux и Mac OS X. Это программное обеспечение поддерживает архитектуру подключаемых модулей, которая позволяет пользователю выбирать из множества различных методов анализа макета документа и Алгоритмы оптического распознавания символов.
- OCRFeeder — пакет OCR для Linux, написанный на Python, который также поддерживает анализ макета документа. Это программное обеспечение активно разрабатывается, является бесплатным и имеет открытый исходный код.
См. также
[ редактировать ]Внешние ссылки
[ редактировать ]- Высокопроизводительный анализ макета документа, Томас М. Брейэль, PARC, Пало-Альто, Калифорния, США , 2003 г.
- Методы анализа геометрической компоновки для понимания изображения документа: обзор, первый технический отчет ITC TR № 9703-09 , 1998 г.
Дальнейшее чтение
[ редактировать ]- О'Горман, Л. (1993). «Спектр документов для анализа макета страницы». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 15 (11): 1162–1173. дои : 10.1109/34.244677 .
- Саймон, А.; Прет, Ж.-К.; Джонсон, AP (1997). «Быстрый алгоритм восходящего анализа макета документа». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 19 (3): 273–277. дои : 10.1109/34.584106 .
- Сон-Ван Ли; Дэ-Сок Рю (2001). «Безпараметрический геометрический анализ компоновки документа». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 23 (11): 1240–1256. дои : 10.1109/34.969115 .
- Денгель, Андреас; Барт, Герхард (1989). «АНАСТАСИЛ: гибридная интеллектуальная система для анализа верстки документов» . Иджкай'89: 1249–1254.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь )
Ссылки
[ редактировать ]- ^ Бэрд, Канзас (июль 1992 г.). «Анатомия универсального устройства чтения страниц». Труды IEEE . 80 (7): 1059–1065. CiteSeerX 10.1.1.40.8060 . дои : 10.1109/5.156469 .
- ^ Каттони, Р.; Кояниз, Т.; Месселоди, С.; Модена, К.М. «Методы анализа геометрической компоновки для понимания изображения документа: обзор. Первый технический отчет ITC TR № 9703-09».
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Jump up to: а б О'Горман, Л. (1993). «Спектр документов для анализа макета страницы». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 15 (11): 1162–1173. дои : 10.1109/34.244677 .
- ^ Jump up to: а б с д Сон-Ван Ли; Дэ-Сок Рю (2001). «Безпараметрический геометрический анализ компоновки документа». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 23 (11): 1240–1256. CiteSeerX 10.1.1.574.7875 . дои : 10.1109/34.969115 .
- ^ Ха, Джэкю; Харалик, Роберт М.; Филлипс, Ихсин Т. (1995). «Рекурсивный разрез XY с использованием ограничивающих рамок связанных компонентов» (PDF) . Материалы Третьей Международной конференции по анализу и распознаванию документов (ICDAR '95) .