Jump to content

Анализ макета документа

В компьютерном зрении или обработке естественного языка анализ макета документа это процесс идентификации и категоризации интересующих областей в отсканированном изображении текстового документа. Система чтения требует сегментации текстовых зон от нетекстовых и расположения в правильном порядке их чтения. [ 1 ] Обнаружение и маркировка различных зон (или блоков) в виде текста , иллюстраций , математических символов и таблиц, встроенных в документ, называется геометрическим анализом макета . [ 2 ] Но текстовые зоны играют внутри документа разные логические роли (заголовки, подписи, сноски и т. д.), и такая семантическая разметка входит в сферу анализа логической компоновки .

Анализ макета документа — это объединение геометрической и логической разметки. Обычно это выполняется перед отправкой изображения документа в механизм оптического распознавания символов , но его также можно использовать для обнаружения дубликатов одного и того же документа в больших архивах или для индексации документов по их структуре или графическому содержимому.

Формат документа формально определен в международном стандарте ISO 8613-1:1989 .

Обзор методов

[ редактировать ]

Существует два основных подхода к анализу структуры документа. Во-первых, существуют восходящие подходы, которые итеративно анализируют документ на основе необработанных данных пикселей. Эти подходы обычно сначала анализируют документ на связанные черно-белые области, затем эти области группируются в слова, затем в текстовые строки и, наконец, в текстовые блоки. [ 3 ] [ 4 ] Во-вторых, существуют нисходящие подходы, которые пытаются итеративно разбить документ на столбцы и блоки на основе пробелов и геометрической информации. [ 4 ]

Подходы «снизу вверх» являются традиционными и имеют то преимущество, что не требуют предположений об общей структуре документа. С другой стороны, восходящие подходы требуют итеративной сегментации и кластеризации, что может занять много времени. [ 4 ] Подходы «сверху вниз» имеют то преимущество, что они анализируют глобальную структуру документа напрямую, что устраняет необходимость итеративной кластеризации сотен или даже тысяч символов/символов, которые появляются в документе. Они, как правило, работают быстрее, но для надежной работы им обычно требуется сделать ряд предположений о макете документа. [ 4 ] Примеры подходов «сверху вниз» включают алгоритм рекурсивного разреза XY, который разбивает документ на прямоугольные секции. [ 5 ]

Есть две проблемы, общие для любого подхода к анализу макета документа: шум и перекос. Под шумом понимается шум изображения, например шум соли и перца или гауссов шум . Под наклоном подразумевается тот факт, что изображение документа может быть повернуто таким образом, что текстовые строки не будут идеально горизонтальными. является общим предположением Как в алгоритмах анализа макета документа, так и в алгоритмах оптического распознавания символов , что символы в изображении документа ориентированы так, чтобы текстовые строки были горизонтальными. Поэтому, если имеется перекос, важно повернуть изображение документа, чтобы удалить его.

Отсюда следует, что первыми шагами в любом коде анализа макета документа являются удаление шума изображения и оценка угла перекоса документа.

Пример подхода «снизу вверх»

[ редактировать ]

В этом разделе мы рассмотрим этапы восходящего алгоритма анализа макета документа, разработанного в 1993 году О`Горманом. [ 3 ] Шаги в этом подходе следующие:

  1. Предварительно обработайте изображение, чтобы удалить гауссовский шум и шум «соль и перец». Обратите внимание, что некоторые фильтры удаления шума могут рассматривать запятые и точки как шум, поэтому необходимо соблюдать определенную осторожность.
  2. Преобразуйте изображение в бинарное изображение , т.е. преобразуйте значение каждого пикселя в полностью белое или полностью черное.
  3. Сегментируйте изображение на связанные компоненты черных пикселей. Это символы изображения. Для каждого символа вычислите ограничивающую рамку и центроид.
  4. Для каждого символа определите его k ближайших соседей , где k — целое число, большее или равное четырем. О`Горман в своей статье предлагает k=5 как хороший компромисс между надежностью и скоростью. Причина использования не менее k=4 заключается в том, что для символа в документе два или три ближайших символа — это те, которые находятся рядом с ним в той же текстовой строке. Четвертый по величине символ обычно находится на строке справа вверху или внизу, и важно включить эти символы в вычисление ближайшего соседа для дальнейшего.
  5. Каждая ближайшая соседняя пара символов связана вектором, указывающим от центроида одного символа к центроиду другого символа. Если эти векторы построить для каждой пары символов ближайших соседей, то получится так называемый документ для документа (см. рисунок ниже). Можно также использовать угол Θ от горизонтали и расстояние D между двумя символами ближайших соседей и создать гистограмму угла ближайшего соседа и расстояния до ближайшего соседа.
  6. Используя гистограмму угла ближайшего соседа, можно рассчитать перекос документа. Если перекос приемлемо низкий, перейдите к следующему шагу. Если это не так, поверните изображение, чтобы устранить перекос, и вернитесь к шагу 3.
  7. Гистограмма расстояния до ближайшего соседа имеет несколько пиков, и эти пики обычно представляют собой расстояние между символами, расстояние между словами и расстояние между строками. Рассчитайте эти значения по гистограмме и отложите их в сторону.
  8. Для каждого символа посмотрите на его ближайших соседей и отметьте всех из них, которые находятся на расстоянии, находящемся в пределах некоторого допуска между расстоянием между символами или расстоянием между словами. Для каждого помеченного символа ближайшего соседа нарисуйте отрезок линии, соединяющий их центроиды.
  9. Символы, соединенные со своими соседями отрезками линий, образуют текстовые строки . Используя все центроиды текстовой строки, можно вычислить фактический сегмент линии, представляющий текстовую строку, с помощью линейной регрессии. Это важно, поскольку маловероятно, что все центроиды символов в текстовой строке на самом деле коллинеарны.
  10. Для каждой пары текстовых строк можно вычислить минимальное расстояние между соответствующими сегментами строк. Если это расстояние находится в пределах некоторого допуска по отношению к межстрочному интервалу, рассчитанному на шаге 7, то две текстовые строки группируются в один текстовый блок .
  11. Наконец, можно рассчитать ограничивающую рамку для каждого текстового блока, и анализ макета документа завершен.

Программное обеспечение для анализа макета

[ редактировать ]
  • OCRopus — бесплатная система анализа макета документа и система оптического распознавания символов, реализованная на C++ и Python, а также для FreeBSD, Linux и Mac OS X. Это программное обеспечение поддерживает архитектуру подключаемых модулей, которая позволяет пользователю выбирать из множества различных методов анализа макета документа и Алгоритмы оптического распознавания символов.
  • OCRFeeder — пакет OCR для Linux, написанный на Python, который также поддерживает анализ макета документа. Это программное обеспечение активно разрабатывается, является бесплатным и имеет открытый исходный код.

См. также

[ редактировать ]
[ редактировать ]

Дальнейшее чтение

[ редактировать ]
  • О'Горман, Л. (1993). «Спектр документов для анализа макета страницы». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 15 (11): 1162–1173. дои : 10.1109/34.244677 .
  • Саймон, А.; Прет, Ж.-К.; Джонсон, AP (1997). «Быстрый алгоритм восходящего анализа макета документа». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 19 (3): 273–277. дои : 10.1109/34.584106 .
  • Сон-Ван Ли; Дэ-Сок Рю (2001). «Безпараметрический геометрический анализ компоновки документа». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 23 (11): 1240–1256. дои : 10.1109/34.969115 .
  • Денгель, Андреас; Барт, Герхард (1989). «АНАСТАСИЛ: гибридная интеллектуальная система для анализа верстки документов» . Иджкай'89: 1249–1254. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  1. ^ Бэрд, Канзас (июль 1992 г.). «Анатомия универсального устройства чтения страниц». Труды IEEE . 80 (7): 1059–1065. CiteSeerX   10.1.1.40.8060 . дои : 10.1109/5.156469 .
  2. ^ Каттони, Р.; Кояниз, Т.; Месселоди, С.; Модена, К.М. «Методы анализа геометрической компоновки для понимания изображения документа: обзор. Первый технический отчет ITC TR № 9703-09». {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  3. ^ Jump up to: а б О'Горман, Л. (1993). «Спектр документов для анализа макета страницы». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 15 (11): 1162–1173. дои : 10.1109/34.244677 .
  4. ^ Jump up to: а б с д Сон-Ван Ли; Дэ-Сок Рю (2001). «Безпараметрический геометрический анализ компоновки документа». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 23 (11): 1240–1256. CiteSeerX   10.1.1.574.7875 . дои : 10.1109/34.969115 .
  5. ^ Ха, Джэкю; Харалик, Роберт М.; Филлипс, Ихсин Т. (1995). «Рекурсивный разрез XY с использованием ограничивающих рамок связанных компонентов» (PDF) . Материалы Третьей Международной конференции по анализу и распознаванию документов (ICDAR '95) .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8b1ab9c88298c3c287255ff51a892865__1714018260
URL1:https://arc.ask3.ru/arc/aa/8b/65/8b1ab9c88298c3c287255ff51a892865.html
Заголовок, (Title) документа по адресу, URL1:
Document layout analysis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)