Jump to content

HOCR

hOCR — это открытый стандарт представления данных для форматированного текста, полученного в результате оптического распознавания символов (OCR). Определение кодирует текст, стиль, информацию о макете, показатели достоверности распознавания и другую информацию с использованием расширяемого языка разметки (XML) в форме языка гипертекстовой разметки (HTML) или XHTML . [1]

Программное обеспечение

[ редактировать ]

Следующее программное обеспечение OCR может выводить результат распознавания в виде файла hOCR:

Следующий пример представляет собой фрагмент файла hOCR:

...
<p class="ocr_par" lang="deu" title="bbox930">
  <span class="ocr_line" title="bbox 348 797 1482 838; baseline -0.009 -6">
    <span class="ocrx_word" title="bbox 348 805 402 832; x_wconf 93">Die</span> 
    <span class="ocrx_word" title="bbox 421 804 697 832; x_wconf 90">Darlehenssumme</span> 
    <span class="ocrx_word" title="bbox 717 803 755 831; x_wconf 96">ist</span> 
    <span class="ocrx_word" title="bbox 773 803 802 831; x_wconf 96">in</span> 
    <span class="ocrx_word" title="bbox 821 803 917 830; x_wconf 96">ihrem</span> 
    <span class="ocrx_word" title="bbox 935 799 1180 838; x_wconf 95">ursprünglichen</span> 
    <span class="ocrx_word" title="bbox 1199 797 1343 832; x_wconf 95">Umfange</span> 
    <span class="ocrx_word" title="bbox 1362 805 1399 823; x_wconf 95">zu</span> 
    <span class="ocrx_word" title="bbox 1417 x_wconf 96">ver-</span> 
  </span>
  ...

Распознанный текст сохраняется в обычных текстовых узлах HTML-файла. Распределение на отдельные строки и слова здесь задается окружающими тегами span . Более того, используются обычные объекты HTML, например тег p для абзаца. Дополнительная информация указана в таких свойствах, как:

  • различные элементы макета, такие как «ocr_par», «ocr_line», «ocrx_word»
  • геометрическая информация для каждого элемента с ограничивающей рамкой «bbox»
  • информация о языке "lang"
  • некоторые доверительные значения "x_wconf"

Макет объекта ограничивающей рамки или объекта bbox является грамматическим.

  • имя-свойства = "bbox"
  • значение свойства = uint uint uint uint
bbox 0 0 100 200

bbox — сокращение от «ограничивающая рамка» — элемента представляет собой прямоугольную рамку вокруг этого элемента, которая определяется верхним левым углом (x0, y0) и нижним правым углом (x1, y1).

значения относятся к верхнему левому углу изображения документа и измеряются в пикселях.

порядок значений: x0 y0 x1 y1 = «слева вверху справа внизу»

Использование
[ редактировать ]

Используйте x_bboxes ниже для ограничивающих рамок символов.

Не используйте bbox, если ограничивающая рамка компонента макета на самом деле не является прямоугольной; некоторые непрямоугольные компоненты макета могут иметь прямоугольные ограничивающие рамки, если непрямоугольность вызвана плавающими элементами, вокруг которых обтекается текст.

<span class="ocr_line" id="line_1" title="bbox 10 20 160 30"></span>

Ограничивающая рамка bbox этой линии показана синим цветом и охватывает верхний левый угол (10, 20) и нижний правый угол (160, 30). Все координаты измеряются относительно верхнего левого угла изображения документа, граница которого нарисована черным цветом. [3]

PDF-файлы с возможностью поиска

[ редактировать ]

Формат hOCR чаще всего используется для создания PDF-файлов с возможностью поиска или в качестве извлеченных метаданных PDF-файла. Для создания PDF-файлов с возможностью поиска мы можем использовать отсканированное изображение документа и файл .hocr конкретного изображения. Для этого мы можем использовать следующие инструменты с открытым исходным кодом.

hocr-инструменты

[ редактировать ]

Источник: [4]

hocr-tools — это библиотека с открытым исходным кодом, написанная на Python. К сценариям прикреплена утилита командной строки под названием hocr-pdf , которая позволяет нам конвертировать стандартные файлы hocr в PDF-файл с возможностью поиска. Также стоит отметить, что версию для работы с файлами hocr в RTL или нелатинскими алфавитами , такими как арабский необходимо использовать репозиторий GitHub , нам на данный момент .

hocr-pdf

Мы можем использовать утилиту hocr-pdf, используя следующий базовый синтаксис.

hocr-pdf—savefile final.pdf folder_images_and_hocr

Папка_images_and_hocr должна содержать соответствующие файлы формата .jpg и .hocr с измененными расширениями.

Известные проблемы

[ редактировать ]

Ниже приведены некоторые известные проблемы сценария hocr-pdf при установке PyPI.

  • Не обновлен репозиторий GitHub.
  • hocr-pdf не работает в строке 134 из-за того, что decodebytes() устарел после Python 3.1 [5]

Известные исправления

[ редактировать ]

Скомпилируйте hocr-tools, используя последний репозиторий GitHub.

hocr2pdf [6] — еще одна библиотека, поддерживающая преобразование файлов hocr. Он написан на C++ и совместим с другими библиотеками. Он также поддерживает языки UTF-8, но для этого может потребоваться дополнительная отладка и просмотр некоторых записей разговоров в Google.

Согласно руководствам Ubuntu ,

ExactImage — это быстрая библиотека обработки изображений C++. В отличие от многих других библиотечных фреймворков, он изначально позволяет работать в нескольких цветовых пространствах и битовых глубинах, что приводит к низким требованиям к памяти и вычислениям. hocr2pdf создает хорошо структурированные PDF-файлы с возможностью поиска из входных данных hOCR (аннотированный HTML ), полученных из системы оптического распознавания символов .

hOCR в PDF попытки

[ редактировать ]

Помимо следующих обсуждаемых и стабильных библиотек, за прошедшие годы в формат hOCR было внесено множество изменений при поддержке многих первых пользователей этого формата. Вы можете получить доступ к вложению текста в изображение с помощью hOCR и преобразованию его в файл PDF с использованием Python 2 с помощью этого 12-летнего сценария, начиная с 2021 года. Этот сценарий также можно обновить и сделать функциональным, преобразовав исходный код Python 2. Python 3 в контекст, поддерживаемый .

- HOCRConverter от jbrinley (Документация [7] )

HOCRКонвертер

[ редактировать ]

HOCRConverter — это сценарий, написанный на Python 2.x, который можно использовать для преобразования файла hOCR с указанным файлом изображения в PDF-файл с возможностью поиска. Вы можете просмотреть документацию по ссылке выше.

from HocrConverter import HocrConverter


hocr = HocrConverter("myHocrFile.html")  # this can be done by changing .hocr to .html and vice versa
hocr.to_text("output.txt")
hocr.to_pdf("myImageFile.png", "output.pdf")

Известные проблемы

[ редактировать ]
  • Не тестировался.
  • Не поддерживает Python 3.x изначально.

См. также

[ редактировать ]
  • ALTO (XML) — еще один формат представления данных OCR.
  1. ^ Брейэль, Т. (1 сентября 2007 г.). «Микроформат hOCR для рабочего процесса и результатов OCR» (PDF) . Девятая Международная конференция по анализу и распознаванию документов (ICDAR 2007), Том 2 . Том. 2. С. 1063–1067. дои : 10.1109/ICDAR.2007.4377078 . ISBN  978-0-7695-2822-9 . S2CID   7565957 .
  2. ^ «Документация Ghostscript» . www.hostscript.com . Проверено 1 марта 2024 г.
  3. ^ «hOCR — рабочий процесс и вывод OCR, встроенный в HTML» . kba.облако . Проверено 18 декабря 2021 г. Общественное достояние В данную статью включен текст из этого источника, находящегося в свободном доступе .
  4. ^ окропус, окропус (12 декабря 2021 г.). "hocr-инструменты" . Гитхаб .
  5. ^ Ахмад, Муниб (12 декабря 2021 г.). "decodebytes() Устарело в hocr-pdf, используйте decodestring()" . Гитхаб . Проверено 12 декабря 2021 г. /home/muneeb/.local/bin/hocr-pdf:134: DeprecationWarning: decodestring() является устаревшим псевдонимом, начиная с Python 3.1, используйте uncompressed decodebytes() = bytearray(zlib.decompress(base64.decodestring(font)))
  6. ^ «Страница руководства Ubuntu: Hocr2pdf — конвертер hOCR в PDF из набора инструментов ExactImage» .
  7. ^ Бринли, Джонатан (2 апреля 2009 г.). «Конвертировать hOCR в PDF» . х+3 . Архивировано из оригинала 06 февраля 2021 г. Проверено 12 декабря 2021 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e48a11e4b0df635f7d211828f4a3ea3b__1717381980
URL1:https://arc.ask3.ru/arc/aa/e4/3b/e48a11e4b0df635f7d211828f4a3ea3b.html
Заголовок, (Title) документа по адресу, URL1:
hOCR - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)