Jump to content

OCRFeeder

OCRFeeder
Разработчик(и) Хоаким Роша ( Игалия )
Первоначальный выпуск март 2009 г .; 15 лет назад ( 2009-03 )
Стабильная версия
0.8.5 / 15 марта 2022 г .; 2 года назад ( 15.03.2022 ) [1]
Репозиторий
Написано в Питон , ПиГТК
Операционная система Linux , Unix-подобный
Доступно в Интерфейс: чешский , датский , немецкий , английский , испанский , французский , галисийский , итальянский , норвежский (букмол) , португальский , румынский , словенский , шведский , китайский [2]
Распознавание: зависит от используемого механизма оптического распознавания символов.
Тип Оптическое распознавание символов
Лицензия GPL ( свободное программное обеспечение )
Веб-сайт неделя .гном .org /действие /показывать /Приложения /OCRFeeder  Edit this on Wikidata

OCRFeeder — это пакет оптического распознавания символов для GNOME , который также поддерживает практически любой механизм OCR командной строки, такой как CuneiForm , GOCR , Ocrad и Tesseract . Он преобразует бумажные документы в файлы цифровых документов и может служить для того, чтобы сделать их доступными для пользователей с нарушениями зрения.

OCRFeeder — это бесплатное программное обеспечение с открытым исходным кодом , на которое распространяются условия GNU General Public License (GPL) версии 3 или более поздней. Он доступен для Linux и других Unix-подобных операционных систем.

Хоаким Роча представляет OCRFeeder на саммите настольных компьютеров Гран-Канарии в июле 2009 г.

OCRFeeder был основан как магистерская диссертация в области компьютерных наук . Хоакимом Роша [3] который позже был нанят Igalia , SL и продолжил там развитие. [4] [5]

Первая версия была опубликована в марте 2009 года. [6] Проект OCRFeeder изначально был опубликован и размещен на Google Code , временно использовался Gitorious. [7] и теперь использует инфраструктуру GNOME. [8] С 5 апреля 2010 года пакет программного обеспечения включен в официальные репозитории Debian. [9]

В версии 0.7 от 30 июля 2010 г. добавлены функции предварительной обработки изображений, а в версии 0.7.1 (8 ноября 2010 г.) включен доступ к сканеру из OCRFeeder.

OCRFeeder имеет простой графический пользовательский интерфейс, разработанный в соответствии с рекомендациями GNOME Human Interface Guidelines .Он выполняет анализ макета документа и переносит макет в совместимые выходные форматы. Он ищет области контента, выделяет их, угадывает тип контента (текст или изображение) и обрабатывает текстовые области через серверную часть OCR. Он может использовать практически любой механизм OCR командной строки в качестве серверной части и обеспечивает автоматическое обнаружение и автоматическую настройку для всех популярных бесплатных механизмов. Серверные части OCR могут быть либо настроены автоматически, необходимая командная строка вводится в диалоговом окне графического интерфейса, либо настроена непосредственно через XML- файл. Возможна постобработка отсканированного изображения, включая устранение перекоса. [10] Все результаты распознавания можно просмотреть и отредактировать перед сохранением в желаемом выходном формате. Сессии можно сохранять и загружать. В комплект также входит программа проверки орфографии . [11] OCRFeeder имеет встроенные процедуры для постобработки необработанных результатов OCR, возвращаемых механизмом OCR. Он может удалить оставшуюся сегментацию печатных строк текста, даже при удалении переносов.

Хотя OCRFeeder — это инструмент с графическим пользовательским интерфейсом, он также может работать в режиме командной строки (как ocrfeeder-cli), что может быть полезным инструментом для автоматической пакетной обработки документов . [12] В этом режиме OCRFeeder использует механизм OCR по умолчанию, который пользователь может установить в настройках приложения. [13] [14]

Программа написана на Python и использует библиотеку GTK+ (с использованием PyGTK ). [12] Он действует как графический интерфейс для других существующих инструментов. Например, он не выполняет фактическое распознавание символов сам, а использует внешние программы, такие как «движок OCR», установленный в системе. Он может автоматически обнаруживать и настраивать CuneiForm , GOCR , Ocrad и Tesseract в качестве серверных механизмов OCR. [15] Доступ к сканерам осуществляется через SANE . Для постобработки отсканированных изображений предусмотрена интеграция инструмента командной строки «Unpaper», [12] среди прочего.PDF-файлы обрабатываются с помощью Ghostscript на серверной стороне.

Ввод и вывод

[ редактировать ]

OCRFeeder может импортировать данные из PDF или графических файлов . Начиная с версии 0.7.1a, поддерживается получение изображений непосредственно со сканера . [11]

Результаты могут быть сохранены в HTML , OpenDocument , простом тексте. [16] или PDF [17] форматы файлов. hOCR . Также планируется вывод файла [3] Первоначальное форматирование можно выполнить прямо в программе.

  1. ^ «FTP-архив GNOME, файл новостей OCRFeeder 0.8.5» . Проверено 10 ноября 2022 г.
  2. ^ «Репозиторий исходного кода GNOME GIT, файл LINGUAS» . Проверено 9 февраля 2011 г.
  3. ^ Перейти обратно: а б «OCRFeeder — GNOME Live!» . Проверено 9 февраля 2011 г.
  4. ^ «Продукты» . Игалия . Проверено 24 ноября 2012 г.
  5. ^ Роча, Хоаким (14 января 2013 г.). «Ветер перемен» . Проверено 4 сентября 2013 г.
  6. ^ OCRFeeder, Google Code
  7. ^ wiki.gnome.org Различия между редакциями 2 и 3
  8. ^ wiki.gnome.org - Различия между редакциями 5 и 6.
  9. ^ Журнал изменений Debian ocrfeeder (0.6.6+dfsg1-1)
  10. ^ «Репозиторий исходного кода GNOME GIT, файл NEWS» . Проверено 3 февраля 2011 г.
  11. ^ Перейти обратно: а б Роча, Хоаким (9 ноября 2010 г.). «Выпущена версия OCRFeeder 0.7.1a» . Проверено 9 февраля 2011 г.
  12. ^ Перейти обратно: а б с «Репозиторий исходного кода GNOME GIT, файл README» . Проверено 9 февраля 2011 г.
  13. ^ Манос (22 марта 2011 г.). «OCRFeeder 0.7.4: Оцифруйте свои документы» . ОСАрена . Проверено 8 июня 2011 г.
  14. ^ Хейда, Вацлав (26 мая 2011 г.). «OCRFeeder — полезный распознаватель текста, который, однако, не знает чешского языка» . LinuxEXPRES.cz . "ККМ" ООО Проверено 8 июня 2011 г.
  15. ^ «Репозиторий исходного кода GNOME GIT, файл Configuration.py» . Проверено 3 февраля 2011 г.
  16. ^ OCRFeeder Версия 0.7.4 Новые возможности
  17. ^ Версия 0.7.6
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 88413edfadbe5d685ed2772530e4268c__1702435320
URL1:https://arc.ask3.ru/arc/aa/88/8c/88413edfadbe5d685ed2772530e4268c.html
Заголовок, (Title) документа по адресу, URL1:
OCRFeeder - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)