OCRFeeder

OCRFeeder
Разработчик(и)	Хоаким Роша ( Игалия )
Первоначальный выпуск	март 2009 г .; 15 лет назад
Стабильная версия	0.8.5 / 15 марта 2022 г .; 2 года назад
Репозиторий	gitlab .гном .org /ГНОМ /ocrfeeder ;
Написано в	Питон , ПиГТК
Операционная система	Linux , Unix-подобный
Доступно в	Интерфейс: чешский , датский , немецкий , английский , испанский , французский , галисийский , итальянский , норвежский (букмол) , португальский , румынский , словенский , шведский , китайский ; Распознавание: зависит от используемого механизма оптического распознавания символов.
Тип	Оптическое распознавание символов
Лицензия	GPL ( свободное программное обеспечение )
Веб-сайт	неделя .гном .org /действие /показывать /Приложения /OCRFeeder

OCRFeeder — это пакет оптического распознавания символов для GNOME , который также поддерживает практически любой механизм OCR командной строки, такой как CuneiForm , GOCR , Ocrad и Tesseract . Он преобразует бумажные документы в файлы цифровых документов и может служить для того, чтобы сделать их доступными для пользователей с нарушениями зрения.

OCRFeeder — это бесплатное программное обеспечение с открытым исходным кодом , на которое распространяются условия GNU General Public License (GPL) версии 3 или более поздней. Он доступен для Linux и других Unix-подобных операционных систем.

История

OCRFeeder был основан как магистерская диссертация в области компьютерных наук . Хоакимом Роша ^[3] который позже был нанят Igalia , SL и продолжил там развитие. ^[4]^[5]

Первая версия была опубликована в марте 2009 года. ^[6] Проект OCRFeeder изначально был опубликован и размещен на Google Code , временно использовался Gitorious. ^[7] и теперь использует инфраструктуру GNOME. ^[8] С 5 апреля 2010 года пакет программного обеспечения включен в официальные репозитории Debian. ^[9]

В версии 0.7 от 30 июля 2010 г. добавлены функции предварительной обработки изображений, а в версии 0.7.1 (8 ноября 2010 г.) включен доступ к сканеру из OCRFeeder.

Функции

OCRFeeder имеет простой графический пользовательский интерфейс, разработанный в соответствии с рекомендациями GNOME Human Interface Guidelines .Он выполняет анализ макета документа и переносит макет в совместимые выходные форматы. Он ищет области контента, выделяет их, угадывает тип контента (текст или изображение) и обрабатывает текстовые области через серверную часть OCR. Он может использовать практически любой механизм OCR командной строки в качестве серверной части и обеспечивает автоматическое обнаружение и автоматическую настройку для всех популярных бесплатных механизмов. Серверные части OCR могут быть либо настроены автоматически, необходимая командная строка вводится в диалоговом окне графического интерфейса, либо настроена непосредственно через XML- файл. Возможна постобработка отсканированного изображения, включая устранение перекоса. ^[10] Все результаты распознавания можно просмотреть и отредактировать перед сохранением в желаемом выходном формате. Сессии можно сохранять и загружать. В комплект также входит программа проверки орфографии . ^[11] OCRFeeder имеет встроенные процедуры для постобработки необработанных результатов OCR, возвращаемых механизмом OCR. Он может удалить оставшуюся сегментацию печатных строк текста, даже при удалении переносов.

Хотя OCRFeeder — это инструмент с графическим пользовательским интерфейсом, он также может работать в режиме командной строки (как ocrfeeder-cli), что может быть полезным инструментом для автоматической пакетной обработки документов . ^[12] В этом режиме OCRFeeder использует механизм OCR по умолчанию, который пользователь может установить в настройках приложения. ^[13]^[14]

Программа написана на Python и использует библиотеку GTK+ (с использованием PyGTK ). ^[12]Он действует как графический интерфейс для других существующих инструментов. Например, он не выполняет фактическое распознавание символов сам, а использует внешние программы, такие как «движок OCR», установленный в системе. Он может автоматически обнаруживать и настраивать CuneiForm , GOCR , Ocrad и Tesseract в качестве серверных механизмов OCR. ^[15] Доступ к сканерам осуществляется через SANE . Для постобработки отсканированных изображений предусмотрена интеграция инструмента командной строки «Unpaper», ^[12] среди прочего.PDF-файлы обрабатываются с помощью Ghostscript на серверной стороне.

Ввод и вывод

OCRFeeder может импортировать данные из PDF или графических файлов . Начиная с версии 0.7.1a, поддерживается получение изображений непосредственно со сканера . ^[11]

Результаты могут быть сохранены в HTML , OpenDocument , простом тексте. ^[16] или PDF ^[17] форматы файлов. hOCR . Также планируется вывод файла ^[3] Первоначальное форматирование можно выполнить прямо в программе.

Ссылки

^ «FTP-архив GNOME, файл новостей OCRFeeder 0.8.5» . Проверено 10 ноября 2022 г.
^ «Репозиторий исходного кода GNOME GIT, файл LINGUAS» . Проверено 9 февраля 2011 г.
^ Перейти обратно: ^а ^б «OCRFeeder — GNOME Live!» . Проверено 9 февраля 2011 г.
^ «Продукты» . Игалия . Проверено 24 ноября 2012 г.
^ Роча, Хоаким (14 января 2013 г.). «Ветер перемен» . Проверено 4 сентября 2013 г.
^ OCRFeeder, Google Code
^ wiki.gnome.org Различия между редакциями 2 и 3
^ wiki.gnome.org - Различия между редакциями 5 и 6.
^ Журнал изменений Debian ocrfeeder (0.6.6+dfsg1-1)
^ «Репозиторий исходного кода GNOME GIT, файл NEWS» . Проверено 3 февраля 2011 г.
^ Перейти обратно: ^а ^б Роча, Хоаким (9 ноября 2010 г.). «Выпущена версия OCRFeeder 0.7.1a» . Проверено 9 февраля 2011 г.
^ Перейти обратно: ^а ^б ^с «Репозиторий исходного кода GNOME GIT, файл README» . Проверено 9 февраля 2011 г.
^ Манос (22 марта 2011 г.). «OCRFeeder 0.7.4: Оцифруйте свои документы» . ОСАрена . Проверено 8 июня 2011 г.
^ Хейда, Вацлав (26 мая 2011 г.). «OCRFeeder — полезный распознаватель текста, который, однако, не знает чешского языка» . LinuxEXPRES.cz . "ККМ" ООО Проверено 8 июня 2011 г.
^ «Репозиторий исходного кода GNOME GIT, файл Configuration.py» . Проверено 3 февраля 2011 г.
^ OCRFeeder Версия 0.7.4 Новые возможности
^ Версия 0.7.6

Внешние ссылки

Официальный сайт

[1] «FTP-архив GNOME, файл новостей OCRFeeder 0.8.5» . Проверено 10 ноября 2022 г.

[2] «Репозиторий исходного кода GNOME GIT, файл LINGUAS» . Проверено 9 февраля 2011 г.

[homepage-3] Перейти обратно: ^а ^б «OCRFeeder — GNOME Live!» . Проверено 9 февраля 2011 г.

[4] «Продукты» . Игалия . Проверено 24 ноября 2012 г.

[5] Роча, Хоаким (14 января 2013 г.). «Ветер перемен» . Проверено 4 сентября 2013 г.

[6] OCRFeeder, Google Code

[7] wiki.gnome.org Различия между редакциями 2 и 3

[8] wiki.gnome.org - Различия между редакциями 5 и 6.

[9] Журнал изменений Debian ocrfeeder (0.6.6+dfsg1-1)

[10] «Репозиторий исходного кода GNOME GIT, файл NEWS» . Проверено 3 февраля 2011 г.

[0.7.1a-11] Перейти обратно: ^а ^б Роча, Хоаким (9 ноября 2010 г.). «Выпущена версия OCRFeeder 0.7.1a» . Проверено 9 февраля 2011 г.

[readme-12] Перейти обратно: ^а ^б ^с «Репозиторий исходного кода GNOME GIT, файл README» . Проверено 9 февраля 2011 г.

[13] Манос (22 марта 2011 г.). «OCRFeeder 0.7.4: Оцифруйте свои документы» . ОСАрена . Проверено 8 июня 2011 г.

[14] Хейда, Вацлав (26 мая 2011 г.). «OCRFeeder — полезный распознаватель текста, который, однако, не знает чешского языка» . LinuxEXPRES.cz . "ККМ" ООО Проверено 8 июня 2011 г.

[15] «Репозиторий исходного кода GNOME GIT, файл Configuration.py» . Проверено 3 февраля 2011 г.

[16] OCRFeeder Версия 0.7.4 Новые возможности

[17] Версия 0.7.6

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

v т и для оптического распознавания символов Программное обеспечение
Free software	CuneiForm GOCR Ocrad OCRFeeder OCRopus Tesseract
Proprietary software	ABBYY FineReader Adobe Acrobat Pro Asprise OCR Microsoft Office Document Imaging OmniPage ReadSoft SmartScore TeleForm VueScan
See also	Comparison of optical character recognition software