OCRFeeder
Разработчик(и) | Хоаким Роша ( Игалия ) |
---|---|
Первоначальный выпуск | март 2009 г |
Стабильная версия | 0.8.5 / 15 марта 2022 г [1] |
Репозиторий | |
Написано в | Питон , ПиГТК |
Операционная система | Linux , Unix-подобный |
Доступно в | Интерфейс: чешский , датский , немецкий , английский , испанский , французский , галисийский , итальянский , норвежский (букмол) , португальский , румынский , словенский , шведский , китайский [2] Распознавание: зависит от используемого механизма оптического распознавания символов. |
Тип | Оптическое распознавание символов |
Лицензия | GPL ( свободное программное обеспечение ) |
Веб-сайт | неделя |
OCRFeeder — это пакет оптического распознавания символов для GNOME , который также поддерживает практически любой механизм OCR командной строки, такой как CuneiForm , GOCR , Ocrad и Tesseract . Он преобразует бумажные документы в файлы цифровых документов и может служить для того, чтобы сделать их доступными для пользователей с нарушениями зрения.
OCRFeeder — это бесплатное программное обеспечение с открытым исходным кодом , на которое распространяются условия GNU General Public License (GPL) версии 3 или более поздней. Он доступен для Linux и других Unix-подобных операционных систем.
История
[ редактировать ]OCRFeeder был основан как магистерская диссертация в области компьютерных наук . Хоакимом Роша [3] который позже был нанят Igalia , SL и продолжил там развитие. [4] [5]
Первая версия была опубликована в марте 2009 года. [6] Проект OCRFeeder изначально был опубликован и размещен на Google Code , временно использовался Gitorious. [7] и теперь использует инфраструктуру GNOME. [8] С 5 апреля 2010 года пакет программного обеспечения включен в официальные репозитории Debian. [9]
В версии 0.7 от 30 июля 2010 г. добавлены функции предварительной обработки изображений, а в версии 0.7.1 (8 ноября 2010 г.) включен доступ к сканеру из OCRFeeder.
Функции
[ редактировать ]OCRFeeder имеет простой графический пользовательский интерфейс, разработанный в соответствии с рекомендациями GNOME Human Interface Guidelines .Он выполняет анализ макета документа и переносит макет в совместимые выходные форматы. Он ищет области контента, выделяет их, угадывает тип контента (текст или изображение) и обрабатывает текстовые области через серверную часть OCR. Он может использовать практически любой механизм OCR командной строки в качестве серверной части и обеспечивает автоматическое обнаружение и автоматическую настройку для всех популярных бесплатных механизмов. Серверные части OCR могут быть либо настроены автоматически, необходимая командная строка вводится в диалоговом окне графического интерфейса, либо настроена непосредственно через XML- файл. Возможна постобработка отсканированного изображения, включая устранение перекоса. [10] Все результаты распознавания можно просмотреть и отредактировать перед сохранением в желаемом выходном формате. Сессии можно сохранять и загружать. В комплект также входит программа проверки орфографии . [11] OCRFeeder имеет встроенные процедуры для постобработки необработанных результатов OCR, возвращаемых механизмом OCR. Он может удалить оставшуюся сегментацию печатных строк текста, даже при удалении переносов.
Хотя OCRFeeder — это инструмент с графическим пользовательским интерфейсом, он также может работать в режиме командной строки (как ocrfeeder-cli), что может быть полезным инструментом для автоматической пакетной обработки документов . [12] В этом режиме OCRFeeder использует механизм OCR по умолчанию, который пользователь может установить в настройках приложения. [13] [14]
Программа написана на Python и использует библиотеку GTK+ (с использованием PyGTK ). [12] Он действует как графический интерфейс для других существующих инструментов. Например, он не выполняет фактическое распознавание символов сам, а использует внешние программы, такие как «движок OCR», установленный в системе. Он может автоматически обнаруживать и настраивать CuneiForm , GOCR , Ocrad и Tesseract в качестве серверных механизмов OCR. [15] Доступ к сканерам осуществляется через SANE . Для постобработки отсканированных изображений предусмотрена интеграция инструмента командной строки «Unpaper», [12] среди прочего.PDF-файлы обрабатываются с помощью Ghostscript на серверной стороне.
Ввод и вывод
[ редактировать ]OCRFeeder может импортировать данные из PDF или графических файлов . Начиная с версии 0.7.1a, поддерживается получение изображений непосредственно со сканера . [11]
Результаты могут быть сохранены в HTML , OpenDocument , простом тексте. [16] или PDF [17] форматы файлов. hOCR . Также планируется вывод файла [3] Первоначальное форматирование можно выполнить прямо в программе.
Ссылки
[ редактировать ]- ^ «FTP-архив GNOME, файл новостей OCRFeeder 0.8.5» . Проверено 10 ноября 2022 г.
- ^ «Репозиторий исходного кода GNOME GIT, файл LINGUAS» . Проверено 9 февраля 2011 г.
- ^ Перейти обратно: а б «OCRFeeder — GNOME Live!» . Проверено 9 февраля 2011 г.
- ^ «Продукты» . Игалия . Проверено 24 ноября 2012 г.
- ^ Роча, Хоаким (14 января 2013 г.). «Ветер перемен» . Проверено 4 сентября 2013 г.
- ^ OCRFeeder, Google Code
- ^ wiki.gnome.org Различия между редакциями 2 и 3
- ^ wiki.gnome.org - Различия между редакциями 5 и 6.
- ^ Журнал изменений Debian ocrfeeder (0.6.6+dfsg1-1)
- ^ «Репозиторий исходного кода GNOME GIT, файл NEWS» . Проверено 3 февраля 2011 г.
- ^ Перейти обратно: а б Роча, Хоаким (9 ноября 2010 г.). «Выпущена версия OCRFeeder 0.7.1a» . Проверено 9 февраля 2011 г.
- ^ Перейти обратно: а б с «Репозиторий исходного кода GNOME GIT, файл README» . Проверено 9 февраля 2011 г.
- ^ Манос (22 марта 2011 г.). «OCRFeeder 0.7.4: Оцифруйте свои документы» . ОСАрена . Проверено 8 июня 2011 г.
- ^ Хейда, Вацлав (26 мая 2011 г.). «OCRFeeder — полезный распознаватель текста, который, однако, не знает чешского языка» . LinuxEXPRES.cz . "ККМ" ООО Проверено 8 июня 2011 г.
- ^ «Репозиторий исходного кода GNOME GIT, файл Configuration.py» . Проверено 3 февраля 2011 г.
- ^ OCRFeeder Версия 0.7.4 Новые возможности
- ^ Версия 0.7.6