Сравнение программного обеспечения для оптического распознавания символов
(Перенаправлено из OCR SDK )
Это сравнение программного обеспечения для оптического распознавания символов включает в себя:
- Механизмы OCR, которые выполняют фактическую идентификацию символов.
- Программное обеспечение для анализа макета, которое делит отсканированные документы на зоны, подходящие для оптического распознавания символов.
- Графические интерфейсы к одному или нескольким механизмам OCR
- Комплекты разработки программного обеспечения , которые используются для добавления возможностей оптического распознавания символов в другое программное обеспечение (например, приложения для обработки форм, системы управления изображениями документов, системы электронного обнаружения , решения для управления записями)
Имя | Год основания | Последняя стабильная версия | Год выпуска | Лицензия | Онлайн | Окна | Мак ОС Х | Линукс | БСД | Андроид | iOS | Язык программирования | СДК ? | Языки | Шрифты | Выходные форматы | Примечания |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ABBYY FineReader | 1989 | 16 | 2022 | Собственный | Да | Да | Да | Нет | Да | Да | Да | С/С++ | Да | 192 [ 1 ] | Все шрифты | DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 [ 2 ] | ABBYY также поставляет SDK для встраиваемых и мобильных устройств. Выпуски Professional, Corporate и Site License для Windows, Express Edition для Mac. [ 3 ] |
Программное обеспечение AnyDoc | 1989 | ? | ? | Собственный | Нет | Да | Нет | Нет | Нет | ? | ? | VBScript | ? | ? | ? | Работает со структурированными, полуструктурированными и неструктурированными документами. | |
Asprise OCR SDK | 1998 | 15 | 2015 | Собственный | Да | Да | Да | Да | Да | ? | ? | Java, C#, VB.NET, C/C++/Delphi | Да | 20+ [ 4 ] | ? | Обычный текст, PDF с возможностью поиска, XML [ 5 ] | Пакеты SDK для Java, C#, VB.NET, C/C++/Delphi для оптического распознавания символов и распознавания штрих-кодов в Windows, Linux, Mac OS X и Unix. [ 6 ] |
КунейФорм | 1996 | 1.1 | 2011 | BSD вариант | Нет | Да | Да | Да | Да | ? | ? | С/С++ | Да | 28 | Любой печатный шрифт | HTML, hOCR, собственный, RTF, TeX , TXT [ 7 ] | Система корпоративного класса, сохраняет форматирование текста и распознает сложные таблицы любой структуры. |
Э-акшараян | 2010 | Да | Нет | Да | Нет | ? | ? | 14 | RTF, ТХТ, БРЛ | ||||||||
ГОКР | 2000 | 0.52 [ 8 ] | 2018 | лицензия GPL | Да [ 9 ] | Да | Да | Да | Да | ? | ? | С | ? | 20+ | ? | ||
Google Drive OCR или Google Cloud Vision | 2015 | Собственный | Да | Браузер | Браузер | Браузер | Неизвестный | ? | ? | Неизвестный | Да | 200+ | Все шрифты | текст | Сообщение в блоге Google [ 10 ] [ 11 ] | ||
Обработка изображений документов Microsoft Office | ? | Офис 2007 | 2007 | Собственный | Нет | Да | Нет | Нет | Нет | ? | ? | ? | ? | ? | ? | Использует OmniPage [ нужна ссылка ] | |
Microsoft Office OneNote 2007 | 2011 | ? | 2007 | Собственный | Нет | Да | Нет | Нет | Нет | ? | ? | ? | ? | ? | ? | ||
OCRFeeder | 2009-03 | 0.8.5 | 2022 | лицензия GPL | Нет | Нет | Нет | Да | Нет | ? | ? | Питон | ? | ? | ? | Имеет полный пользовательский интерфейс и инструмент командной строки для автоматических операций. Имеет собственный алгоритм сегментации, но использует общесистемные механизмы оптического распознавания символов, такие как Tesseract или Ocrad. | |
Окрад | ? | 0.28 [ 12 ] | 2022 | лицензия GPL | Да | Нет | Да | Да | Да | ? | ? | С++ | Да | Латинский алфавит | ? | Командная строка | |
ОКРопус | 2007 | 1.3.3 | 2017 | Апач | Нет | Нет | Да | Да | Да | ? | ? | Питон | ? | Все языки с использованием латиницы (другие языки можно обучить) | Обычная латиница и Fraktur (другие скрипты можно обучить) | ТХТ, hOCR, [ 13 ] PDF [ 14 ] | Подключаемая платформа в активной разработке, используется для Google Книг. |
ОмниПейдж | 1970-е годы | 19.2 | 2015 | Собственный | Да | Да | Да | Да | Нет | ? | ? | С/С++, С# [ 15 ] | Да | 125 [ 16 ] | Машинные и ручные шрифты | DOC/DOCX XLS/XLSX PPTX RTF PDF PDF/A PDF/A с возможностью поиска PDF HTML Текст XML ePUB MP3 | Продукт Nuance Communications |
Puma.NET | ? | ? | 2009 | БСД | Нет | Да | Нет | Нет | Нет | ? | ? | С# | Да | 28 | Любой печатный шрифт | .NET OCR SDK на основе механизма распознавания CuneiForm компании Cognitive Technologies. Обертывает COM-сервер Puma и предоставляет упрощенный API для приложений .NET. | |
ReadSoft | ? | ? | ? | Собственный | Нет | Да | Нет | Нет | Нет | ? | ? | ? | ? | ? | ? | Сканируйте, фиксируйте и классифицируйте бизнес-документы, такие как счета-фактуры, формы и заказы на поставку, интегрированные с бизнес-процессами. | |
Скантрон | ? | ? | ? | Собственный | Нет | Да | Нет | Нет | Нет | ? | ? | ? | ? | ? | ? | Для работы с локализованными интерфейсами необходима соответствующая языковая поддержка. | |
СмартСкор | 1991 | 10.5.8 | 2015 | Собственный | Нет | Да | Да | Нет | Нет | ? | ? | ? | ? | ? | ? | Для музыкальных партитур | |
Тессеракт | 1985 | 5.3.3 | 2023 | Апач | Нет | Да | Да | Да | Да | ? | ? | С++, С | Да | 100+ [ 17 ] | Любой печатный шрифт | Текст, ALTO , hOCR , [ 18 ] PDF, другие с другим пользовательским интерфейсом [ 19 ] или API | Создано Hewlett-Packard ; находится в стадии дальнейшей разработки Google [ 20 ] |
Имя | Год основания | Последняя стабильная версия | Год выпуска | Лицензия | Онлайн | Окна | Мак ОС Х | Линукс | БСД | Андроид | iOS | Язык программирования | SDK? | Языки | Шрифты | Выходные форматы | Примечания |
Оценка
[ редактировать ]Анализ точности и надежности пакетов OCR Google Docs OCR, Tesseract, ABBYY FineReader и Transym, проведенный в 2016 году с использованием набора данных, включающего 1227 изображений из 15 различных категорий, показал, что Google Docs OCR и ABBYY работают лучше, чем другие. [ 21 ]
Ссылки
[ редактировать ]- ^ «ABBYY FineReader 14: Технические характеристики» . Finereader.abbyy.com . Проверено 23 февраля 2017 г.
- ^ «ABBYY FineReader 11: Технические характеристики» . Finereader.abbyy.com . Проверено 12 сентября 2013 г.
- ^ «Лучшее программное обеспечение для оптического распознавания символов» . Ocrworld.com. 30 марта 2010 г. Архивировано из оригинала 23 февраля 2017 г. Проверено 12 сентября 2013 г.
- ^ «Функции Asprise OCR SDK» . asprise.com . Проверено 21 июня 2014 г.
- ^ «Функции библиотеки Asprise Java OCR» . asprise.com . Проверено 21 июня 2014 г.
- ^ «Asprise Java, C#/VB.NET OCR API» . asprise.com. 19 ноября 2015 г. Проверено 19 ноября 2015 г.
- ^ Страница руководства Debian для Cuneiform для Linux версии 1.1.0.
- ^ «Домашняя страница GOCR» . wasd.urz.uni-magdeburg.de . Проверено 17 октября 2018 г.
- ^ «ГОКР» . Jocr.sourceforge.net . Проверено 12 сентября 2013 г.
- ^ «Поддерживаемые языки» . 11 февраля 2022 г.
- ^ Ашок Попат (4 сентября 2015 г.). «IEEE SPS: оптическое распознавание символов для большинства языков мира» . Ютуб . Архивировано из оригинала 20 декабря 2021 г.
- ^ Диас, Антонио (17 января 2022 г.). «Выпущен GNU Ocrad 0.28» (список рассылки). информация-гну.
- ^ OCRopus включает инструмент ocropus-hocr, который производит hOCR на основе результатов распознавания.
- ^ В сочетании с hocr-инструментами
- ^ «OmniPage CSDK — набор инструментов для захвата документов OCR | Обработка изображений документов и OCR» . Нюанс. Архивировано из оригинала 24 августа 2010 г. Проверено 12 сентября 2013 г.
- ^ «Преобразование стандартных документов OmniPage» . Нюанс. Архивировано из оригинала 13 марта 2014 г. Проверено 25 февраля 2014 г.
- ^ На основе количества файлов языкового обучения для версии 3.04. Доступно на странице загрузки .
- ^ Использование описано в Readme и FAQ по Tesseract.
- ^ Например, ODF с OCRFeeder.
- ^ «GitHub — tesseract-ocr/tesseract: Механизм OCR Tesseract с открытым исходным кодом (основной репозиторий)» . Гитхаб . Проверено 5 ноября 2018 г.
- ^ Ассефи, Мехди (1 декабря 2016 г.). «OCR как услуга: экспериментальная оценка оптического распознавания символов Google Docs, Tesseract, ABBYY FineReader и Transym» . Исследовательские ворота . Проверено 31 января 2019 г.