Jump to content

Сравнение программного обеспечения для оптического распознавания символов

(Перенаправлено из OCR SDK )

Это сравнение программного обеспечения для оптического распознавания символов включает в себя:

  • Механизмы OCR, которые выполняют фактическую идентификацию символов.
  • Программное обеспечение для анализа макета, которое делит отсканированные документы на зоны, подходящие для оптического распознавания символов.
  • Графические интерфейсы к одному или нескольким механизмам OCR
  • Комплекты разработки программного обеспечения , которые используются для добавления возможностей оптического распознавания символов в другое программное обеспечение (например, приложения для обработки форм, системы управления изображениями документов, системы электронного обнаружения , решения для управления записями)
Сортируемый стол
Имя Год основания Последняя стабильная версия Год выпуска Лицензия Онлайн Окна Мак ОС Х Линукс БСД Андроид iOS Язык программирования СДК ? Языки Шрифты Выходные форматы Примечания
ABBYY FineReader 1989 16 2022 Собственный Да Да Да Нет Да Да Да С/С++ Да 192 [ 1 ] Все шрифты DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 [ 2 ] ABBYY также поставляет SDK для встраиваемых и мобильных устройств. Выпуски Professional, Corporate и Site License для Windows, Express Edition для Mac. [ 3 ]
Программное обеспечение AnyDoc 1989 ? ? Собственный Нет Да Нет Нет Нет ? ? VBScript ? ? ? Работает со структурированными, полуструктурированными и неструктурированными документами.
Asprise OCR SDK 1998 15 2015 Собственный Да Да Да Да Да ? ? Java, C#, VB.NET, C/C++/Delphi Да 20+ [ 4 ] ? Обычный текст, PDF с возможностью поиска, XML [ 5 ] Пакеты SDK для Java, C#, VB.NET, C/C++/Delphi для оптического распознавания символов и распознавания штрих-кодов в Windows, Linux, Mac OS X и Unix. [ 6 ]
КунейФорм 1996 1.1 2011 BSD вариант Нет Да Да Да Да ? ? С/С++ Да 28 Любой печатный шрифт HTML, hOCR, собственный, RTF, TeX , TXT [ 7 ] Система корпоративного класса, сохраняет форматирование текста и распознает сложные таблицы любой структуры.
Э-акшараян 2010 Да Нет Да Нет ? ? 14 RTF, ТХТ, БРЛ
ГОКР 2000 0.52 [ 8 ] 2018 лицензия GPL Да [ 9 ] Да Да Да Да ? ? С ? 20+ ?
Google Drive OCR или Google Cloud Vision 2015 Собственный Да Браузер Браузер Браузер Неизвестный ? ? Неизвестный Да 200+ Все шрифты текст Сообщение в блоге Google [ 10 ] [ 11 ]
Обработка изображений документов Microsoft Office ? Офис 2007 2007 Собственный Нет Да Нет Нет Нет ? ? ? ? ? ? Использует OmniPage [ нужна ссылка ]
Microsoft Office OneNote 2007 2011 ? 2007 Собственный Нет Да Нет Нет Нет ? ? ? ? ? ?
OCRFeeder 2009-03 0.8.5 2022 лицензия GPL Нет Нет Нет Да Нет ? ? Питон ? ? ? Имеет полный пользовательский интерфейс и инструмент командной строки для автоматических операций. Имеет собственный алгоритм сегментации, но использует общесистемные механизмы оптического распознавания символов, такие как Tesseract или Ocrad.
Окрад ? 0.28 [ 12 ] 2022 лицензия GPL Да Нет Да Да Да ? ? С++ Да Латинский алфавит ? Командная строка
ОКРопус 2007 1.3.3 2017 Апач Нет Нет Да Да Да ? ? Питон ? Все языки с использованием латиницы (другие языки можно обучить) Обычная латиница и Fraktur (другие скрипты можно обучить) ТХТ, hOCR, [ 13 ] PDF [ 14 ] Подключаемая платформа в активной разработке, используется для Google Книг.
ОмниПейдж 1970-е годы 19.2 2015 Собственный Да Да Да Да Нет ? ? С/С++, С# [ 15 ] Да 125 [ 16 ] Машинные и ручные шрифты DOC/DOCX XLS/XLSX PPTX RTF PDF PDF/A PDF/A с возможностью поиска PDF HTML Текст XML ePUB MP3 Продукт Nuance Communications
Puma.NET ? ? 2009 БСД Нет Да Нет Нет Нет ? ? С# Да 28 Любой печатный шрифт .NET OCR SDK на основе механизма распознавания CuneiForm компании Cognitive Technologies. Обертывает COM-сервер Puma и предоставляет упрощенный API для приложений .NET.
ReadSoft ? ? ? Собственный Нет Да Нет Нет Нет ? ? ? ? ? ? Сканируйте, фиксируйте и классифицируйте бизнес-документы, такие как счета-фактуры, формы и заказы на поставку, интегрированные с бизнес-процессами.
Скантрон ? ? ? Собственный Нет Да Нет Нет Нет ? ? ? ? ? ? Для работы с локализованными интерфейсами необходима соответствующая языковая поддержка.
СмартСкор 1991 10.5.8 2015 Собственный Нет Да Да Нет Нет ? ? ? ? ? ? Для музыкальных партитур
Тессеракт 1985 5.3.3 2023 Апач Нет Да Да Да Да ? ? С++, С Да 100+ [ 17 ] Любой печатный шрифт Текст, ALTO , hOCR , [ 18 ] PDF, другие с другим пользовательским интерфейсом [ 19 ] или API Создано Hewlett-Packard ; находится в стадии дальнейшей разработки Google [ 20 ]
Имя Год основания Последняя стабильная версия Год выпуска Лицензия Онлайн Окна Мак ОС Х Линукс БСД Андроид iOS Язык программирования SDK? Языки Шрифты Выходные форматы Примечания

Анализ точности и надежности пакетов OCR Google Docs OCR, Tesseract, ABBYY FineReader и Transym, проведенный в 2016 году с использованием набора данных, включающего 1227 изображений из 15 различных категорий, показал, что Google Docs OCR и ABBYY работают лучше, чем другие. [ 21 ]

  1. ^ «ABBYY FineReader 14: Технические характеристики» . Finereader.abbyy.com . Проверено 23 февраля 2017 г.
  2. ^ «ABBYY FineReader 11: Технические характеристики» . Finereader.abbyy.com . Проверено 12 сентября 2013 г.
  3. ^ «Лучшее программное обеспечение для оптического распознавания символов» . Ocrworld.com. 30 марта 2010 г. Архивировано из оригинала 23 февраля 2017 г. Проверено 12 сентября 2013 г.
  4. ^ «Функции Asprise OCR SDK» . asprise.com . Проверено 21 июня 2014 г.
  5. ^ «Функции библиотеки Asprise Java OCR» . asprise.com . Проверено 21 июня 2014 г.
  6. ^ «Asprise Java, C#/VB.NET OCR API» . asprise.com. 19 ноября 2015 г. Проверено 19 ноября 2015 г.
  7. ^ Страница руководства Debian для Cuneiform для Linux версии 1.1.0.
  8. ^ «Домашняя страница GOCR» . wasd.urz.uni-magdeburg.de . Проверено 17 октября 2018 г.
  9. ^ «ГОКР» . Jocr.sourceforge.net . Проверено 12 сентября 2013 г.
  10. ^ «Поддерживаемые языки» . 11 февраля 2022 г.
  11. ^ Ашок Попат (4 сентября 2015 г.). «IEEE SPS: оптическое распознавание символов для большинства языков мира» . Ютуб . Архивировано из оригинала 20 декабря 2021 г.
  12. ^ Диас, Антонио (17 января 2022 г.). «Выпущен GNU Ocrad 0.28» (список рассылки). информация-гну.
  13. ^ OCRopus включает инструмент ocropus-hocr, который производит hOCR на основе результатов распознавания.
  14. ^ В сочетании с hocr-инструментами
  15. ^ «OmniPage CSDK — набор инструментов для захвата документов OCR | Обработка изображений документов и OCR» . Нюанс. Архивировано из оригинала 24 августа 2010 г. Проверено 12 сентября 2013 г.
  16. ^ «Преобразование стандартных документов OmniPage» . Нюанс. Архивировано из оригинала 13 марта 2014 г. Проверено 25 февраля 2014 г.
  17. ^ На основе количества файлов языкового обучения для версии 3.04. Доступно на странице загрузки .
  18. ^ Использование описано в Readme и FAQ по Tesseract.
  19. ^ Например, ODF с OCRFeeder.
  20. ^ «GitHub — tesseract-ocr/tesseract: Механизм OCR Tesseract с открытым исходным кодом (основной репозиторий)» . Гитхаб . Проверено 5 ноября 2018 г.
  21. ^ Ассефи, Мехди (1 декабря 2016 г.). «OCR как услуга: экспериментальная оценка оптического распознавания символов Google Docs, Tesseract, ABBYY FineReader и Transym» . Исследовательские ворота . Проверено 31 января 2019 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d790ea72d306e994b263abf6b765691d__1718063940
URL1:https://arc.ask3.ru/arc/aa/d7/1d/d790ea72d306e994b263abf6b765691d.html
Заголовок, (Title) документа по адресу, URL1:
Comparison of optical character recognition software - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)