Jump to content

Тессеракт (программное обеспечение)

(Перенаправлено из Tesseract OCR )

Тессеракт
Оригинальный автор(ы) Рэй Смит, Hewlett-Packard [ 1 ]
Разработчик(и) Гугл и другие
Стабильная версия
5.4.1 [ 2 ]  Отредактируйте это в Викиданных / 11 июня 2024 г.
Репозиторий
Написано в С и С++
Операционная система Linux , Windows и macOS
Доступно в Интерфейс: английский
Признание:

Африкаанс , албанский , арабский , азербайджанский , баскский , белорусский , бенгальский , болгарский , каталанский , чешский , чероки , хорватский , датский , голландский , английский , эсперанто , эстонский , финский , французский , галисийский , немецкий , греческий , хинди , иврит , венгерский , Индонезийский , итальянский , японский , каннада , корейский , латышский , литовский , малаялам , македонский , мальтийский , малайский , норвежский , польский , португальский , румынский , русский , словацкий , словенский , испанский , суахили , сербский , шведский , тагальский тамильский телугу , , , тайский , турецкий , украинский и вьетнамский [ 3 ]

(больше можно добавить, используя прилагаемые обучающие файлы) [ 4 ]
Тип Оптическое распознавание символов
Лицензия Лицензия Апач 2.0
Веб-сайт github /tesseract-ocr  Edit this on Wikidata

Tesseract — это механизм оптического распознавания символов для различных операционных систем. [ 5 ] Это бесплатное программное обеспечение , распространяемое по лицензии Apache . [ 1 ] [ 6 ] [ 7 ] Первоначально разработанное Hewlett-Packard как проприетарное программное обеспечение в 1980-х годах, оно было выпущено с открытым исходным кодом в 2005 году, а в 2006 году его разработка спонсировалась Google . [ 8 ]

В 2006 году Tesseract считался одним из самых точных доступных механизмов оптического распознавания символов с открытым исходным кодом. [ 7 ] [ 9 ]

Движок Tesseract изначально был разработан как проприетарное программное обеспечение в Hewlett-Packard лабораториях в Бристоле, Англия, и Грили, Колорадо , в период с 1985 по 1994 год, с дополнительными изменениями, внесенными в 1996 году для переноса на Windows, и некоторым переходом с C на C++ в 1998 году. Часть кода была написана на C , а затем еще часть была написана на C++. С тех пор весь код был преобразован для компиляции хотя бы компилятором C++. [ нужна ссылка ] В следующее десятилетие было сделано очень мало работы. Затем в 2005 году он был выпущен с открытым исходным кодом компаниями Hewlett-Packard и Университетом Невады в Лас-Вегасе (UNLV). Разработка Tesseract спонсировалась Google в 2006 году. [ 8 ]

Версия 4 добавляет механизм оптического распознавания символов на основе LSTM и модели для многих дополнительных языков и сценариев, в результате чего общее количество языков достигло 116. [ 10 ] 37 скриптов Дополнительно поддерживаются . Так, например, можно распознавать текст на смеси западноевропейских и центральноевропейских языков, используя модель латинского алфавита, на которой он написан. [ нужна ссылка ]

Версия 5 была выпущена в 2021 году после более чем двух лет тестирования и разработки. [ 11 ]

Tesseract входил в тройку лучших механизмов оптического распознавания символов по точности символов в 1995 году. [ 12 ] Он доступен для Linux , Windows и Mac OS X. [ 6 ] [ 7 ]

Tesseract до версии 2 включительно мог принимать в качестве входных данных только изображения TIFF простого текста в одну колонку. Эти ранние версии не включали анализ макета, поэтому ввод многоколоночного текста, изображений или уравнений приводил к искажению результатов. Начиная с версии 3.00 Tesseract поддерживает форматирование выходного текста, hOCR. [ 13 ] позиционная информация и анализ макета страницы. добавлена ​​поддержка ряда новых форматов изображений С помощью библиотеки Leptonica . Tesseract может определить, является ли текст моноширинным или пропорциональным. [ 7 ]

Первоначальные версии Tesseract могли распознавать только текст на английском языке.

В Tesseract v2 добавлено шесть дополнительных западных языков (французский, итальянский, немецкий, испанский, бразильский португальский, голландский).

Версия 3 значительно расширила языковую поддержку, включив в нее идеографические (китайский и японский) языки и языки с письмом справа налево (например, арабский, иврит), а также множество других алфавитов. Новые языки включали арабский, болгарский, каталанский, китайский (упрощенный и традиционный), хорватский, чешский, датский, немецкий ( скрипт Fraktur ), греческий, финский, иврит, хинди, венгерский, индонезийский, японский, корейский, латышский, литовский, норвежский, Польский, португальский, румынский, русский, сербский, словацкий (стандартный шрифт и алфавит Fraktur), словенский, шведский, тагальский, тамильский, тайский, турецкий, украинский и вьетнамский.

В версию 3.04, выпущенную в июле 2015 года, добавлены дополнительные 39 комбинаций языков и сценариев, в результате чего общее количество поддерживаемых языков превысило 100. Включены новые коды языков: amh (амхарский), asm (ассамский), aze_cyrl (азербайджанский язык кириллицей). ), bod (тибетский), bos (боснийский), ceb (кебуанский), cym (валлийский), dzo (дзонгкха), fas (персидский), gle (ирландский), guj (гуджаратский), шляпа (гаитянский и гаитянский креольский), iku (инуктитут), jav (яванский), kat (грузинский), kat_old (древнегрузинский), kaz (казахский), khm (центрально-кхмерский), kir (киргизский), kur (курдский), lao (лаосский), lat (латинский) ), мар (маратхи), мья (бирманский), нэп (непальский), ори (ория), пан (панджаби), гной (пушту), сан (санскрит), грех (сингальский), srp_latn (сербский латиницей), сыр (сирийский), тгк (таджикский), тир (Тигриня), уиг (уйгурский), урд (урду), узб (узбекский), узб_цырл (узбекский, кириллицей), йид (идиш). [ 14 ]

Кроме того, Tesseract можно обучить работе на других языках. [ 7 ]

Tesseract может довольно хорошо обрабатывать текст с письмом справа налево, такой как арабский или иврит, многие индийские алфавиты, а также CJK . Показатели точности показаны в этой презентации Рэя Смита для учебного пособия Tesseract на DAS 2016, Санторини. [ 15 ]

Tesseract подходит для использования в качестве серверной части и может использоваться для более сложных задач OCR, включая анализ макета, с использованием внешнего интерфейса, такого как OCRopus . [ 16 ]

Выходные данные Tesseract будут иметь очень низкое качество, если входные изображения не будут предварительно обработаны в соответствии с ним: изображения (особенно снимки экрана ) должны быть масштабированы текста так, чтобы x-высота составляла не менее 20 пикселей; [ 17 ] любое вращение или перекос необходимо исправить, иначе текст не будет распознан, низкочастотные изменения яркости должны быть отфильтрованы высокочастотными фильтрами Tesseract , иначе этап бинаризации уничтожит большую часть страницы, а темные границы необходимо удалить вручную, иначе они будут ошибочно интерпретированы как персонажи. [ 18 ]

Пользовательские интерфейсы

[ редактировать ]
Окно конфигурации Tesseract в OCRFeeder

Tesseract выполняется из интерфейса командной строки . [ 19 ] Хотя Tesseract не поставляется с графическим интерфейсом, существует множество отдельных проектов, которые предоставляют для него графический интерфейс. [ 20 ] Одним из распространенных примеров является OCRFeeder . [ 21 ]

В статье о Tesseract в июле 2007 года Энтони Кей из Linux Journal назвал его «необычным инструментом командной строки, который отлично справляется со своей задачей». Тогда он отметил: «Tesseract — это простой движок оптического распознавания символов. Процесс сборки немного причудливый, и движку нужны некоторые дополнительные функции (например, определение макета), но основная функция — распознавание текста — значительно лучше, чем что-либо еще». еще я пробовал от сообщества разработчиков программного обеспечения с открытым исходным кодом. Достаточно легко получить отличные показатели распознавания, используя только сканер и некоторые инструменты для работы с изображениями, такие как GIMP и Netpbm ». [ 5 ]

В ноябре 2020 года Брюстер Кале из Интернет-архива похвалил Тессеракт, сказав:

За последние несколько лет Tesseract сделал большой шаг вперед. Когда мы в последний раз оценивали точность, она была не так хороша, как собственная технология OCR, но ситуация изменилась: мы провели оценки, и она так же хороша и может стать лучше для нашего приложения благодаря новой архитектуре. [ 22 ]

См. также

[ редактировать ]
  1. ^ Jump up to: а б Гугл (2008). "тессеракт-окр" . Гитхаб . Проверено 8 марта 2016 г.
  2. ^ «Выпуск 5.4.1 · tesseract-ocr/tesseract» . Проверено 12 июня 2024 г.
  3. ^ «Языки, поддерживаемые в разных версиях Tesseract» . Архивировано из оригинала 8 августа 2022 года . Проверено 21 ноября 2022 г.
  4. ^ «Документация Tesseract — Файлы обученных данных… — Файлы языковых данных для Tesseract» . Архивировано из оригинала 5 сентября 2022 года . Проверено 21 ноября 2022 г.
  5. ^ Jump up to: а б Кей, Энтони (июль 2007 г.). «Тессеракт: механизм оптического распознавания символов с открытым исходным кодом» . Linux-журнал . Проверено 28 сентября 2011 г.
  6. ^ Jump up to: а б Винсент, Люк (август 2006 г.). «Анонсируем Tesseract OCR» . Архивировано из оригинала 26 октября 2006 года . Проверено 26 июня 2008 г.
  7. ^ Jump up to: а б с д и Canonical Ltd. (февраль 2011 г.). «ОКР» . Проверено 11 февраля 2011 г.
  8. ^ Jump up to: а б Анонс Tesseract OCR — официальный блог Google
  9. ^ Уиллис, Натан (сентябрь 2006 г.). «Система оптического распознавания символов Tesseract от Google — это квантовый скачок вперед» . Архивировано из оригинала 28 мая 2022 года . Проверено 18 июля 2008 г.
  10. ^ «Страница руководства TESSERACT(1)» . Гитхаб . Проверено 15 марта 2018 г.
  11. ^ Шмидт, Юлия (1 декабря 2021 г.). «Движок OCR Tesseract 5.0 преобразуется в плавающий формат для более быстрого обучения и распознавания • DEVCLASS» . ДЕВКЛАСС . Проверено 20 декабря 2021 г.
  12. ^ Райс Стивен В., Фрэнк Р. Дженкинс и Томас А. Нарткер. Четвертый ежегодный тест точности оптического распознавания символов , expervision.com, получено 21 мая 2013 г.
  13. ^ Проект Тессеракт (февраль 2011 г.). «Проблема 263: исправление для включения вывода hOCR» . Архивировано из оригинала 13 ноября 2012 года . Проверено 26 февраля 2011 г.
  14. ^ «langdata — исходные данные обучения для Tesseract для множества языков» . Гитхаб . Проверено 6 ноября 2016 г.
  15. ^ «Обучение сетей LSTM на 100 языках и результаты тестов» (PDF) . Гитхаб . Проверено 18 марта 2018 г.
  16. ^ Анонс системы OCRopus с открытым исходным кодом. Архивировано 14 апреля 2007 г. в Wayback Machine (Томас Брейэл, руководитель проекта OCRopus).
  17. ^ «Часто задаваемые вопросы — tesseract-ocr — Часто задаваемые вопросы — Механизм оптического распознавания символов, который был разработан в HP Labs в период с 1985 по 1995 год… а теперь и в Google. — Хостинг проектов Google» . Архивировано из оригинала 23 декабря 2015 года . Проверено 30 мая 2014 г.
  18. ^ «ImproveQuality — tesseract-ocr — Советы по улучшению качества вашей продукции. — Механизм оптического распознавания символов, разработанный в лабораториях HP в период с 1985 по 1995 год... а теперь и в Google. — Хостинг проектов Google» . 27 января 2014 г. Архивировано из оригинала 20 сентября 2015 г. Проверено 30 мая 2014 г.
  19. ^ Код Google – Файл сведений о Тессеракте
  20. ^ «3rdParty — tesseract-ocr — графические интерфейсы и другие проекты, использующие Tesseract OCR» . github.com . Проверено 9 марта 2024 г.
  21. ^ «ОКРФидер» . ГНОМ вики . Проверено 12 января 2019 г.
  22. ^ Брюстер Кале (23 ноября 2020 г.). «FOSS снова побеждает: сообщества свободных и открытых исходных кодов появляются в газетах (а также книгах и периодических изданиях...) 19-го века - блогах интернет-архива» . blog.archive.org . Проверено 1 декабря 2020 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ac4dd67af7bcb85749abb1514d10000b__1721675280
URL1:https://arc.ask3.ru/arc/aa/ac/0b/ac4dd67af7bcb85749abb1514d10000b.html
Заголовок, (Title) документа по адресу, URL1:
Tesseract (software) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)