Тессеракт (программное обеспечение)

Тессеракт
	Тессеракт 4.1.1 читает изображение.
Оригинальный автор(ы)	Рэй Смит, Hewlett-Packard
Разработчик(и)	Гугл и другие
Стабильная версия	5.4.1 / 11 июня 2024 г.
Репозиторий	github .с /tesseract-ocr /тессеракт ;
Написано в	С и С++
Операционная система	Linux , Windows и macOS
Доступно в	Интерфейс: английский ; Признание: Африкаанс , албанский , арабский , азербайджанский , баскский , белорусский , бенгальский , болгарский , каталанский , чешский , чероки , хорватский , датский , голландский , английский , эсперанто , эстонский , финский , французский , галисийский , немецкий , греческий , хинди , иврит , венгерский , Индонезийский , итальянский , японский , каннада , корейский , латышский , литовский , малаялам , македонский , мальтийский , малайский , норвежский , польский , португальский , румынский , русский , словацкий , словенский , испанский , суахили , сербский , шведский , тагальский тамильский телугу , , , тайский , турецкий , украинский и вьетнамский (больше можно добавить, используя прилагаемые обучающие файлы)
Тип	Оптическое распознавание символов
Лицензия	Лицензия Апач 2.0
Веб-сайт	github .с /tesseract-ocr

Tesseract — это механизм оптического распознавания символов для различных операционных систем. ^{[ 5 ]} Это бесплатное программное обеспечение , распространяемое по лицензии Apache . ^{[ 1 ]}^{[ 6 ]}^{[ 7 ]} Первоначально разработанное Hewlett-Packard как проприетарное программное обеспечение в 1980-х годах, оно было выпущено с открытым исходным кодом в 2005 году, а в 2006 году его разработка спонсировалась Google . ^{[ 8 ]}

В 2006 году Tesseract считался одним из самых точных доступных механизмов оптического распознавания символов с открытым исходным кодом. ^{[ 7 ]}^{[ 9 ]}

История

Движок Tesseract изначально был разработан как проприетарное программное обеспечение в Hewlett-Packard лабораториях в Бристоле, Англия, и Грили, Колорадо , в период с 1985 по 1994 год, с дополнительными изменениями, внесенными в 1996 году для переноса на Windows, и некоторым переходом с C на C++ в 1998 году. Часть кода была написана на C , а затем еще часть была написана на C++. С тех пор весь код был преобразован для компиляции хотя бы компилятором C++. ^{[ нужна ссылка ]} В следующее десятилетие было сделано очень мало работы. Затем в 2005 году он был выпущен с открытым исходным кодом компаниями Hewlett-Packard и Университетом Невады в Лас-Вегасе (UNLV). Разработка Tesseract спонсировалась Google в 2006 году. ^{[ 8 ]}

Версия 4 добавляет механизм оптического распознавания символов на основе LSTM и модели для многих дополнительных языков и сценариев, в результате чего общее количество языков достигло 116. ^{[ 10 ]} 37 скриптов Дополнительно поддерживаются . Так, например, можно распознавать текст на смеси западноевропейских и центральноевропейских языков, используя модель латинского алфавита, на которой он написан. ^{[ нужна ссылка ]}

Версия 5 была выпущена в 2021 году после более чем двух лет тестирования и разработки. ^{[ 11 ]}

Функции

Tesseract входил в тройку лучших механизмов оптического распознавания символов по точности символов в 1995 году. ^{[ 12 ]} Он доступен для Linux , Windows и Mac OS X. ^{[ 6 ]}^{[ 7 ]}

Tesseract до версии 2 включительно мог принимать в качестве входных данных только изображения TIFF простого текста в одну колонку. Эти ранние версии не включали анализ макета, поэтому ввод многоколоночного текста, изображений или уравнений приводил к искажению результатов. Начиная с версии 3.00 Tesseract поддерживает форматирование выходного текста, hOCR. ^{[ 13 ]} позиционная информация и анализ макета страницы. добавлена поддержка ряда новых форматов изображений С помощью библиотеки Leptonica . Tesseract может определить, является ли текст моноширинным или пропорциональным. ^{[ 7 ]}

Первоначальные версии Tesseract могли распознавать только текст на английском языке.

В Tesseract v2 добавлено шесть дополнительных западных языков (французский, итальянский, немецкий, испанский, бразильский португальский, голландский).

Версия 3 значительно расширила языковую поддержку, включив в нее идеографические (китайский и японский) языки и языки с письмом справа налево (например, арабский, иврит), а также множество других алфавитов. Новые языки включали арабский, болгарский, каталанский, китайский (упрощенный и традиционный), хорватский, чешский, датский, немецкий ( скрипт Fraktur ), греческий, финский, иврит, хинди, венгерский, индонезийский, японский, корейский, латышский, литовский, норвежский, Польский, португальский, румынский, русский, сербский, словацкий (стандартный шрифт и алфавит Fraktur), словенский, шведский, тагальский, тамильский, тайский, турецкий, украинский и вьетнамский.

В версию 3.04, выпущенную в июле 2015 года, добавлены дополнительные 39 комбинаций языков и сценариев, в результате чего общее количество поддерживаемых языков превысило 100. Включены новые коды языков: amh (амхарский), asm (ассамский), aze_cyrl (азербайджанский язык кириллицей). ), bod (тибетский), bos (боснийский), ceb (кебуанский), cym (валлийский), dzo (дзонгкха), fas (персидский), gle (ирландский), guj (гуджаратский), шляпа (гаитянский и гаитянский креольский), iku (инуктитут), jav (яванский), kat (грузинский), kat_old (древнегрузинский), kaz (казахский), khm (центрально-кхмерский), kir (киргизский), kur (курдский), lao (лаосский), lat (латинский) ), мар (маратхи), мья (бирманский), нэп (непальский), ори (ория), пан (панджаби), гной (пушту), сан (санскрит), грех (сингальский), srp_latn (сербский латиницей), сыр (сирийский), тгк (таджикский), тир (Тигриня), уиг (уйгурский), урд (урду), узб (узбекский), узб_цырл (узбекский, кириллицей), йид (идиш). ^{[ 14 ]}

Кроме того, Tesseract можно обучить работе на других языках. ^{[ 7 ]}

Tesseract может довольно хорошо обрабатывать текст с письмом справа налево, такой как арабский или иврит, многие индийские алфавиты, а также CJK . Показатели точности показаны в этой презентации Рэя Смита для учебного пособия Tesseract на DAS 2016, Санторини. ^{[ 15 ]}

Tesseract подходит для использования в качестве серверной части и может использоваться для более сложных задач OCR, включая анализ макета, с использованием внешнего интерфейса, такого как OCRopus . ^{[ 16 ]}

Выходные данные Tesseract будут иметь очень низкое качество, если входные изображения не будут предварительно обработаны в соответствии с ним: изображения (особенно снимки экрана ) должны быть масштабированы текста так, чтобы x-высота составляла не менее 20 пикселей; ^{[ 17 ]} любое вращение или перекос необходимо исправить, иначе текст не будет распознан, низкочастотные изменения яркости должны быть отфильтрованы высокочастотными фильтрами Tesseract , иначе этап бинаризации уничтожит большую часть страницы, а темные границы необходимо удалить вручную, иначе они будут ошибочно интерпретированы как персонажи. ^{[ 18 ]}

Пользовательские интерфейсы

Tesseract выполняется из интерфейса командной строки . ^{[ 19 ]} Хотя Tesseract не поставляется с графическим интерфейсом, существует множество отдельных проектов, которые предоставляют для него графический интерфейс. ^{[ 20 ]} Одним из распространенных примеров является OCRFeeder . ^{[ 21 ]}

Прием

В статье о Tesseract в июле 2007 года Энтони Кей из Linux Journal назвал его «необычным инструментом командной строки, который отлично справляется со своей задачей». Тогда он отметил: «Tesseract — это простой движок оптического распознавания символов. Процесс сборки немного причудливый, и движку нужны некоторые дополнительные функции (например, определение макета), но основная функция — распознавание текста — значительно лучше, чем что-либо еще». еще я пробовал от сообщества разработчиков программного обеспечения с открытым исходным кодом. Достаточно легко получить отличные показатели распознавания, используя только сканер и некоторые инструменты для работы с изображениями, такие как GIMP и Netpbm ». ^{[ 5 ]}

В ноябре 2020 года Брюстер Кале из Интернет-архива похвалил Тессеракт, сказав:

За последние несколько лет Tesseract сделал большой шаг вперед. Когда мы в последний раз оценивали точность, она была не так хороша, как собственная технология OCR, но ситуация изменилась: мы провели оценки, и она так же хороша и может стать лучше для нашего приложения благодаря новой архитектуре. ^{[ 22 ]}

См. также

LibTIFF

Ссылки

^ Jump up to: ^а ^б Гугл (2008). "тессеракт-окр" . Гитхаб . Проверено 8 марта 2016 г.
^ «Выпуск 5.4.1 · tesseract-ocr/tesseract» . Проверено 12 июня 2024 г.
^ «Языки, поддерживаемые в разных версиях Tesseract» . Архивировано из оригинала 8 августа 2022 года . Проверено 21 ноября 2022 г.
^ «Документация Tesseract — Файлы обученных данных… — Файлы языковых данных для Tesseract» . Архивировано из оригинала 5 сентября 2022 года . Проверено 21 ноября 2022 г.
^ Jump up to: ^а ^б Кей, Энтони (июль 2007 г.). «Тессеракт: механизм оптического распознавания символов с открытым исходным кодом» . Linux-журнал . Проверено 28 сентября 2011 г.
^ Jump up to: ^а ^б Винсент, Люк (август 2006 г.). «Анонсируем Tesseract OCR» . Архивировано из оригинала 26 октября 2006 года . Проверено 26 июня 2008 г.
^ Jump up to: ^а ^б ^с ^д ^и Canonical Ltd. (февраль 2011 г.). «ОКР» . Проверено 11 февраля 2011 г.
^ Jump up to: ^а ^б Анонс Tesseract OCR — официальный блог Google
^ Уиллис, Натан (сентябрь 2006 г.). «Система оптического распознавания символов Tesseract от Google — это квантовый скачок вперед» . Архивировано из оригинала 28 мая 2022 года . Проверено 18 июля 2008 г.
^ «Страница руководства TESSERACT(1)» . Гитхаб . Проверено 15 марта 2018 г.
^ Шмидт, Юлия (1 декабря 2021 г.). «Движок OCR Tesseract 5.0 преобразуется в плавающий формат для более быстрого обучения и распознавания • DEVCLASS» . ДЕВКЛАСС . Проверено 20 декабря 2021 г.
^ Райс Стивен В., Фрэнк Р. Дженкинс и Томас А. Нарткер. Четвертый ежегодный тест точности оптического распознавания символов , expervision.com, получено 21 мая 2013 г.
^ Проект Тессеракт (февраль 2011 г.). «Проблема 263: исправление для включения вывода hOCR» . Архивировано из оригинала 13 ноября 2012 года . Проверено 26 февраля 2011 г.
^ «langdata — исходные данные обучения для Tesseract для множества языков» . Гитхаб . Проверено 6 ноября 2016 г.
^ «Обучение сетей LSTM на 100 языках и результаты тестов» (PDF) . Гитхаб . Проверено 18 марта 2018 г.
^ Анонс системы OCRopus с открытым исходным кодом. Архивировано 14 апреля 2007 г. в Wayback Machine (Томас Брейэл, руководитель проекта OCRopus).
^ «Часто задаваемые вопросы — tesseract-ocr — Часто задаваемые вопросы — Механизм оптического распознавания символов, который был разработан в HP Labs в период с 1985 по 1995 год… а теперь и в Google. — Хостинг проектов Google» . Архивировано из оригинала 23 декабря 2015 года . Проверено 30 мая 2014 г.
^ «ImproveQuality — tesseract-ocr — Советы по улучшению качества вашей продукции. — Механизм оптического распознавания символов, разработанный в лабораториях HP в период с 1985 по 1995 год... а теперь и в Google. — Хостинг проектов Google» . 27 января 2014 г. Архивировано из оригинала 20 сентября 2015 г. Проверено 30 мая 2014 г.
^ Код Google – Файл сведений о Тессеракте
^ «3rdParty — tesseract-ocr — графические интерфейсы и другие проекты, использующие Tesseract OCR» . github.com . Проверено 9 марта 2024 г.
^ «ОКРФидер» . ГНОМ вики . Проверено 12 января 2019 г.
^ Брюстер Кале (23 ноября 2020 г.). «FOSS снова побеждает: сообщества свободных и открытых исходных кодов появляются в газетах (а также книгах и периодических изданиях...) 19-го века - блогах интернет-архива» . blog.archive.org . Проверено 1 декабря 2020 г.

Внешние ссылки

Официальный сайт

[TesseractHomePage-1] Jump up to: ^а ^б Гугл (2008). "тессеракт-окр" . Гитхаб . Проверено 8 марта 2016 г.

[wikidata-872d15840b82aa9a169243d3e663389971849e3c-v13-2] «Выпуск 5.4.1 · tesseract-ocr/tesseract» . Проверено 12 июня 2024 г.

[TessLang-3] «Языки, поддерживаемые в разных версиях Tesseract» . Архивировано из оригинала 8 августа 2022 года . Проверено 21 ноября 2022 г.

[TessData-4] «Документация Tesseract — Файлы обученных данных… — Файлы языковых данных для Tesseract» . Архивировано из оригинала 5 сентября 2022 года . Проверено 21 ноября 2022 г.

[Kay01Jul07-5] Jump up to: ^а ^б Кей, Энтони (июль 2007 г.). «Тессеракт: механизм оптического распознавания символов с открытым исходным кодом» . Linux-журнал . Проверено 28 сентября 2011 г.

[Google30Aug06-6] Jump up to: ^а ^б Винсент, Люк (август 2006 г.). «Анонсируем Tesseract OCR» . Архивировано из оригинала 26 октября 2006 года . Проверено 26 июня 2008 г.

[UbuntuDoc-7] Jump up to: ^а ^б ^с ^д ^и Canonical Ltd. (февраль 2011 г.). «ОКР» . Проверено 11 февраля 2011 г.

[AnnouncingTesseractOCR2006-8] Jump up to: ^а ^б Анонс Tesseract OCR — официальный блог Google

[Linux.com-9] Уиллис, Натан (сентябрь 2006 г.). «Система оптического распознавания символов Tesseract от Google — это квантовый скачок вперед» . Архивировано из оригинала 28 мая 2022 года . Проверено 18 июля 2008 г.

[10] «Страница руководства TESSERACT(1)» . Гитхаб . Проверено 15 марта 2018 г.

[11] Шмидт, Юлия (1 декабря 2021 г.). «Движок OCR Tesseract 5.0 преобразуется в плавающий формат для более быстрого обучения и распознавания • DEVCLASS» . ДЕВКЛАСС . Проверено 20 декабря 2021 г.

[12] Райс Стивен В., Фрэнк Р. Дженкинс и Томас А. Нарткер. Четвертый ежегодный тест точности оптического распознавания символов , expervision.com, получено 21 мая 2013 г.

[hOCR-13] Проект Тессеракт (февраль 2011 г.). «Проблема 263: исправление для включения вывода hOCR» . Архивировано из оригинала 13 ноября 2012 года . Проверено 26 февраля 2011 г.

[14] «langdata — исходные данные обучения для Tesseract для множества языков» . Гитхаб . Проверено 6 ноября 2016 г.

[15] «Обучение сетей LSTM на 100 языках и результаты тестов» (PDF) . Гитхаб . Проверено 18 марта 2018 г.

[16] Анонс системы OCRopus с открытым исходным кодом. Архивировано 14 апреля 2007 г. в Wayback Machine (Томас Брейэл, руководитель проекта OCRopus).

[17] «Часто задаваемые вопросы — tesseract-ocr — Часто задаваемые вопросы — Механизм оптического распознавания символов, который был разработан в HP Labs в период с 1985 по 1995 год… а теперь и в Google. — Хостинг проектов Google» . Архивировано из оригинала 23 декабря 2015 года . Проверено 30 мая 2014 г.

[18] «ImproveQuality — tesseract-ocr — Советы по улучшению качества вашей продукции. — Механизм оптического распознавания символов, разработанный в лабораториях HP в период с 1985 по 1995 год... а теперь и в Google. — Хостинг проектов Google» . 27 января 2014 г. Архивировано из оригинала 20 сентября 2015 г. Проверено 30 мая 2014 г.

[readme-19] Код Google – Файл сведений о Тессеракте

[20] «3rdParty — tesseract-ocr — графические интерфейсы и другие проекты, использующие Tesseract OCR» . github.com . Проверено 9 марта 2024 г.

[ocrf-21] «ОКРФидер» . ГНОМ вики . Проверено 12 января 2019 г.

[22] Брюстер Кале (23 ноября 2020 г.). «FOSS снова побеждает: сообщества свободных и открытых исходных кодов появляются в газетах (а также книгах и периодических изданиях...) 19-го века - блогах интернет-архива» . blog.archive.org . Проверено 1 декабря 2020 г.

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

v т и для оптического распознавания символов Программное обеспечение
Free software	CuneiForm GOCR Ocrad OCRFeeder OCRopus Tesseract
Proprietary software	ABBYY FineReader Adobe Acrobat Pro Asprise OCR Microsoft Office Document Imaging OmniPage ReadSoft SmartScore TeleForm VueScan
See also	Comparison of optical character recognition software