Тессеракт (программное обеспечение)
![]() | Эта статья содержит контент, написанный как реклама . ( Июль 2024 г. ) |
Tesseract — это механизм оптического распознавания символов для различных операционных систем. [ 5 ] Это бесплатное программное обеспечение , распространяемое по лицензии Apache . [ 1 ] [ 6 ] [ 7 ] Первоначально разработанное Hewlett-Packard как проприетарное программное обеспечение в 1980-х годах, оно было выпущено с открытым исходным кодом в 2005 году, а в 2006 году его разработка спонсировалась Google . [ 8 ]
В 2006 году Tesseract считался одним из самых точных доступных механизмов оптического распознавания символов с открытым исходным кодом. [ 7 ] [ 9 ]
История
[ редактировать ]Движок Tesseract изначально был разработан как проприетарное программное обеспечение в Hewlett-Packard лабораториях в Бристоле, Англия, и Грили, Колорадо , в период с 1985 по 1994 год, с дополнительными изменениями, внесенными в 1996 году для переноса на Windows, и некоторым переходом с C на C++ в 1998 году. Часть кода была написана на C , а затем еще часть была написана на C++. С тех пор весь код был преобразован для компиляции хотя бы компилятором C++. [ нужна ссылка ] В следующее десятилетие было сделано очень мало работы. Затем в 2005 году он был выпущен с открытым исходным кодом компаниями Hewlett-Packard и Университетом Невады в Лас-Вегасе (UNLV). Разработка Tesseract спонсировалась Google в 2006 году. [ 8 ]
Версия 4 добавляет механизм оптического распознавания символов на основе LSTM и модели для многих дополнительных языков и сценариев, в результате чего общее количество языков достигло 116. [ 10 ] 37 скриптов Дополнительно поддерживаются . Так, например, можно распознавать текст на смеси западноевропейских и центральноевропейских языков, используя модель латинского алфавита, на которой он написан. [ нужна ссылка ]
Версия 5 была выпущена в 2021 году после более чем двух лет тестирования и разработки. [ 11 ]
Функции
[ редактировать ]Tesseract входил в тройку лучших механизмов оптического распознавания символов по точности символов в 1995 году. [ 12 ] Он доступен для Linux , Windows и Mac OS X. [ 6 ] [ 7 ]
Tesseract до версии 2 включительно мог принимать в качестве входных данных только изображения TIFF простого текста в одну колонку. Эти ранние версии не включали анализ макета, поэтому ввод многоколоночного текста, изображений или уравнений приводил к искажению результатов. Начиная с версии 3.00 Tesseract поддерживает форматирование выходного текста, hOCR. [ 13 ] позиционная информация и анализ макета страницы. добавлена поддержка ряда новых форматов изображений С помощью библиотеки Leptonica . Tesseract может определить, является ли текст моноширинным или пропорциональным. [ 7 ]
Первоначальные версии Tesseract могли распознавать только текст на английском языке.
В Tesseract v2 добавлено шесть дополнительных западных языков (французский, итальянский, немецкий, испанский, бразильский португальский, голландский).
Версия 3 значительно расширила языковую поддержку, включив в нее идеографические (китайский и японский) языки и языки с письмом справа налево (например, арабский, иврит), а также множество других алфавитов. Новые языки включали арабский, болгарский, каталанский, китайский (упрощенный и традиционный), хорватский, чешский, датский, немецкий ( скрипт Fraktur ), греческий, финский, иврит, хинди, венгерский, индонезийский, японский, корейский, латышский, литовский, норвежский, Польский, португальский, румынский, русский, сербский, словацкий (стандартный шрифт и алфавит Fraktur), словенский, шведский, тагальский, тамильский, тайский, турецкий, украинский и вьетнамский.
В версию 3.04, выпущенную в июле 2015 года, добавлены дополнительные 39 комбинаций языков и сценариев, в результате чего общее количество поддерживаемых языков превысило 100. Включены новые коды языков: amh (амхарский), asm (ассамский), aze_cyrl (азербайджанский язык кириллицей). ), bod (тибетский), bos (боснийский), ceb (кебуанский), cym (валлийский), dzo (дзонгкха), fas (персидский), gle (ирландский), guj (гуджаратский), шляпа (гаитянский и гаитянский креольский), iku (инуктитут), jav (яванский), kat (грузинский), kat_old (древнегрузинский), kaz (казахский), khm (центрально-кхмерский), kir (киргизский), kur (курдский), lao (лаосский), lat (латинский) ), мар (маратхи), мья (бирманский), нэп (непальский), ори (ория), пан (панджаби), гной (пушту), сан (санскрит), грех (сингальский), srp_latn (сербский латиницей), сыр (сирийский), тгк (таджикский), тир (Тигриня), уиг (уйгурский), урд (урду), узб (узбекский), узб_цырл (узбекский, кириллицей), йид (идиш). [ 14 ]
Кроме того, Tesseract можно обучить работе на других языках. [ 7 ]
Tesseract может довольно хорошо обрабатывать текст с письмом справа налево, такой как арабский или иврит, многие индийские алфавиты, а также CJK . Показатели точности показаны в этой презентации Рэя Смита для учебного пособия Tesseract на DAS 2016, Санторини. [ 15 ]
Tesseract подходит для использования в качестве серверной части и может использоваться для более сложных задач OCR, включая анализ макета, с использованием внешнего интерфейса, такого как OCRopus . [ 16 ]
Выходные данные Tesseract будут иметь очень низкое качество, если входные изображения не будут предварительно обработаны в соответствии с ним: изображения (особенно снимки экрана ) должны быть масштабированы текста так, чтобы x-высота составляла не менее 20 пикселей; [ 17 ] любое вращение или перекос необходимо исправить, иначе текст не будет распознан, низкочастотные изменения яркости должны быть отфильтрованы высокочастотными фильтрами Tesseract , иначе этап бинаризации уничтожит большую часть страницы, а темные границы необходимо удалить вручную, иначе они будут ошибочно интерпретированы как персонажи. [ 18 ]
Пользовательские интерфейсы
[ редактировать ]
Tesseract выполняется из интерфейса командной строки . [ 19 ] Хотя Tesseract не поставляется с графическим интерфейсом, существует множество отдельных проектов, которые предоставляют для него графический интерфейс. [ 20 ] Одним из распространенных примеров является OCRFeeder . [ 21 ]
Прием
[ редактировать ]В статье о Tesseract в июле 2007 года Энтони Кей из Linux Journal назвал его «необычным инструментом командной строки, который отлично справляется со своей задачей». Тогда он отметил: «Tesseract — это простой движок оптического распознавания символов. Процесс сборки немного причудливый, и движку нужны некоторые дополнительные функции (например, определение макета), но основная функция — распознавание текста — значительно лучше, чем что-либо еще». еще я пробовал от сообщества разработчиков программного обеспечения с открытым исходным кодом. Достаточно легко получить отличные показатели распознавания, используя только сканер и некоторые инструменты для работы с изображениями, такие как GIMP и Netpbm ». [ 5 ]
В ноябре 2020 года Брюстер Кале из Интернет-архива похвалил Тессеракт, сказав:
За последние несколько лет Tesseract сделал большой шаг вперед. Когда мы в последний раз оценивали точность, она была не так хороша, как собственная технология OCR, но ситуация изменилась: мы провели оценки, и она так же хороша и может стать лучше для нашего приложения благодаря новой архитектуре. [ 22 ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б Гугл (2008). "тессеракт-окр" . Гитхаб . Проверено 8 марта 2016 г.
- ^ «Выпуск 5.4.1 · tesseract-ocr/tesseract» . Проверено 12 июня 2024 г.
- ^ «Языки, поддерживаемые в разных версиях Tesseract» . Архивировано из оригинала 8 августа 2022 года . Проверено 21 ноября 2022 г.
- ^ «Документация Tesseract — Файлы обученных данных… — Файлы языковых данных для Tesseract» . Архивировано из оригинала 5 сентября 2022 года . Проверено 21 ноября 2022 г.
- ^ Jump up to: а б Кей, Энтони (июль 2007 г.). «Тессеракт: механизм оптического распознавания символов с открытым исходным кодом» . Linux-журнал . Проверено 28 сентября 2011 г.
- ^ Jump up to: а б Винсент, Люк (август 2006 г.). «Анонсируем Tesseract OCR» . Архивировано из оригинала 26 октября 2006 года . Проверено 26 июня 2008 г.
- ^ Jump up to: а б с д и Canonical Ltd. (февраль 2011 г.). «ОКР» . Проверено 11 февраля 2011 г.
- ^ Jump up to: а б Анонс Tesseract OCR — официальный блог Google
- ^ Уиллис, Натан (сентябрь 2006 г.). «Система оптического распознавания символов Tesseract от Google — это квантовый скачок вперед» . Архивировано из оригинала 28 мая 2022 года . Проверено 18 июля 2008 г.
- ^ «Страница руководства TESSERACT(1)» . Гитхаб . Проверено 15 марта 2018 г.
- ^ Шмидт, Юлия (1 декабря 2021 г.). «Движок OCR Tesseract 5.0 преобразуется в плавающий формат для более быстрого обучения и распознавания • DEVCLASS» . ДЕВКЛАСС . Проверено 20 декабря 2021 г.
- ^ Райс Стивен В., Фрэнк Р. Дженкинс и Томас А. Нарткер. Четвертый ежегодный тест точности оптического распознавания символов , expervision.com, получено 21 мая 2013 г.
- ^ Проект Тессеракт (февраль 2011 г.). «Проблема 263: исправление для включения вывода hOCR» . Архивировано из оригинала 13 ноября 2012 года . Проверено 26 февраля 2011 г.
- ^ «langdata — исходные данные обучения для Tesseract для множества языков» . Гитхаб . Проверено 6 ноября 2016 г.
- ^ «Обучение сетей LSTM на 100 языках и результаты тестов» (PDF) . Гитхаб . Проверено 18 марта 2018 г.
- ^ Анонс системы OCRopus с открытым исходным кодом. Архивировано 14 апреля 2007 г. в Wayback Machine (Томас Брейэл, руководитель проекта OCRopus).
- ^ «Часто задаваемые вопросы — tesseract-ocr — Часто задаваемые вопросы — Механизм оптического распознавания символов, который был разработан в HP Labs в период с 1985 по 1995 год… а теперь и в Google. — Хостинг проектов Google» . Архивировано из оригинала 23 декабря 2015 года . Проверено 30 мая 2014 г.
- ^ «ImproveQuality — tesseract-ocr — Советы по улучшению качества вашей продукции. — Механизм оптического распознавания символов, разработанный в лабораториях HP в период с 1985 по 1995 год... а теперь и в Google. — Хостинг проектов Google» . 27 января 2014 г. Архивировано из оригинала 20 сентября 2015 г. Проверено 30 мая 2014 г.
- ^ Код Google – Файл сведений о Тессеракте
- ^ «3rdParty — tesseract-ocr — графические интерфейсы и другие проекты, использующие Tesseract OCR» . github.com . Проверено 9 марта 2024 г.
- ^ «ОКРФидер» . ГНОМ вики . Проверено 12 января 2019 г.
- ^ Брюстер Кале (23 ноября 2020 г.). «FOSS снова побеждает: сообщества свободных и открытых исходных кодов появляются в газетах (а также книгах и периодических изданиях...) 19-го века - блогах интернет-архива» . blog.archive.org . Проверено 1 декабря 2020 г.
Внешние ссылки
[ редактировать ]
- Программное обеспечение для оптического распознавания символов
- Бесплатное программное обеспечение, написанное на C.
- Бесплатное программное обеспечение, написанное на C++.
- программное обеспечение HP
- программное обеспечение Google
- Ранее проприетарное программное обеспечение
- Программное обеспечение, использующее лицензию Apache