~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 38B04AAFAB1A585952CB74AF1F9CD661__1709988540 ✰
Заголовок документа оригинал.:
✰ Tesseract (software) - Wikipedia ✰
Заголовок документа перевод.:
✰ Тессеракт (программное обеспечение) — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Tesseract_(software) ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/38/61/38b04aafab1a585952cb74af1f9cd661.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/38/61/38b04aafab1a585952cb74af1f9cd661__translat.html ✰
Дата и время сохранения документа:
✰ 18.06.2024 09:49:01 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 9 March 2024, at 15:49 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Тессеракт (программное обеспечение) — Википедия Jump to content

Тессеракт (программное обеспечение)

Из Википедии, бесплатной энциклопедии

Тессеракт
Оригинальный автор(ы) Рэй Смит, Hewlett-Packard [1]
Разработчики) Гугл и другие
Стабильная версия
5.4.1 [2]  Отредактируйте это в Викиданных / 11 июня 2024 г.
Репозиторий
Написано в С и С++
Операционная система Linux , Windows и macOS
Доступно в Интерфейс: английский
Признание:

Африкаанс , албанский , арабский , азербайджанский , баскский , белорусский , бенгальский , болгарский , каталанский , чешский , чероки , хорватский , датский , голландский , английский , эсперанто , эстонский , финский , французский , галисийский , немецкий , греческий , хинди , иврит венгерский , , Индонезийский , итальянский , японский , каннада , корейский , латышский , литовский , малаялам , македонский , мальтийский , малайский , норвежский , португальский , словацкий , румынский , русский , сербский , словенский , испанский , суахили , тагальский , шведский , , тамильский телугу , польский , тайский , турецкий , украинский и вьетнамский [3]

(больше можно добавить, используя прилагаемые обучающие файлы) [4]
Тип Оптическое распознавание символов
Лицензия Лицензия Апач 2.0
Веб-сайт github /tesseract-ocr  Edit this on Wikidata

Tesseract — это механизм оптического распознавания символов для различных операционных систем. [5] Это бесплатное программное обеспечение , распространяемое по лицензии Apache . [1] [6] [7] Первоначально разработанное Hewlett-Packard как проприетарное программное обеспечение в 1980-х годах, оно было выпущено с открытым исходным кодом в 2005 году, а в 2006 году его разработка спонсировалась Google . [8]

В 2006 году Tesseract считался одним из самых точных доступных механизмов оптического распознавания символов с открытым исходным кодом. [7] [9]

История [ править ]

Движок Tesseract изначально был разработан как проприетарное программное обеспечение в лабораториях Hewlett-Packard в Бристоле, Англия, и Грили, Колорадо, в период с 1985 по 1994 год, с дополнительными изменениями, внесенными в 1996 году для переноса на Windows, и некоторым переходом с C на C++ в 1998 году. Часть кода была написана на C , а затем еще часть была написана на C++. С тех пор весь код был преобразован для компиляции хотя бы компилятором C++. [ нужна цитата ] В следующее десятилетие было сделано очень мало работы. Затем в 2005 году он был выпущен с открытым исходным кодом компаниями Hewlett-Packard и Университетом Невады в Лас-Вегасе (UNLV). Разработка Tesseract спонсировалась Google в 2006 году. [8]

Версия 4 добавляет механизм оптического распознавания символов на основе LSTM и модели для многих дополнительных языков и сценариев, в результате чего общее количество языков достигло 116. [10] Дополнительно 37 скриптов поддерживаются . Так, например, можно распознавать текст на смеси западных и центральноевропейских языков, используя модель латинского алфавита, на которой он написан. [ нужна цитата ]

Версия 5 была выпущена в 2021 году после более чем двух лет тестирования и разработки. [11]

Особенности [ править ]

Tesseract входил в тройку лучших механизмов оптического распознавания символов по точности символов в 1995 году. [12] Он доступен для Linux , Windows и Mac OS X. [6] [7]

Tesseract до версии 2 включительно мог принимать в качестве входных данных только изображения TIFF простого текста в одну колонку. Эти ранние версии не включали анализ макета, поэтому ввод многоколоночного текста, изображений или уравнений приводил к искажению результатов. Начиная с версии 3.00 Tesseract поддерживает форматирование выходного текста, hOCR. [13] позиционная информация и анализ макета страницы. добавлена ​​поддержка ряда новых форматов изображений С помощью библиотеки Leptonica . Tesseract может определить, является ли текст моноширинным или пропорциональным. [7]

Первоначальные версии Tesseract могли распознавать только текст на английском языке.

В Tesseract v2 добавлено шесть дополнительных западных языков (французский, итальянский, немецкий, испанский, бразильский португальский, голландский).

Версия 3 значительно расширила языковую поддержку, включив в нее идеографические (китайский и японский) языки и языки с письмом справа налево (например, арабский, иврит), а также множество других алфавитов. Новые языки включали арабский, болгарский, каталанский, китайский (упрощенный и традиционный), хорватский, чешский, датский, немецкий ( скрипт Fraktur ), греческий, финский, иврит, хинди, венгерский, индонезийский, японский, корейский, латышский, литовский, норвежский, Польский, португальский, румынский, русский, сербский, словацкий (стандартный шрифт и шрифт Fraktur), словенский, шведский, тагальский, тамильский, тайский, турецкий, украинский и вьетнамский.

В версию 3.04, выпущенную в июле 2015 года, добавлено 39 дополнительных комбинаций языков и сценариев, в результате чего общее количество поддерживаемых языков превысило 100. Включены новые коды языков: amh (амхарский), asm (ассамский), aze_cyrl (азербайджанский язык кириллицей). ), bod (тибетский), bos (боснийский), ceb (кебуанский), cym (валлийский), dzo (дзонгкха), fas (персидский), gle (ирландский), guj (гуджаратский), шляпа (гаитянский и гаитянский креольский), iku (инуктитут), jav (яванский), kat (грузинский), kat_old (древнегрузинский), kaz (казахский), khm (центрально-кхмерский), kir (киргизский), kur (курдский), lao (лаосский), lat (латинский) ), мар (маратхи), мья (бирманский), нэп (непальский), ори (ория), пан (панджаби), гной (пушту), сан (санскрит), грех (сингальский), srp_latn (сербский латиницей), сыр (сирийский), тгк (таджикский), тир (тигринья), уиг (уйгурский), урд (урду), узб (узбекский), узб_цырл (узбекский кириллицей), йид (идиш). [14]

Кроме того, Tesseract можно обучить работе на других языках. [7]

Tesseract может довольно хорошо обрабатывать текст с письмом справа налево, такой как арабский или иврит, многие индийские алфавиты, а также CJK . Показатели точности показаны в этой презентации Рэя Смита для учебного пособия Tesseract на DAS 2016, Санторини. [15]

Tesseract подходит для использования в качестве серверной части и может использоваться для более сложных задач OCR, включая анализ макета, с использованием внешнего интерфейса, такого как OCRopus . [16]

Вывод Tesseract будет очень низкого качества, если входные изображения не будут предварительно обработаны в соответствии с ним: изображения (особенно снимки экрана ) должны быть масштабированы текста так, чтобы высота по оси x составляла не менее 20 пикселей; [17] любое вращение или перекос необходимо исправить, иначе текст не будет распознан, низкочастотные изменения яркости должны быть отфильтрованы высокочастотными фильтрами Tesseract , иначе этап бинаризации уничтожит большую часть страницы, а темные границы необходимо удалить вручную, иначе они будут ошибочно интерпретированы как персонажи. [18]

Пользовательские интерфейсы [ править ]

Окно конфигурации Tesseract в OCRFeeder

Tesseract выполняется из интерфейса командной строки . [19] Хотя Tesseract не поставляется с графическим интерфейсом, существует множество отдельных проектов, которые предоставляют для него графический интерфейс. [20] Одним из распространенных примеров является OCRFeeder . [21]

Прием [ править ]

В статье о Tesseract в июле 2007 года Энтони Кей из Linux Journal назвал его «необычным инструментом командной строки, который отлично справляется со своей задачей». Тогда он отметил: «Tesseract — это простой движок оптического распознавания символов. Процесс сборки немного причудливый, и движку нужны некоторые дополнительные функции (например, определение макета), но основная функция — распознавание текста — значительно лучше, чем что-либо еще. еще я пробовал от сообщества разработчиков программного обеспечения с открытым исходным кодом. Достаточно легко получить отличные показатели распознавания, используя только сканер и некоторые инструменты для работы с изображениями, такие как GIMP и Netpbm ». [5]

В ноябре 2020 года Брюстер Кале из Интернет-архива похвалил Тессеракт, сказав:

За последние несколько лет Tesseract сделал большой шаг вперед. Когда мы в последний раз оценивали точность, она была не так хороша, как собственная технология OCR, но ситуация изменилась: мы провели оценки, и она так же хороша и может стать лучше для нашего приложения благодаря новой архитектуре. [22]

См. также [ править ]

Ссылки [ править ]

  1. ^ Перейти обратно: а б Гугл (2008). "тессеракт-окр" . Гитхаб . Проверено 8 марта 2016 г.
  2. ^ «Выпуск 5.4.1 · tesseract-ocr/tesseract» . Проверено 12 июня 2024 г.
  3. ^ «Языки, поддерживаемые в разных версиях Tesseract» . Архивировано из оригинала 8 августа 2022 года . Проверено 21 ноября 2022 г.
  4. ^ «Документация Tesseract — Файлы обученных данных… — Файлы языковых данных для Tesseract» . Архивировано из оригинала 5 сентября 2022 года . Проверено 21 ноября 2022 г.
  5. ^ Перейти обратно: а б Кей, Энтони (июль 2007 г.). «Тессеракт: механизм оптического распознавания символов с открытым исходным кодом» . Linux-журнал . Проверено 28 сентября 2011 г.
  6. ^ Перейти обратно: а б Винсент, Люк (август 2006 г.). «Анонсируем Tesseract OCR» . Архивировано из оригинала 26 октября 2006 года . Проверено 26 июня 2008 г.
  7. ^ Перейти обратно: а б с д Это Canonical Ltd. (февраль 2011 г.). «ОКР» . Проверено 11 февраля 2011 г.
  8. ^ Перейти обратно: а б Анонс Tesseract OCR — официальный блог Google
  9. ^ Уиллис, Натан (сентябрь 2006 г.). «Система оптического распознавания символов Tesseract от Google — это квантовый скачок вперед» . Архивировано из оригинала 28 мая 2022 года . Проверено 18 июля 2008 г.
  10. ^ «Страница руководства TESSERACT(1)» . Гитхаб . Проверено 15 марта 2018 г.
  11. ^ Шмидт, Юлия (1 декабря 2021 г.). «Движок OCR Tesseract 5.0 преобразуется в плавающий формат для более быстрого обучения и распознавания • DEVCLASS» . ДЕВКЛАСС . Проверено 20 декабря 2021 г.
  12. ^ Райс Стивен В., Фрэнк Р. Дженкинс и Томас А. Нарткер. Четвертый ежегодный тест точности оптического распознавания символов , expervision.com, получено 21 мая 2013 г.
  13. ^ Проект Тессеракт (февраль 2011 г.). «Проблема 263: исправление для включения вывода hOCR» . Архивировано из оригинала 13 ноября 2012 года . Проверено 26 февраля 2011 г.
  14. ^ «langdata — исходные данные обучения для Tesseract для множества языков» . Гитхаб . Проверено 6 ноября 2016 г.
  15. ^ «Обучение сетей LSTM на 100 языках и результаты тестов» (PDF) . Гитхаб . Проверено 18 марта 2018 г.
  16. ^ Анонс системы OCRopus с открытым исходным кодом. Архивировано 14 апреля 2007 г. в Wayback Machine (Томас Брейэл, руководитель проекта OCRopus).
  17. ^ «Часто задаваемые вопросы — tesseract-ocr — Часто задаваемые вопросы — Механизм оптического распознавания символов, разработанный в лабораториях HP в период с 1985 по 1995 год… а теперь в Google. — Хостинг проектов Google» . Архивировано из оригинала 23 декабря 2015 года . Проверено 30 мая 2014 г.
  18. ^ «ImproveQuality — tesseract-ocr — Советы по улучшению качества вашей продукции. — Механизм оптического распознавания символов, разработанный в лабораториях HP в период с 1985 по 1995 год… а теперь и в Google. — Хостинг проектов Google» . 27 января 2014 г. Архивировано из оригинала 20 сентября 2015 г. Проверено 30 мая 2014 г.
  19. ^ Код Google – Readme для Тессеракта
  20. ^ «3rdParty — tesseract-ocr — графические интерфейсы и другие проекты, использующие Tesseract OCR» . github.com . Проверено 9 марта 2024 г.
  21. ^ «ОКРФидер» . ГНОМ вики . Проверено 12 января 2019 г. .
  22. ^ Брюстер Кале (23 ноября 2020 г.). «FOSS снова побеждает: сообщества свободных и открытых исходных кодов появляются в газетах (а также книгах и периодических изданиях...) 19-го века - блогах интернет-архива» . blog.archive.org . Проверено 1 декабря 2020 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 38B04AAFAB1A585952CB74AF1F9CD661__1709988540
URL1:https://en.wikipedia.org/wiki/Tesseract_(software)
Заголовок, (Title) документа по адресу, URL1:
Tesseract (software) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)