~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ D0B6DF49300788D8CD6951BACDE59B9F__1707267240 ✰
Заголовок документа оригинал.:
✰ Handwriting recognition - Wikipedia ✰
Заголовок документа перевод.:
✰ Распознавание рукописного ввода — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Handwriting_recognition ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/d0/9f/d0b6df49300788d8cd6951bacde59b9f.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/d0/9f/d0b6df49300788d8cd6951bacde59b9f__translat.html ✰
Дата и время сохранения документа:
✰ 09.06.2024 13:25:35 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 7 February 2024, at 03:54 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Распознавание рукописного ввода — Википедия Jump to content

Распознавание рукописного ввода

Из Википедии, бесплатной энциклопедии

Подпись кантри-звезды Текса Уильямса

Распознавание рукописного ввода ( HWR ), также известное как распознавание рукописного текста ( HTR ), — это способность компьютера получать и интерпретировать понятный рукописный ввод из таких источников, как бумажные документы, фотографии , сенсорные экраны и другие устройства. [1] [2] Изображение написанного текста может быть распознано «автономно» с листа бумаги посредством оптического сканирования ( оптическое распознавание символов ) или интеллектуального распознавания слов . Альтернативно, движения кончика пера могут восприниматься «в режиме онлайн», например, с помощью поверхности экрана компьютера с пером, что, как правило, является более простой задачей, поскольку имеется больше подсказок. Система распознавания рукописного ввода обрабатывает форматирование, выполняет правильную сегментацию на символы и находит максимально возможное количество слов.

Офлайн-распознавание [ править ]

Распознавание рукописного текста в автономном режиме включает автоматическое преобразование текста на изображении в буквенные коды, которые можно использовать в компьютерных приложениях и приложениях для обработки текста. Данные, полученные с помощью этой формы, рассматриваются как статическое представление почерка. Распознавание рукописного текста в автономном режиме сравнительно сложно, поскольку разные люди имеют разные стили почерка. И на сегодняшний день механизмы OCR в первую очередь ориентированы на текст, напечатанный машиной, а ICR — на текст, «напечатанный вручную» (написанный заглавными буквами).

Традиционные методы [ править ]

Извлечение символов [ править ]

Распознавание символов в автономном режиме часто включает сканирование формы или документа. Это означает, что необходимо будет извлечь отдельные символы, содержащиеся в отсканированном изображении. Существуют инструменты, способные выполнить этот шаг. [3] Однако на этом этапе есть несколько распространенных недостатков. Чаще всего связанные символы возвращаются как одно изображение, содержащее оба символа. Это вызывает серьезную проблему на этапе распознавания. Тем не менее, доступно множество алгоритмов, которые снижают риск связанных символов.

Распознавание символов [ править ]

После извлечения отдельных символов используется механизм распознавания для идентификации соответствующего компьютерного символа. В настоящее время доступно несколько различных методов распознавания.

Извлечение признаков [ править ]

Извлечение признаков работает аналогично распознавателям нейронных сетей. Однако программистам приходится вручную определять свойства, которые они считают важными. Этот подход дает распознавателю больше контроля над свойствами, используемыми при идентификации. Однако любая система, использующая этот подход, требует значительно больше времени на разработку, чем нейронная сеть, поскольку свойства не изучаются автоматически.

Современные методы [ править ]

Если традиционные методы сосредоточены на сегментировании отдельных символов для распознавания, то современные методы сосредоточены на распознавании всех символов в сегментированной строке текста. Особое внимание они уделяют методам машинного обучения , которые способны изучать визуальные функции, избегая ранее использовавшихся ограничивающих функций. Современные методы используют сверточные сети для извлечения визуальных признаков из нескольких перекрывающихся окон изображения текстовой строки, которые рекуррентная нейронная сеть использует для определения вероятностей символов. [4]

Онлайн-признание [ править ]

Распознавание рукописного ввода в режиме онлайн предполагает автоматическое преобразование текста в том виде, в котором он написан на специальном дигитайзере или КПК , при этом датчик улавливает движения кончика пера, а также переключение пера вверх и вниз. Этот тип данных известен как цифровые чернила и может рассматриваться как цифровое представление рукописного текста. Полученный сигнал преобразуется в буквенные коды, которые можно использовать в компьютерных приложениях и приложениях для обработки текста.

Элементы онлайн-интерфейса распознавания рукописного текста обычно включают в себя:

  • ручка или стилус, которым пользователь может писать
  • сенсорная поверхность, которая может быть интегрирована с выходным дисплеем или примыкать к нему.
  • программное приложение, которое интерпретирует движения стилуса по поверхности письма, переводя полученные штрихи в цифровой текст.

Процесс онлайн-распознавания рукописного текста можно разбить на несколько общих этапов:

  • предварительная обработка,
  • извлечение признаков и
  • классификация

Цель предварительной обработки — отбросить ненужную информацию во входных данных, которая может негативно повлиять на распознавание. [5] Это касается скорости и точности. Предварительная обработка обычно состоит из бинаризации, нормализации, выборки, сглаживания и шумоподавления. [6] Второй шаг — извлечение признаков. Из двумерного или многомерного векторного поля, полученного от алгоритмов предварительной обработки, извлекаются многомерные данные. Цель этого шага — выделить важную информацию для модели распознавания. Эти данные могут включать в себя такую ​​информацию, как давление пера, скорость или изменение направления письма. Последний большой шаг — классификация. На этом этапе используются различные модели для сопоставления извлеченных функций с разными классами и, таким образом, для идентификации символов или слов, которые представляют эти функции.

Аппаратное обеспечение [ править ]

Коммерческие продукты, включающие распознавание рукописного ввода в качестве замены ввода с клавиатуры, были представлены в начале 1980-х годов. Примеры включают терминалы для рукописного ввода, такие как Pencept Penpad. [7] и торговый терминал Inforite. [8] С появлением большого потребительского рынка персональных компьютеров было представлено несколько коммерческих продуктов для замены клавиатуры и мыши на персональном компьютере единой системой указания/рукописного ввода, например, от Pencept. [9] ЦИК [10] и другие. Первым коммерчески доступным портативным компьютером планшетного типа стал GRiDPad от GRiD Systems , выпущенный в сентябре 1989 года. Его операционная система была основана на MS-DOS .

В начале 1990-х годов производители оборудования, включая NCR , IBM и EO, выпустили планшетные компьютеры под управлением операционной системы PenPoint , разработанной GO Corp. PenPoint повсюду использовала распознавание рукописного ввода и жестов, а также предоставляла эти возможности стороннему программному обеспечению. Планшетный компьютер IBM был первым, кто использовал название ThinkPad и использовал распознавание рукописного ввода IBM. Эта система распознавания позже была портирована на Microsoft Windows для Pen Computing и IBM Pen для OS/2 . Ни один из них не имел коммерческого успеха.

Достижения в области электроники позволили разместить вычислительную мощность, необходимую для распознавания рукописного текста, в меньшем форм-факторе, чем планшетные компьютеры, а распознавание рукописного текста часто используется в качестве метода ввода для портативных КПК . Первым КПК, обеспечивающим письменный ввод, был Apple Newton , который открыл публике преимущества упрощенного пользовательского интерфейса. Однако устройство не имело коммерческого успеха из-за ненадежности программного обеспечения, которое пыталось изучить образцы письма пользователя. К моменту выпуска Newton OS 2.0, в которой распознавание рукописного ввода было значительно улучшено, включая уникальные функции, до сих пор не встречающиеся в современных системах распознавания, такие как немодальное исправление ошибок, первое впечатление сложилось в основном негативное. После прекращения выпуска Apple Newton эта функция была включена в Mac OS X 10.2 и более поздние версии под названием Inkwell .

Позже Palm выпустила успешную серию КПК на основе системы распознавания граффити . Граффити улучшило удобство использования за счет определения набора «одноштрихов» или форм с одним штрихом для каждого символа. Это сузило вероятность ошибочного ввода, хотя запоминание рисунков штрихов действительно увеличило время обучения пользователя. Было обнаружено, что распознавание рукописного ввода Graffiti нарушает патент, принадлежащий Xerox, и Palm заменила Graffiti лицензионной версией распознавания рукописного ввода CIC, которая, хотя и поддерживает одноштриховые формы, появилась раньше патента Xerox. Решение суда о нарушении было отменено в ходе апелляции, а затем снова отменено в ходе более поздней апелляции. Впоследствии вовлеченные стороны пришли к соглашению по этому и другим патентам.

Планшетный ПК — это ноутбук с планшетом-дигитайзером и стилусом, который позволяет пользователю вводить текст от руки на экране устройства. Операционная система распознает рукописный ввод и преобразует его в текст. Windows Vista и Windows 7 включают функции персонализации, которые изучают модели письма или словарный запас пользователя на английском, японском, традиционном китайском, упрощенном китайском и корейском языках. В число функций входит «мастер персонализации», который запрашивает образцы почерка пользователя и использует их для переобучения системы для более точного распознавания. Эта система отличается от менее совершенной системы распознавания рукописного текста, используемой в ОС Windows Mobile для КПК.

Хотя распознавание рукописного ввода является формой ввода, к которой общественность уже привыкла, оно не получило широкого распространения ни на настольных компьютерах, ни на ноутбуках. До сих пор общепринято, что ввод с клавиатуры быстрее и надежнее. По состоянию на 2006 год Многие КПК поддерживают рукописный ввод, иногда даже воспринимая естественный рукописный ввод, но точность по-прежнему остается проблемой, и некоторые люди до сих пор считают даже простую экранную клавиатуру более эффективной.

Программное обеспечение [ править ]

Ранние программы могли понимать печатный почерк, в котором символы были разделены; однако рукописный почерк со связанными символами представлял собой парадокс Сэйра - трудность, связанную с сегментацией символов. В 1962 году Шелия Губерман , находившийся тогда в Москве, написал первую прикладную программу распознавания образов. [11] Коммерческие примеры были предоставлены такими компаниями, как Communications Intelligence Corporation и IBM.

В начале 1990-х годов две компании — ParaGraph International и Lexicus — разработали системы, способные распознавать рукописный ввод. Компания ParaGraph базировалась в России и была основана ученым-компьютерщиком Степаном Пачиковым, а компания Lexicus была основана Ронджоном Нагом и Крисом Кортге, студентами Стэнфордского университета. Система ParaGraph CalliGrapher была развернута в системах Apple Newton, а система Lexicus Longhand стала коммерчески доступной для операционных систем PenPoint и Windows. Lexicus была приобретена Motorola в 1993 году и продолжила разработку систем распознавания китайского рукописного текста и интеллектуального текста для Motorola. ParaGraph была приобретена в 1997 году компанией SGI, и ее команда по распознаванию рукописного текста сформировала подразделение P&I, позже приобретенное у SGI Вадемом . Microsoft приобрела распознавание рукописного ввода CalliGrapher и другие технологии цифрового рукописного ввода, разработанные P&I, у Vadem в 1999 году.

Wolfram Mathematica (8.0 или более поздняя версия) также предоставляет функцию распознавания рукописного ввода или текста TextRecouncee.

Исследования [ править ]

Метод, используемый для использования контекстной информации в первой системе интерпретации рукописных адресов , разработанной Саргуром Шрихари и Джонатаном Халлом. [12]

Распознавание рукописного ввода имеет активное сообщество ученых, изучающих его. Крупнейшими конференциями по распознаванию рукописного текста являются Международная конференция по границам в распознавании рукописного текста (ICFHR), проводимая в четные годы, и Международная конференция по анализу и распознаванию документов (ICDAR), проводимая в нечетные годы. Обе эти конференции одобрены IEEE и IAPR . В 2021 году материалы ICDAR будут опубликованы LNCS , Springer.

Активные направления исследований включают в себя:

Результаты с 2009 года [ править ]

С 2009 года рекуррентные нейронные сети и нейронные сети глубокого прямого распространения , разработанные исследовательской группой Юргена Шмидхубера в швейцарской лаборатории искусственного интеллекта IDSIA, выиграли несколько международных конкурсов почерка. [13] В частности, двунаправленная и многомерная длинная кратковременная память (LSTM). [14] [15] Алекса Грейвса и др. выиграл три конкурса по связанному распознаванию рукописного ввода на Международной конференции по анализу и распознаванию документов (ICDAR) 2009 года, не имея каких-либо предварительных знаний о трех различных языках (французском, арабском и персидском ), которые предстоит изучать. Последние графического процессора на основе методы глубокого обучения для сетей прямой связи, разработанные Дэном Сиресаном и его коллегами из IDSIA , выиграли офлайн-конкурс по распознаванию китайского рукописного текста ICDAR 2011; их нейронные сети также были первыми искусственными распознавателями образов, достигшими производительности, конкурентоспособной с точки зрения человека. [16] о знаменитой задаче MNIST о рукописных цифрах [17] Янна Лекуна и его коллег из Нью-Йоркского университета .

Бенджамин Грэм из Уорикского университета выиграл конкурс по распознаванию китайского рукописного текста в 2013 году с коэффициентом ошибок всего 2,61%, используя подход к сверточным нейронным сетям , которые превратились (к 2017 году) в «разреженные сверточные нейронные сети». [18] [19]

См. также [ править ]

Списки [ править ]

Ссылки [ править ]

  1. ^ Фёрстнер, Вольфганг (1999). Распознавание образов, 1999 г.: 21-й симпозиум DAGM, Бонн, 15–17. Сентябрь 1999 года . Иоахим М. Буманн, Аннетт Фабер, Петко Фабер. Берлин, Гейдельберг: Springer Berlin Heidelberg. ISBN  978-3-642-60243-6 . OCLC   913706869 .
  2. ^ Шенк, Иоахим (2010). Человеко-машинное общение: основы голосовых и графических пользовательских интерфейсов . Герхард Риголль. Гейдельберг: Спрингер. ISBN  978-3-642-05457-0 . OCLC   609418875 .
  3. ^ Java OCR, 5 июня 2010 г. Проверено 5 июня 2010 г.
  4. ^ Пучсервер, Джоан. «Действительно ли многомерные повторяющиеся слои необходимы для распознавания рукописного текста?». Анализ и распознавание документов (ICDAR), 2017 14-я Международная конференция IAPR. Том. 1. ИИЭР, 2017.
  5. ^ Хуанг, Б.; Чжан Ю. и Кечади М.; Методы предварительной обработки для распознавания рукописного текста в Интернете. Интеллектуальная категоризация и кластеризация текста , Springer Berlin Heidelberg, 2009, Vol. 164, «Исследования в области вычислительного интеллекта», стр. 25–45.
  6. ^ Хольцингер, А.; Стокер, К.; Пайшль Б. и Симоник К.-М.; Об использовании энтропии для улучшения предварительной обработки рукописного текста , Entropy 2012, 14, стр. 2324–2350.
  7. ^ Литература по продукту Pencept Penpad (TM) 200 , Pencept, Inc., 15 августа 1982 г.
  8. ^ Терминал распознавания символов руки Inforite , Cadre Systems Limited, Англия, 15 августа 1982 г.
  9. ^ Руководство пользователя Penpad 320 , Pencept, Inc., 15 июня 1984 г.
  10. ^ Рукописный ввод (П) GrafText (TM) Модель системы GT-5000 , Communication Intelligence Corporation, 15 января 1985 г.
  11. ^ Губерман — изобретатель технологии распознавания рукописного текста, используемой сегодня Microsoft в Windows CE. Источник: сообщение In-Q-Tel, 03.06.2003
  12. ^ С. Н. Срихари и Э. Дж. Кеуберт, «Интеграция технологии интерпретации рукописных адресов в систему удаленного компьютерного считывания почтовой службы США», Proc. Межд. Конф. Анализ и распознавание документов (ICDAR) 1997, IEEE-CS Press, стр. 892–896.
  13. ^ Интервью Kurzweil AI, 2012. Архивировано 31 августа 2018 года в Wayback Machine с Юргеном Шмидхубером о восьми соревнованиях, выигранных его командой глубокого обучения в 2009-2012 годах.
  14. ^ Грейвс, Алекс; и Шмидхубер, Юрген; Автономное распознавание рукописного ввода с помощью многомерных рекуррентных нейронных сетей , Бенджио, Йошуа; Шурманс, Дейл; Лафферти, Джон; Уильямс, Крис К.И.; и Кулотта, Арон (ред.), « Достижения в области систем нейронной обработки информации 22» (NIPS'22), 7–10 декабря 2009 г., Ванкувер, Британская Колумбия , Фонд систем нейронной обработки информации (NIPS), 2009 г., стр. 545–552.
  15. ^ А. Грейвс, М. Ливицкий, С. Фернандес, Р. Бертолами, Х. Бунке, Дж. Шмидхубер . Новая коннекционистская система для улучшения неограниченного распознавания рукописного текста. Транзакции IEEE по анализу шаблонов и машинному интеллекту, том. 31, нет. 5, 2009.
  16. ^ DC Чиресан, У. Мейер, Дж. Шмидхубер . Многоколоночные глубокие нейронные сети для классификации изображений. Конференция IEEE. по компьютерному зрению и распознаванию образов CVPR 2012.
  17. ^ ЛеКун, Ю. , Ботту, Л., Бенджио, Ю., и Хаффнер, П. (1998). Градиентное обучение, применяемое для распознавания документов. Учеб. IEEE, 86, стр. 2278–2324.
  18. ^ «Разреженные сети приходят на помощь большой физике» . Журнал Кванта . Июнь 2023 года . Проверено 17 июня 2023 г.
  19. ^ Грэм, Бенджамин. «Пространственно-разреженные сверточные нейронные сети». Препринт arXiv arXiv:1409.6070 (2014).

Внешние ссылки [ править ]


Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: D0B6DF49300788D8CD6951BACDE59B9F__1707267240
URL1:https://en.wikipedia.org/wiki/Handwriting_recognition
Заголовок, (Title) документа по адресу, URL1:
Handwriting recognition - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)