Распознавание рукописного ввода

Распознавание рукописного ввода ( HWR ), также известное как распознавание рукописного текста ( HTR ), — это способность компьютера получать и интерпретировать понятный рукописный ввод из таких источников, как бумажные документы, фотографии , сенсорные экраны и другие устройства. ^[1]^[2] Изображение написанного текста может быть распознано «автономно» с листа бумаги посредством оптического сканирования ( оптическое распознавание символов ) или интеллектуального распознавания слов . В качестве альтернативы, движения кончика пера могут восприниматься «в режиме онлайн», например, с помощью поверхности экрана компьютера, основанной на ручке, что, как правило, является более простой задачей, поскольку имеется больше подсказок. Система распознавания рукописного ввода обрабатывает форматирование, выполняет правильную сегментацию на символы и находит максимально возможное количество слов.

Офлайн-распознавание [ править ]

Распознавание рукописного текста в автономном режиме включает автоматическое преобразование текста на изображении в буквенные коды, которые можно использовать в компьютерных приложениях и приложениях для обработки текста. Данные, полученные с помощью этой формы, рассматриваются как статическое представление почерка. Распознавание рукописного текста в автономном режиме сравнительно сложно, поскольку разные люди имеют разные стили почерка. И на сегодняшний день механизмы OCR в первую очередь ориентированы на текст, напечатанный машиной, а ICR — на текст, «напечатанный вручную» (написанный заглавными буквами).

Традиционные методы [ править ]

Извлечение символов [ править ]

Распознавание символов в автономном режиме часто включает сканирование формы или документа. Это означает, что необходимо будет извлечь отдельные символы, содержащиеся в отсканированном изображении. Существуют инструменты, способные выполнить этот шаг. ^[3] Однако на этом этапе есть несколько распространенных недостатков. Чаще всего связанные символы возвращаются как одно изображение, содержащее оба символа. Это вызывает серьезную проблему на этапе распознавания. Тем не менее, доступно множество алгоритмов, которые снижают риск связанных символов.

Распознавание символов [ править ]

После извлечения отдельных символов используется механизм распознавания для идентификации соответствующего компьютерного символа. В настоящее время доступно несколько различных методов распознавания.

Извлечение признаков [ править ]

Извлечение признаков работает аналогично распознавателям нейронных сетей. Однако программистам приходится вручную определять свойства, которые они считают важными. Этот подход дает распознавателю больше контроля над свойствами, используемыми при идентификации. Однако любая система, использующая этот подход, требует значительно больше времени на разработку, чем нейронная сеть, поскольку свойства не изучаются автоматически.

Современные методы [ править ]

Если традиционные методы сосредоточены на сегментировании отдельных символов для распознавания, то современные методы сосредоточены на распознавании всех символов в сегментированной строке текста. Особое внимание они уделяют методам машинного обучения , которые способны изучать визуальные функции, избегая ранее использовавшихся ограничивающих функций. Современные методы используют сверточные сети для извлечения визуальных признаков из нескольких перекрывающихся окон изображения текстовой строки, которые рекуррентная нейронная сеть использует для определения вероятностей символов. ^[4]

Онлайн-признание [ править ]

Распознавание рукописного текста в режиме онлайн предполагает автоматическое преобразование текста в том виде, в котором он написан на специальном дигитайзере или КПК , при этом датчик улавливает движения кончика пера, а также переключение пера вверх и вниз. Этот тип данных известен как цифровые чернила и может рассматриваться как цифровое представление рукописного текста. Полученный сигнал преобразуется в буквенные коды, которые можно использовать в компьютерных приложениях и приложениях для обработки текста.

Элементы онлайн-интерфейса распознавания рукописного текста обычно включают в себя:

ручка или стилус, которым пользователь может писать
сенсорная поверхность, которая может быть интегрирована с выходным дисплеем или примыкать к нему.
программное приложение, которое интерпретирует движения стилуса по поверхности письма, переводя полученные штрихи в цифровой текст.

Процесс онлайн-распознавания рукописного текста можно разбить на несколько общих этапов:

предварительная обработка,
извлечение признаков и
классификация

Цель предварительной обработки — отбросить ненужную информацию во входных данных, которая может негативно повлиять на распознавание. ^[5] Это касается скорости и точности. Предварительная обработка обычно состоит из бинаризации, нормализации, выборки, сглаживания и шумоподавления. ^[6] Второй шаг — извлечение признаков. Из двумерного или многомерного векторного поля, полученного от алгоритмов предварительной обработки, извлекаются многомерные данные. Цель этого шага — выделить важную информацию для модели распознавания. Эти данные могут включать в себя такую информацию, как давление пера, скорость или изменение направления письма. Последний большой шаг — классификация. На этом этапе используются различные модели для сопоставления извлеченных функций с разными классами и, таким образом, для идентификации символов или слов, которые представляют эти функции.

Аппаратное обеспечение [ править ]

Коммерческие продукты, включающие распознавание рукописного ввода в качестве замены ввода с клавиатуры, были представлены в начале 1980-х годов. Примеры включают терминалы для рукописного ввода, такие как Pencept Penpad. ^[7] и торговый терминал Inforite. ^[8]С появлением большого потребительского рынка персональных компьютеров было представлено несколько коммерческих продуктов для замены клавиатуры и мыши на персональном компьютере единой системой указания/рукописного ввода, например, от Pencept. ^[9] ЦИК ^[10] и другие.Первым коммерчески доступным портативным компьютером планшетного типа стал GRiDPad от GRiD Systems , выпущенный в сентябре 1989 года. Его операционная система была основана на MS-DOS .

В начале 1990-х годов производители оборудования, включая NCR , IBM и EO, выпустили планшетные компьютеры под управлением операционной системы PenPoint , разработанной GO Corp. PenPoint повсюду использовала распознавание рукописного ввода и жестов, а также предоставляла эти возможности стороннему программному обеспечению. Планшетный компьютер IBM был первым, кто использовал название ThinkPad и использовал распознавание рукописного ввода IBM. Эта система распознавания позже была портирована на Microsoft Windows для Pen Computing и IBM Pen для OS/2 . Ни один из них не имел коммерческого успеха.

Достижения в области электроники позволили разместить вычислительную мощность, необходимую для распознавания рукописного текста, в меньшем форм-факторе, чем планшетные компьютеры, а распознавание рукописного текста часто используется в качестве метода ввода для портативных КПК . Первым КПК, обеспечивающим письменный ввод, был Apple Newton , который открыл публике преимущества упрощенного пользовательского интерфейса. Однако устройство не имело коммерческого успеха из-за ненадежности программного обеспечения, которое пыталось изучить образцы письма пользователя. К моменту выпуска Newton OS 2.0, в которой распознавание рукописного ввода было значительно улучшено, включая уникальные функции, до сих пор не встречающиеся в современных системах распознавания, такие как немодальное исправление ошибок, первое впечатление сложилось в основном негативное. После прекращения выпуска Apple Newton эта функция была включена в Mac OS X 10.2 и более поздние версии под названием Inkwell .

Позже Palm выпустила успешную серию КПК на основе системы распознавания граффити . Граффити улучшило удобство использования за счет определения набора «одноштрихов» или форм с одним штрихом для каждого символа. Это сузило вероятность ошибочного ввода, хотя запоминание рисунков штрихов действительно увеличило время обучения пользователя. Было обнаружено, что распознавание рукописного ввода Graffiti нарушает патент, принадлежащий Xerox, и Palm заменила Graffiti лицензионной версией распознавания рукописного ввода CIC, которая, хотя и поддерживает формы с одним штрихом, появилась раньше патента Xerox. Решение суда о нарушении было отменено в ходе апелляции, а затем снова отменено в ходе более поздней апелляции. Впоследствии вовлеченные стороны пришли к соглашению по этому и другим патентам.

Планшетный ПК — это ноутбук с планшетом-дигитайзером и стилусом, который позволяет пользователю вводить текст от руки на экране устройства. Операционная система распознает рукописный ввод и преобразует его в текст. Windows Vista и Windows 7 включают функции персонализации, которые изучают модели письма или словарный запас пользователя на английском, японском, традиционном китайском, упрощенном китайском и корейском языках. В число функций входит «мастер персонализации», который запрашивает образцы почерка пользователя и использует их для переобучения системы для более точного распознавания. Эта система отличается от менее совершенной системы распознавания рукописного текста, используемой в ОС Windows Mobile для КПК.

Хотя распознавание рукописного ввода является формой ввода, к которой общественность уже привыкла, оно не получило широкого распространения ни на настольных компьютерах, ни на ноутбуках. До сих пор общепринято, что ввод с клавиатуры быстрее и надежнее. По состоянию на 2006 год ^[update]Многие КПК поддерживают рукописный ввод, иногда даже воспринимая естественный рукописный ввод, но точность по-прежнему остается проблемой, и некоторые люди по-прежнему находят даже простую экранную клавиатуру более эффективной.

Программное обеспечение [ править ]

Ранние программы могли понимать печатный почерк, в котором символы были разделены; однако рукописный почерк со связанными символами представлял собой парадокс Сэйра - трудность, связанную с сегментацией символов. В 1962 году Шелия Губерман , находившийся тогда в Москве, написал первую прикладную программу распознавания образов. ^[11] Коммерческие примеры были предоставлены такими компаниями, как Communications Intelligence Corporation и IBM.

В начале 1990-х годов две компании — ParaGraph International и Lexicus — разработали системы, способные распознавать рукописный ввод. Компания ParaGraph базировалась в России и была основана ученым-компьютерщиком Степаном Пачиковым , а компания Lexicus была основана Ронджоном Нагом и Крисом Кортге, студентами Стэнфордского университета. Система ParaGraph CalliGrapher была развернута в системах Apple Newton, а система Lexicus Longhand стала коммерчески доступной для операционных систем PenPoint и Windows. Lexicus была приобретена Motorola в 1993 году и продолжила разработку систем распознавания китайского рукописного ввода и интеллектуального текста для Motorola. ParaGraph была приобретена в 1997 году компанией SGI, и ее команда по распознаванию рукописного текста сформировала подразделение P&I, позже приобретенное у SGI Вадемом . Microsoft приобрела распознавание рукописного ввода CalliGrapher и другие технологии цифрового рукописного ввода, разработанные P&I, у Vadem в 1999 году.

Wolfram Mathematica (8.0 или более поздняя версия) также предоставляет функцию распознавания рукописного ввода или текста TextRecouncee.

Исследования [ править ]

Распознавание рукописного ввода имеет активное сообщество ученых, изучающих его. Крупнейшими конференциями по распознаванию рукописного текста являются Международная конференция по границам в распознавании рукописного текста (ICFHR), проводимая в четные годы, и Международная конференция по анализу и распознаванию документов (ICDAR), проводимая в нечетные годы. Обе эти конференции одобрены IEEE и IAPR . В 2021 году материалы ICDAR будут опубликованы LNCS , Springer.

Активные направления исследований включают в себя:

Онлайн признание
Оффлайн признание
Проверка подписи
Интерпретация почтового адреса
Обработка банковских чеков
Признание писателя

Результаты с 2009 года [ править ]

С 2009 года рекуррентные нейронные сети и нейронные сети глубокого прямого распространения, разработанные исследовательской группой Юргена Шмидхубера в швейцарской лаборатории искусственного интеллекта IDSIA, выиграли несколько международных конкурсов почерка. ^[13] В частности, двунаправленная и многомерная длинная кратковременная память (LSTM). ^[14]^[15] Алекса Грейвса и др. выиграл три конкурса по связанному распознаванию рукописного ввода на Международной конференции по анализу и распознаванию документов (ICDAR) 2009 года, не имея каких-либо предварительных знаний о трех различных языках (французском, арабском и персидском ), которые предстоит изучать. Последние графического процессора на основе методы глубокого обучения для сетей прямой связи, разработанные Дэном Сиресаном и его коллегами из IDSIA, выиграли оффлайн-конкурс по распознаванию китайского рукописного текста ICDAR 2011; их нейронные сети также были первыми искусственными распознавателями образов, достигшими производительности, конкурентоспособной с точки зрения человека. ^[16] о знаменитой задаче MNIST о рукописных цифрах ^[17] Янна Лекуна и его коллег из Нью-Йоркского университета .

Бенджамин Грэм из Уорикского университета выиграл конкурс по распознаванию китайского рукописного текста в 2013 году с коэффициентом ошибок всего 2,61%, используя подход к сверточным нейронным сетям , которые (к 2017 году) превратились в «разреженные сверточные нейронные сети». ^[18]^[19]

См. также [ править ]

Списки [ править ]

Ссылки [ править ]

^ Фёрстнер, Вольфганг (1999). Распознавание образов, 1999 г.: 21-й симпозиум DAGM, Бонн, 15–17. Сентябрь 1999 года . Иоахим М. Буманн, Аннетт Фабер, Петко Фабер. Берлин, Гейдельберг: Springer Berlin Heidelberg. ISBN 978-3-642-60243-6 . OCLC 913706869 .
^ Шенк, Иоахим (2010). Человеко-машинное общение: основы голосовых и графических пользовательских интерфейсов . Герхард Риголль. Гейдельберг: Спрингер. ISBN 978-3-642-05457-0 . OCLC 609418875 .
^ Java OCR, 5 июня 2010 г. Проверено 5 июня 2010 г.
^ Пучсервер, Джоан. «Действительно ли многомерные повторяющиеся слои необходимы для распознавания рукописного текста?». Анализ и распознавание документов (ICDAR), 2017 14-я Международная конференция IAPR. Том. 1. ИИЭР, 2017.
^ Хуанг, Б.; Чжан Ю. и Кечади М.; Методы предварительной обработки для распознавания рукописного текста в Интернете. Интеллектуальная категоризация и кластеризация текста , Springer Berlin Heidelberg, 2009, Vol. 164, «Исследования в области вычислительного интеллекта», стр. 25–45.
^ Хольцингер, А.; Стокер, К.; Пайшль Б. и Симоник К.-М.; Об использовании энтропии для улучшения предварительной обработки рукописного текста , Entropy 2012, 14, стр. 2324–2350.
^ Литература по продукту Pencept Penpad (TM) 200 , Pencept, Inc., 15 августа 1982 г.
^ Терминал распознавания символов руки Inforite , Cadre Systems Limited, Англия, 15 августа 1982 г.
^ Руководство пользователя Penpad 320 , Pencept, Inc., 15 июня 1984 г.
^ Рукописный ввод (П) GrafText (TM) Модель системы GT-5000 , Communication Intelligence Corporation, 15 января 1985 г.
^ Губерман — изобретатель технологии распознавания рукописного текста, используемой сегодня Microsoft в Windows CE. Источник: сообщение In-Q-Tel, 03.06.2003
^ С. Н. Шрихари и Э. Дж. Кеуберт, «Интеграция технологии интерпретации рукописных адресов в систему удаленного компьютерного считывания почтовой службы США», Proc. Межд. Конф. Анализ и распознавание документов (ICDAR) 1997, IEEE-CS Press, стр. 892–896.
^ Интервью Kurzweil AI, 2012 г. Архивировано 31 августа 2018 г. в Wayback Machine с Юргеном Шмидхубером о восьми соревнованиях, выигранных его командой глубокого обучения в 2009–2012 гг.
^ Грейвс, Алекс; и Шмидхубер, Юрген; Автономное распознавание рукописного ввода с помощью многомерных рекуррентных нейронных сетей , Бенджио, Йошуа; Шурманс, Дейл; Лафферти, Джон; Уильямс, Крис К.И.; и Кулотта, Арон (ред.), «Достижения в области систем нейронной обработки информации 22» (NIPS'22), 7–10 декабря 2009 г., Ванкувер, Британская Колумбия , Фонд систем нейронной обработки информации (NIPS), 2009 г., стр. 545–552.
^ А. Грейвс, М. Ливицкий, С. Фернандес, Р. Бертолами, Х. Бунке, Дж. Шмидхубер . Новая коннекционистская система для улучшения неограниченного распознавания рукописного текста. Транзакции IEEE по анализу шаблонов и машинному интеллекту, том. 31, нет. 5, 2009.
^ DC Чиресан, У. Мейер, Дж. Шмидхубер . Многоколоночные глубокие нейронные сети для классификации изображений. Конференция IEEE. по компьютерному зрению и распознаванию образов CVPR 2012.
^ Лекун, Ю. , Ботту, Л., Бенджио, Ю., и Хаффнер, П. (1998). Градиентное обучение, применяемое для распознавания документов. Учеб. IEEE, 86, стр. 2278–2324.
^ «Разреженные сети приходят на помощь большой физике» . Журнал Кванта . Июнь 2023 года . Проверено 17 июня 2023 г.
^ Грэм, Бенджамин. «Пространственно-разреженные сверточные нейронные сети». Препринт arXiv arXiv:1409.6070 (2014).

Внешние ссылки [ править ]

[1] Фёрстнер, Вольфганг (1999). Распознавание образов, 1999 г.: 21-й симпозиум DAGM, Бонн, 15–17. Сентябрь 1999 года . Иоахим М. Буманн, Аннетт Фабер, Петко Фабер. Берлин, Гейдельберг: Springer Berlin Heidelberg. ISBN 978-3-642-60243-6 . OCLC 913706869 .

[2] Шенк, Иоахим (2010). Человеко-машинное общение: основы голосовых и графических пользовательских интерфейсов . Герхард Риголль. Гейдельберг: Спрингер. ISBN 978-3-642-05457-0 . OCLC 609418875 .

[3] Java OCR, 5 июня 2010 г. Проверено 5 июня 2010 г.

[4] Пучсервер, Джоан. «Действительно ли многомерные повторяющиеся слои необходимы для распознавания рукописного текста?». Анализ и распознавание документов (ICDAR), 2017 14-я Международная конференция IAPR. Том. 1. ИИЭР, 2017.

[5] Хуанг, Б.; Чжан Ю. и Кечади М.; Методы предварительной обработки для распознавания рукописного текста в Интернете. Интеллектуальная категоризация и кластеризация текста , Springer Berlin Heidelberg, 2009, Vol. 164, «Исследования в области вычислительного интеллекта», стр. 25–45.

[6] Хольцингер, А.; Стокер, К.; Пайшль Б. и Симоник К.-М.; Об использовании энтропии для улучшения предварительной обработки рукописного текста , Entropy 2012, 14, стр. 2324–2350.

[7] Литература по продукту Pencept Penpad (TM) 200 , Pencept, Inc., 15 августа 1982 г.

[8] Терминал распознавания символов руки Inforite , Cadre Systems Limited, Англия, 15 августа 1982 г.

[users.erols.com-9] Руководство пользователя Penpad 320 , Pencept, Inc., 15 июня 1984 г.

[rwservices.no-ip.info-10] Рукописный ввод (П) GrafText (TM) Модель системы GT-5000 , Communication Intelligence Corporation, 15 января 1985 г.

[11] Губерман — изобретатель технологии распознавания рукописного текста, используемой сегодня Microsoft в Windows CE. Источник: сообщение In-Q-Tel, 03.06.2003

[Integration_of_handwritten_recognition-12] С. Н. Шрихари и Э. Дж. Кеуберт, «Интеграция технологии интерпретации рукописных адресов в систему удаленного компьютерного считывания почтовой службы США», Proc. Межд. Конф. Анализ и распознавание документов (ICDAR) 1997, IEEE-CS Press, стр. 892–896.

[13] Интервью Kurzweil AI, 2012 г. Архивировано 31 августа 2018 г. в Wayback Machine с Юргеном Шмидхубером о восьми соревнованиях, выигранных его командой глубокого обучения в 2009–2012 гг.

[14] Грейвс, Алекс; и Шмидхубер, Юрген; Автономное распознавание рукописного ввода с помощью многомерных рекуррентных нейронных сетей , Бенджио, Йошуа; Шурманс, Дейл; Лафферти, Джон; Уильямс, Крис К.И.; и Кулотта, Арон (ред.), «Достижения в области систем нейронной обработки информации 22» (NIPS'22), 7–10 декабря 2009 г., Ванкувер, Британская Колумбия , Фонд систем нейронной обработки информации (NIPS), 2009 г., стр. 545–552.

[15] А. Грейвс, М. Ливицкий, С. Фернандес, Р. Бертолами, Х. Бунке, Дж. Шмидхубер . Новая коннекционистская система для улучшения неограниченного распознавания рукописного текста. Транзакции IEEE по анализу шаблонов и машинному интеллекту, том. 31, нет. 5, 2009.

[16] DC Чиресан, У. Мейер, Дж. Шмидхубер . Многоколоночные глубокие нейронные сети для классификации изображений. Конференция IEEE. по компьютерному зрению и распознаванию образов CVPR 2012.

[17] Лекун, Ю. , Ботту, Л., Бенджио, Ю., и Хаффнер, П. (1998). Градиентное обучение, применяемое для распознавания документов. Учеб. IEEE, 86, стр. 2278–2324.

[18] «Разреженные сети приходят на помощь большой физике» . Журнал Кванта . Июнь 2023 года . Проверено 17 июня 2023 г.

[19] Грэм, Бенджамин. «Пространственно-разреженные сверточные нейронные сети». Препринт arXiv arXiv:1409.6070 (2014).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

v т и Ручки
Types	Active Ballpoint Brush Demonstrator Digital Dip Fountain Gel Light Marker dry erase highlighter paint permanent UV Qalam Quill Rastrum Reed Rollerball Ruling Skin Stylus Technical
Parts and tools	Blotting paper Ink blotter Inkwell Nib flex nib Penknife Pounce
Inks	Alizarine Fountain pen India Iron gall Stark's
Other	Ballpoint pen artwork Ballpoint pen knife Counterfeit banknote Birmingham pen trade Pen Museum Pen computing Penmanship Pen painting Pen spinning Retipping
Related	Calligraphy Cartooning Comics Inking Lettering List of types, brands and companies Pencil Mechanical pencil Narayam