ОКР-А

ОКР-А
Категория Без засечек
Дизайнер(ы) Американские основатели шрифтов
По заказу Американский национальный институт стандартов
Дата выпуска 1968 [1]
Вариации OCR-A расширенный
Образец

OCR-A шрифт, выпущенный в 1966 году. [2] и впервые реализованный в 1968 году. [3] Специальный шрифт был необходим на заре компьютерного оптического распознавания символов , когда возникла потребность в шрифте, который мог бы распознаваться не только компьютерами того времени, но и людьми. [4] OCR-A использует простые толстые штрихи для создания узнаваемых символов. [5] Шрифт является моноширинным (фиксированной ширины), при этом принтер должен размещать глифы на расстоянии 0,254 см ( 0,10 дюйма) друг от друга, а устройство чтения должно принимать любое расстояние от 0,2286 см ( 0,09 дюйма) до 0,4572 см ( 0,18 дюйма).

Стандартизация [ править ]

Шрифт OCR-A был стандартизирован Американским национальным институтом стандартов (ANSI).как ANSI X3.17-1981. С тех пор X3.4 стал INCITS , а стандарт OCR-A теперь называется ISO 1073-1:1976 .

Реализации [ править ]

В 1968 году компания American Type Founders выпустила OCR-A, один из первых шрифтов для оптического распознавания символов, отвечающих критериям, установленным Бюро стандартов США. Конструкция проста, поэтому ее может легко прочитать машина, но человеческому глазу ее труднее прочитать. [3]

Когда металлический шрифт уступил место компьютерному набору, Тор Лиллквист использовал Metafont для описания шрифта OCR-A. [ когда? ] Это определение впоследствии было усовершенствовано Ричардом Б. Уэльсом. Их работы доступны на CTAN . [6]

Чтобы сделать бесплатную версию шрифта более доступной для пользователей Microsoft Windows, Джон Сотер в 2004 году преобразовал определения Metafont в TrueType с помощью potrace и FontForge . [7] В 2007 году Гюркан Сенгюн создал пакет Debian на основе этой реализации. [8] В 2008 году Люк Деврой исправил вертикальное позиционирование в реализации Джона Саутера и исправил строчную букву z в имени. [9]

Независимо, Мэтью Скала [10] использовал mftrace [11] для преобразования определений Metafont в формат TrueType в 2006 году. В 2011 году он выпустил новую версию, созданную путем переписывания определений Metafont для работы с METATYPE1 , генерируя контуры напрямую без промежуточного этапа трассировки. 27 сентября 2012 г. он обновил свою реализацию до версии 0.2. [12]

Помимо этих бесплатных реализаций OCR-A, существуют также реализации, продаваемые несколькими поставщиками. В шутку Тобиас Фрер-Джонс в 1995 году создал Estupido-Espezial, редизайн с росчерками и S. длинной буквой Он использовался в разделе «Технологии» журнала Rolling Stone . [13] [14]

Компания Maxitype разработала шрифт OCR-X на основе шрифта OCR-A с функциями OpenType — дингбатами на инопланетную и технологическую тематику — доступными в шести вариантах насыщенности (тонкий, легкий, обычный, средний, жирный, черный). [15]

Используйте [ править ]

OCR-A на чеке немецкого банка . Символы ⑂, ⑀ и ⑁ используются для разделения определенных полей в машиночитаемой строке (здесь показано частично отредактировано).

Хотя технология оптического распознавания символов продвинулась до такой степени, что такие простые шрифты больше не нужны, [16] шрифт OCR-A остался в использовании. Его использование по-прежнему широко распространено при кодировании чеков по всему миру. Некоторые компании, производящие сейфы, по-прежнему настаивают на том, чтобы номер счета и сумма задолженности в форме возврата счета были напечатаны в формате OCR-A. [17] Кроме того, из-за своего необычного вида его иногда используют в рекламной и демонстрационной графике.

Примечательно, что он используется для субтитров в фильмах и телесериалах, таких как «Черный список» , а также для основных заголовков в «Претенденте» . Дополнительно используется OCR-A. [ как? ] за фильмы «Багровый прилив» и «13 часов: Тайные солдаты Бенгази» .

Кодовые точки [ править ]

Шрифт — это набор фигур символов или глифов . Чтобы компьютер мог использовать шрифт, каждому глифу должна быть присвоена кодовая точка в наборе символов . Когда OCR-A стандартизировался, обычной кодировкой символов был Американский стандартный код обмена информацией или ASCII. Не все глифы OCR-A соответствуют ASCII, и для пяти символов были альтернативные глифы, что могло указывать на необходимость второго шрифта. Однако для удобства и эффективности предполагалось, что все глифы будут доступны в одном шрифте с использованием кодировки ASCII, а дополнительные символы будут размещены в точках кодирования, которые в противном случае не использовались бы.

Современным потомком ASCII является Unicode , также известный как ISO 10646 . Юникод содержит ASCII и имеет специальные возможности для символов OCR, поэтому в некоторых реализациях OCR-A для поиска используются Unicode.руководство по присвоению кодов символов.

представление Unicode Стандартное до

Стандарт ISO E - 2033 :1983 и соответствующий японский промышленный стандарт JIS X 9010:1984 (первоначально JIS C 6229-1984) определяют кодировки символов для OCR-A, OCR-B и 13B . Для OCR-A они определяют модифицированный 7-битный набор ASCII (также известный под номером ISO-IR ISO-IR-91), включающий только прописные буквы, цифры, подмножество знаков препинания и символов, а также некоторые дополнительные символы. [18] Коды, которые переопределены относительно ASCII, а не просто опущены, перечислены ниже:

Характер Изображение Расположение В ASCII Комментарии
£ Знак фунта0x23 # Соответствует BS 4730, варианту ISO 646 для Великобритании . [19]
{ Левая фигурная скобка0x28 ( Имя персонажа по-прежнему «ЛЕВАЯ СКОБКА», несмотря на наличие скобки. Обычная левая скобка ASCII-кода 0x7B опущена. [18]
} Правая фигурная скобка0x29 ) Имя персонажа по-прежнему «ПРАВАЯ СКОБКА», несмотря на наличие скобки. Обычный ASCII-код правой скобки 0x7D опущен. [18]
OCR-крючок0x3C <
Председатель ОКР0x3E >
¥ Знак иены0x5C \ Соответствует JIS X 0201 . Включено в JIS X 9010, но отсутствует в ISO 2033. [18]
OCR-вилка0x5D ]

Кроме того, длинная вертикальная отметка ( Длинная вертикальная отметка) кодируется как 0x7C, что соответствует вертикальной черте ASCII (|). [18]

в Юникоде Выделенные символы OCR- A

Следующие символы были определены в целях управления и теперь находятся в диапазоне Юникода «Оптическое распознавание символов» 2440–245F :

Выделенные кодовые точки OCR-A на основе ASCII и Unicode. [20]
Имя Изображение Текст Юникод
OCR-крючок OCR-крючокU + 2440
Председатель ОКР Председатель ОКРU + 2441
OCR-вилка OCR-вилкаU + 2442
OCR Перевернутая вилка U + 2443
OCR Пряжка ремня U + 2444
OCR Галстук-бабочка U + 2445

Пробел, цифры и буквы без ударения [ править ]

цифры OCR-A
OCR-A заглавные буквы без ударения
OCR-A строчные буквы без ударения

Все реализации OCR-A используют U+0020 для пробела.От U+0030 до U+0039 для десятичных цифр,От U+0041 до U+005A для заглавных букв без ударения иОт U+0061 до U+007A для строчных букв без ударения.

Обычные символы [ править ]

Помимо цифр и букв без ударения, многие символы OCR-A имеют очевидные кодовые точки в ASCII.Из тех, которые этого не делают, большинство, включая все буквы OCR-A с диакритическими знаками, имеют очевидные кодовые точки в Юникоде.

Дополнительные кодовые точки OCR-A на основе ASCII и Unicode.
Имя Глиф Юникод
Восклицательный знак Восклицательный знакU + 0021
Кавычка КавычкаU + 0022
Числовой знак Числовой знакU + 0023
Знак доллара Знак доллараU + 0024
Знак процента Знак процентаU + 0025
Амперсанд АмперсандU + 0026
Апостроф АпострофU + 0027
Левая скобка Левая скобкаU + 0028
Правая скобка Правая скобкаU + 0029
Звездочка ЗвездочкаU + 002A
Плюс знак Плюс знакU + 002B
Запятая ЗапятаяU + 002C
Дефис-минус Дефис-минусU + 002D
Точка (точка) Точка (точка)U + 002E
Солидус (Слэш) Солидус (Слэш)U + 002F
Двоеточие ДвоеточиеU + 003A
Точка с запятой Точка с запятойU + 003B
Знак «меньше чем» Знак «меньше чем»U + 003C
Знак равенства Знак равенстваU + 003D
Знак «Больше чем» Знак «Больше чем»U + 003E
Знак вопроса Знак вопросаU + 003F
Коммерческий в Коммерческий вU + 0040
Левая квадратная скобка Левая квадратная скобкаU + 005B
Обратный солидус (обратная косая черта) Обратный солидусU + 005C
Правая квадратная скобка Правая квадратная скобкаU + 005D
Циркумфлекс Акцент Циркумфлекс АкцентU + 005E
Левая фигурная скобка Левая фигурная скобкаU + 007B
Правая фигурная скобка Правая фигурная скобкаU + 007D
Знак фунта стерлингов (стерлингов) Знак фунтаU + 00A3
Знак иены Знак иеныU + 00A5
Латинская заглавная буква А с диерезисом Латинская заглавная буква А с диерезисомU + 00C4
Латинская заглавная буква А с кольцом сверху Латинская заглавная буква А с кольцом сверхуU + 00C5
Латинская заглавная буква AE Латинская заглавная буква AEU + 00C6
Латинская заглавная буква N с тильдой Латинская заглавная буква N с тильдойU + 00D1
Латинская заглавная буква О с диерезисом Латинская заглавная буква О с диерезисомU + 00D6
Латинская заглавная буква О со штрихом Латинская заглавная буква О со штрихомU + 00D8
Латинская заглавная буква U с диерезисом Латинская заглавная буква U с диерезисомU + 00DC

Остальные персонажи [ править ]

Линотип [21] остальные символы OCR-A закодированы следующим образом:

Дополнительные символы OCR-A
Имя Глиф Юникод Имя в Юникоде
Длинная вертикальная отметка Длинная вертикальная отметкаU + 007C Вертикальная линия

Дополнительные персонажи [ править ]

Шрифты, созданные на основе работ Тора Лиллквиста и Ричарда Б. Уэйлса, определяют четыре символа, отсутствующие в OCR-A, для заполнения набора символов ASCII. Эти фигуры используют тот же стиль, что и фигуры символов OCR-A. Они есть:

Дополнительные символы ASCII
Имя Глиф Юникод
Низкая линия Низкая линияU + 005F
Могильный акцент Могильный акцентU + 0060
Вертикальная линия Вертикальная линияU + 007C
Тильда ТильдаU + 007E

Линотип также определяет дополнительные символы. [22]

Исключения [ править ]

Некоторые реализации не используют приведенные выше назначения кодовых точек для некоторых символов.

PrecisionID [ править ]

Реализация PrecisionID OCR-A имеет следующие нестандартные кодовые точки: [23]

  • Крючок OCR на U + 007E
  • Председатель OCR в U + 00C1
  • Вилка OCR на U + 00C2
  • Знак евро на U + 0080

Баркодсофт [ править ]

Реализация OCR-A от Barcodesoft имеет следующие нестандартные кодовые точки: [24] [25]

  • Крючок OCR на U + 0060
  • Председатель OCR в U + 007E
  • Разветвление OCR на U + 005F
  • Длинная вертикальная отметка в точке U+007C (согласно линотипу)
  • Стирание символов по адресу U+0008

Моровия [ править

Реализация OCR-A в Моровии имеет следующие нестандартные кодовые точки: [26]

  • OCR Hook на U + 007E (согласно PrecisionID)
  • Председатель OCR в U + 00F0
  • Форк OCR на U + 005F (согласно Barcodesoft)
  • Длинная вертикальная отметка в точке U+007C (согласно линотипу)

IDAutomation [ править ]

Реализация IDAutomation OCR-A имеет следующие нестандартные кодовые точки: [27]

  • OCR Hook на U + 007E (согласно PrecisionID)
  • Председатель OCR в U + 00C1 (согласен с PrecisionID)
  • Форк OCR на U+00C2 (согласен с PrecisionID)
  • Пряжка ремня OCR на U + 00C3

Кодировка MS-DOS OCR-A [ править ]

Кодировка MS-DOS OCR-A — кодовая страница 876 .

MS-DOS OCR-А [28]
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
0x
1x [а]
2x  СП  ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ А Б С Д И Ф Г ЧАС я Дж К л М Н ТО
5x П вопрос Р С Т В V В Х И С [ \ ] ^
2442
6x
2441
а б с д и ж г час я дж к л м н тот
7x п д р с т в v В х и С { | }
2440
[б]
8x Ä Ой
9x Ой ОН О £ ¥
Топор С Ø
Бх
Сх
Дх
Бывший
Форекс

Символы не в Юникоде: [29]

  • ^ Групповое стирание (0x18)
  • ^b Удаление символов (0x7F)

Продавцы стандартов шрифтов [ править ]

См. также [ править ]

Примечания [ править ]

  1. ^ Фон шрифта OCR-A от Adobe.
  2. ^ Американский национальный стандартный набор символов для оптического распознавания символов (OCR-A) (PDF) . АНСИ Х3.17-1981. Американский национальный институт стандартов, Inc., 1981. с. 3. Набор символов OCR-A для оптического распознавания символов был впервые разработан в США в 1961 году только как цифровой шрифт. В 1966 году был выпущен буквенно-цифровой шрифт, содержащий 57 символов, включая существующий цифровой шрифт, 4 абстрактных символа и только заглавные буквы. Пересмотренный стандарт назывался «Американский национальный стандартный набор символов для оптического распознавания символов, ANSI X3.17-1966». {{cite book}}: Неизвестный параметр |agency= игнорируется ( помогите )
  3. ^ Jump up to: Перейти обратно: а б «ОКР А» . В 1968 году компания American Type Founders выпустила OCR-A, один из первых шрифтов для оптического распознавания символов, отвечающих критериям, установленным Бюро стандартов США. Конструкция проста, поэтому ее может прочитать машина, но человеческому глазу прочитать ее немного сложнее. OCR-A соответствует стандарту X-3.17-1981 (размер I), установленному Американским национальным институтом стандартов (ANSI) 1981 года. Такая же конструкция предусмотрена и для немецкого стандарта DIN 66008. OCR-B был разработан в 1968 году Адрианом Фрутигером для Monotype. Эта конструкция расширяет возможности оптического считывателя, но людям легче читать. Конструкция OCR-B соответствует стандарту ISO 1073/II-1976 (E) с исправлениями 1979 года (высокая печать, размер I). И OCR-A, и OCR-B имеют «альтернативные» версии, которые имеют стандартный набор символов ISO-Adobe вместо более ограниченного набора символов OCR.
  4. ^ Мотивация OCR-A от Microscan
  5. ^ «История OCR в области разработки встроенного программного обеспечения» . Архивировано из оригинала 17 сентября 2016 г. Проверено 1 сентября 2012 г.
  6. ^ Исходники MetaFont для OCR-A от CTAN.
  7. ^ Шрифт OCR-A Джона Саутера 2004 года из этих источников MetaFont.
  8. ^ Пакеты Debian fonts-ocr-a, основанные на проекте Джона Саутера SourceForge.
  9. ^ Отчет Люка Девроя о его изменениях в реализации OCR-A Джона Саутера.
  10. ^ Домашняя страница Мэтью Скалы
  11. ^ Пакет Debian mftrace
  12. ^ Шрифт OCR-A Мэтью Скалы 2012 года из источников MetaFont.
  13. ^ Хефлер, Джонатан. «Два дурака» . Хефлер и Ко . Проверено 18 сентября 2021 г.
  14. ^ «Технологии, осень 97». Роллинг Стоун . № 774. 27 ноября 1997 г. п. 59.
  15. ^ «Шрифт OCR-X» . Макситип . Проверено 24 сентября 2023 г.
  16. ^ «История ОЦР». Журнал обработки данных . 12:46 . 1970.
  17. ^ «Описание услуги сейфа, примечание: «Счет содержит счет и выписку с информацией о пациенте, содержащейся в сканируемой строке оптического распознавания символов (OCR). Строка OCR по внешнему виду аналогична той, что находится в выписке по кредитной карте или в телефонном счете." " ( PDF) . Архивировано из оригинала (PDF) 1 марта 2017 г. Проверено 30 июля 2015 г.
  18. ^ Jump up to: Перейти обратно: а б с д и ISO/TC97/SC2 (1 августа 1985 г.). Японский набор графических символов OCR-A (PDF) . ITSCJ/ IPSJ . ИСО-ИР -91. {{citation}}: CS1 maint: числовые имена: список авторов ( ссылка )
  19. ^ БСИ (1 декабря 1975 г.). Набор графических символов 7-битного кода данных Соединенного Королевства (PDF) . ITSCJ/ IPSJ . ИСО-ИК -4.
  20. ^ «Оптическое распознавание символов» (PDF) . Консорциум Юникод . Архивировано (PDF) из оригинала 4 января 2023 года . Проверено 4 января 2023 г.
  21. ^ Шрифт Linotype OCR-A: выберите «Карта символов», чтобы увидеть символы и их кодировку.
  22. ^ Расширенный шрифт Linotype OCR-A: выберите «Карта символов», затем «Показать все».
  23. ^ Руководство пользователя PrecisionID для реализации PrecisionID шрифта OCR-A.
  24. ^ Информационная страница для реализации штрих-кода шрифта OCR-A.
  25. ^ Еще один источник информации о шрифтах штрих-кода.
  26. ^ Информационная страница реализации шрифта OCR-A в Моровии.
  27. ^ Информационная страница реализации IDAutomation шрифтов OCR-A и OCR-B.
  28. ^ «Кодовая страница 876» (PDF) . Архивировано из оригинала (PDF) 21 января 2013 г.
  29. ^ Наборы буквенно-цифровых символов для оптического распознавания - Часть I: Набор символов OCR-A - Формы и размеры печатного изображения (предварительный просмотр) (PDF) . стр. 2–3.

Внешние ссылки [ править ]