Кана половинной ширины
Кана половинной ширины ( 半角 カナ , Hankaku kana ) — это символы катаканы , отображаемые сжатыми до половины их обычной ширины ( соотношение сторон 1:2 ) вместо обычного квадратного (1:1) соотношения сторон. Например, обычная (полноширинная) форма катаканы ка — カ, а полуширинная — カ. половинной ширины Хирагана включена в Юникод, и ее можно использовать в Интернете или в электронных книгах с помощью CSS . font-feature-settings: "hwid" 1
со шрифтами OpenType на основе Adobe-Japan1-6 . [1] половинной ширины Кандзи можно использовать на современных компьютерах, а также в некоторых чековых принтерах, электрических досках объявлений и старых компьютерах. [2]
Кана половинной ширины использовалась на заре японской вычислительной техники, чтобы японские символы отображались в той же сетке, что и моноширинные шрифты латинских символов. Кандзи половинной ширины не использовались. Символы кана половинной ширины сегодня обычно не используются, но находят некоторое применение в определенных местах, таких как дисплеи кассовых аппаратов , на чеках магазинов, японское цифровое телевидение и субтитры на DVD, а также этикетки с почтовыми адресами. Их использование иногда также является стилистическим выбором, особенно часто в некоторых интернет-сленгах .
Термин «кана половинной ширины», который строго относится только к тому, как кана отображается , а не к тому, как они хранятся , также широко используется для обозначения блока A0–DF (шестнадцатеричный), где катакана хранится в некоторых кодировках символов , таких как как JIS X 0201 (1969) – см. кодировки ниже. Однако формально это неверно – этот стандарт JIS просто указывает, что катакана может храниться в этих местах, без указания того, как они должны отображаться; путаница связана с тем, что на ранних этапах вычислений символы, хранящиеся здесь, фактически отображались как кана половинной ширины — см. путаницу ниже.
История
[ редактировать ]Кана половинной ширины и кана шириной 2/3 использовались с докомпьютерной эпохи. [3] В раннюю компьютерную эпоху ASCII определялся как 7-битный набор символов и вмещал 128 символов. Однако, поскольку этот стандарт был разработан для Соединенных Штатов , он не содержит букв и символов, таких как символ иены (¥), необходимый для обозначения японской валюты, а также не включает места для символов из других алфавитов, таких как кана или кандзи. – таким образом, японские символы не могли быть закодированы . Кроме того, японские символы, как кана, так и кандзи, рисуются в квадратной сетке, тогда как латинские символы обычно пишутся более узко, поэтому японские символы также не могут отображаться .
JIS X 0201 был разработан в 1969 году, в то время, когда компьютеры, как по дизайну программного обеспечения, так и по аппаратным ресурсам, были в целом неспособны отображать тысячи китайских иероглифов кандзи, используемых в японском языке. В качестве компромисса этот стандарт кодировал катакану (только – не хирагану или кандзи) как небольшой набор символов, назначенных в диапазоне значений верхнего байта 0x80–0xFF. Это позволило 8-битным процессорам фонетически кодировать и обрабатывать японский текст (как катакану), но без возможности обработки хираганы или кандзи. Эти символы катаканы, в свою очередь, отображались как «кана половинной ширины» - новый, неортодоксальный, более узкий форм-фактор, соответствующий той же ширине, которую могли печатать и отображать машины с моноширинным латинским алфавитом. С точки зрения кодировки JIS X 0201 является вариантом расширения ASCII – он включает дополнительные символы и не совсем согласуется с ASCII в перекрывающейся части (раздел латинских символов).
Кана половинной ширины была разработана как «... первые японские символы, закодированные на компьютерах, поскольку они используются для японских телеграмм». [1]
Национальная система передачи банковских данных ( 全国銀行データ通信システム ) , крупнейшая система денежных переводов в Японии, была создана в 1973 году. Сообщения о транзакциях между банками могли использовать только латиницу, цифры и катакану половинной ширины в пределах 20 символов. В 2018 году на смену системе пришла ZEDI (Национальная банковская система электронного обмена данными), которая может обрабатывать хирагану и кандзи с символами переменной длины. [4] [5]
Чтобы катакана поместилась в более узкую область ячеек, были сделаны некоторые компромиссы. Например, диакритические знаки дакутен и хандакутен рассматриваются как отдельные символы, а не являются частью предыдущего символа. Этот компромисс привел к тому, что многие стали считать «кану половинной ширины» визуально непривлекательной и сегодня создают проблемы для многих компьютерных программ. [ нужна ссылка ]
Еще одно использование каны половинной ширины — экономия места. В японской версии Windows 95 использовалась катакана половинной ширины MS P Gothic в пользовательском интерфейсе . Его заменила полноширинная кана MS UI Gothic, немного уже, чем MS P Gothic. [6] [7]
Кодирование
[ редактировать ]В спецификации JIS X 0201 (1969 г.) катакана кодируется в блоке A0 – DF (шестнадцатеричный) - не указано, как они отображаются, и не существует отдельного кодирования каны полной и половинной ширины. В JIS X 0208 катакана, хирагана и кандзи кодируются (и отображаются как символы полной ширины; символы половинной ширины отсутствуют), хотя порядок кана другой — см. JIS X 0208#Hiragana and katakana .
В Shift JIS , который объединяет JIS X 0201 и JIS X 0208, эти кодировки (обе из которых могут кодировать латинские символы и катакану) хранятся отдельно, при этом все JIS X 0201 отображаются как половинная ширина (таким образом, катакана JIS X 0201 отображаются как кана половинной ширины), тогда как все символы JIS X 0208 отображаются как полноширинные (таким образом, все латинские символы JIS X 0208 отображаются как латинские символы полной ширины). Таким образом, в Shift JIS латинские символы и катакана имеют две кодировки с двумя отдельными формами отображения: половинной и полной ширины.
В Юникоде катакана и хирагана в основном используются как обычные полноширинные символы (блоки катаканы и хираганы отображаются как полноширинные символы); отдельный блок, блок «Формы половинной и полной ширины» , используется для хранения вариантов символов, включая кана половинной ширины и латинские символы полной ширины.
Так, катакана в JIS X 0201 и соответствующая часть производных кодировок (часть JIS X 0201 Shift JIS) отображаются как полуширина, тогда как в Юникоде полуширинные формы указываются отдельно.
Стол половинной ширины
[ редактировать ]«J» указывает на первые четыре бита в JIS X 0201 (хотя см. ниже , они не обязательно указывают половинную ширину), а в других наборах, таких как Shift JIS , «U» указывает на строку в Юникоде в блоке форм половинной и полной ширины. .
Дж | В | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
А | ФФ6 | 。 | 「 | 」 | 、 | ・ | ヲ | ァ | ィ | ゥ | ェ | ォ | | | ュ | ョ | ッ | |
Б | ФФ7 | с | А | Хороший | ウ | Э | Ой | Ка | キ | | | ケ | ко | | | シ | | | Се | | |
С | ФФ8 | Та | Чи | ツ | Те | К | На | Н | Нет | Не | Нет | Ха | Привет | Фу | Он | Хо | Ма |
Д | ФФ9 | Ми | М | Мне | Мо | Да | ワ | ヨ | Ра | Ри | Ле | Лес | Ро | ワ | Н | ゙ | ゚ |
Обратите внимание, что пустая первая ячейка представляет собой несуществующий символ в JIS, A0; но двойная скобка полной ширины ⦆ в Юникоде, U+FF60.
Кана половинной ширины в Интернете
[ редактировать ]Электронная почта
[ редактировать ]Поскольку протоколы SMTP и NNTP (используемые для доставки электронной почты и Usenet соответственно) раньше могли передавать только 7-битные байты, тогда было принято использовать ISO-2022-JP для отправки электронной почты на японском языке .
Кана половинной ширины не содержится в ISO-2022-JP: он включает римский набор JIS X 0201 и весь JIS X 0208, но не набор катаканы JIS X 0201 (который используется для каны половинной ширины в Shift JIS, например). Оба набора JIS X 0201 имеют коды ISO 2022, но профиль ISO-2022-JP включает только римский набор: это означает, что формат включения катаканы половинной ширины в ISO-2022-JP одновременно четко определен и является нарушением. формата ISO-2022-JP. По этой причине, если в сообщение случайно была включена кана половинной ширины, оно могло быть искажено во время передачи (см. моджибаке ). Стандарт кодирования WHATWG , используемый HTML5 , разрешает декодирование, но не кодирование катаканы JIS X 0201 в ISO-2022-JP в качестве расширения формата и преобразует катакану половинной ширины в их эквиваленты JIS X 0208 при кодировании. [8]
Это больше не проблема, поскольку сегодня большинство серверов электронной почты поддерживают расширение 8BITMIME и, следовательно, понимают 8-битные символы. В качестве альтернативы можно использовать систему кодирования, такую как Base64, и указать ее в сообщении с помощью MIME .
Веб-страницы
[ редактировать ]Проблема, существующая в электронной почте, не существует для веб-страниц, поскольку HTTP принимает 8-битные символы.
Однако одна проблема, которая действительно существует, заключается в том, что компьютерные программы испытывают трудности с определением того, следует ли обрабатывать символ как Shift JIS , EUC-JP или UTF-8 — следовательно, информацию о коде символа следует указывать с помощью заголовка ответа HTTP или мета-тега .
Путаница
[ редактировать ]Строго говоря, кодировка JIS X 0201 как «катакана половинной ширины» неверна, поскольку стандарт не определяет ширину символов - он определяет только кодовое представление символов катаканы. В стандарте JIS X 0201 символы катаканы печатаются нормальной (полной) ширины, а не половинной ширины.
Символы половинной ширины использовались для отображения только в тот период, когда символы отображались половинной ширины (и использовались однобайтовые кодировки), до того, как стали отображаться символы полной ширины (и связанные с ними двухбайтовые кодировки, такие как JIS X 0208). широко распространен. Однако в стандарте Shift JIS, который сочетает в себе стандарт JIS X 0201 (символы которого — латиница и катакана — отображались в половину ширины) и стандарт JIS X 0208 (символы которого — катакана, хирагана, кандзи и латиница — были отображаются в полную ширину), катакана и латинские символы кодируются дважды, как в JIS X 0201, так и в JIS 0208, но отображаются в половинную или полную ширину в зависимости от того, в каком разделе они находятся (0201 или 0208) – таким образом, 0201 Блок катаканы можно рассматривать как соответствующий «кане половинной ширины», и широко распространено недопонимание того, что стандарт 0201 определяет символы «половинной ширины».
Кроме того, хотя JIS X 0201 представляет собой однобайтовую кодировку (и отображается с половинной шириной), а JIS X 0208 представляет собой двухбайтовую кодировку (и отображается с полной шириной), нет никакой связи между количеством байтов и шириной ( кроме тех, которые соответствуют Shift JIS, как указано выше) — например, Unicode может быть закодирован четырьмя байтами ( UTF-32 ) для отображения символов как полной, так и одинарной ширины.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ↑ Пересмотренный карманный справочник таблицы стилей нового издания, стр. 107 (на японском языке) , Хадзиме Фудзимото, 5 марта 2013 г., ISBN 978-4774154862
- ^ TSP100futurePRNT (на японском языке) , Star Micronics
- ^ Tokyo Tsukiji Letterpress Manufacturing Company - Образец высокой печати, стр.33 (на японском языке) , Соджуро Номура, 1903 г.
- ^ «Хорошие новости для компаний, страдающих от нехватки кадров в бухгалтерском отделе: финансовая ЭДИ «ZEDI» начнет работу в 2018 году Проверено мая 2019 11 г. .
- ^ «О предоставлении услуг, совместимых с системой Zengin EDI (ZEDI)» Mizuho Bank 25 декабря 2018 г. Проверено 11 мая 2019 г.
- ^ «Японская версия Windows 98 β3. Часть 1» . Impress PC Watch 3 марта 1998 г. Проверено 11 мая 2019 г. .
- ^ «Интерфейс Windows98» . Проверено 11 мая 2019 г. .
- ^ «12.2.ISO-2022-JP» . Стандарт кодирования . ЧТОРГ.
- ^ Лунде, Кен. Обработка информации CJKV . О'Рейли, 2-е изд., 2009 г., с. 224–226 (также 1-е изд., 1999. стр. 144–145).