CCSID
CCSID ) — это 16-битное число , ( идентификатор кодированного набора символов которое представляет конкретную кодировку определенной кодовой страницы . Например, Unicode — это кодовая страница, которая имеет несколько схем кодирования символов (называемых «формами преобразования»), включая UTF-8 , UTF-16 и UTF-32 , но которые на самом деле могут сопровождаться или не сопровождаться номером CCSID. чтобы указать, что эта кодировка используется.
Разница между кодовой страницей и CCSID [ править ]
Термины «кодовая страница» и CCSID часто используются как взаимозаменяемые, хотя они не являются синонимами. Кодовая страница может быть лишь частью CCSID. Следующие определения IBM помогают проиллюстрировать этот момент:
- Глиф — это реальный физический рисунок пикселей или чернил, который отображается на дисплее или на распечатке.
- Символ — это понятие, охватывающее все глифы, связанные с определенным символом. Например, «Ф», « Ф », « Ф », « Ф », « Ф » и « F " — это разные глифы, но они используют один и тот же символ. Различные модификаторы (жирный, курсив, подчеркивание, цвет и шрифт) не меняют основную F-ность F.
- Набор символов содержит символы, необходимые для того, чтобы позволить конкретному человеку осуществлять значимое взаимодействие с компьютером. В нем не указано, как эти символы представлены на компьютере. [1] Этот уровень является первым, на котором символы разделяются на различные алфавиты (латинский, арабский, иврит, кириллица и т. д.) или идеографические группы (например, китайский, корейский). Он соответствует «репертуару символов» в модели кодирования Unicode .
- Кодовая страница представляет собой конкретное присвоение значений кодовых точек символам. [1] Он соответствует «кодированному набору символов» в модели кодирования Unicode. Кодовая точка символа — это внутреннее представление этого символа в данной кодовой странице компьютера. [1] Многие символы представлены разными кодовыми точками на разных кодовых страницах. Определенные наборы символов могут быть адекватно представлены с помощью однобайтовых кодовых страниц (которые имеют максимум 256 кодовых точек, следовательно, максимум 256 символов), но многим требуется больше. Примеры включают JIS X 0208 и Unicode .
- Схема кодирования — это байтовый формат кодовой страницы. Он сопоставляет значения кодовых точек с последовательностями одного или нескольких байтовых значений на компьютере. [2] Например, UTF-8 и UTF-16BE — это две кодировки одной и той же кодовой страницы Unicode. (Варьируется только то, сколько байтов необходимо для представления определенного символьного значения Юникода, как оно содержится в этих байтах и как обозначается наличие информации Юникода.) Между тем, в архитектуре представления символьных данных IBM (CDRA) это обычно представляется с помощью ESID (идентификатора схемы кодирования). [3] EUC и ISO-2022 — другие примеры схем кодирования.
- Идентификатор кодированного набора символов ( CCSID ) содержит всю информацию, необходимую для назначения и сохранения значения и отображения символов на различных этапах обработки и обмена. Эта информация всегда включает в себя по крайней мере одну кодовую страницу, но может включать в себя несколько кодовых страниц разной длины в байтах. CCSID также имеет соответствующую схему кодирования, которая определяет, как следует обрабатывать различные кодовые точки. Этот механизм позволяет программе распознавать двунаправленную ориентацию, форму символов (в основном арабских символов) и другую сложную информацию кодирования.
Примеры [ править ]
Следующие примеры показывают, как одни CCSID состоят из других CCSID.
Набор символов | Кодовая страница | CCSID | Схема кодирования |
---|---|---|---|
01122 | 00897 | 897 | СБКС |
00370 | 00301 | 301 | ДБКС |
Набор символов | Кодовая страница | CCSID | Схема кодирования |
---|---|---|---|
01172 | 01041 | 1041 | СБКС |
00370 | 00301 | 301 | ДБКС |
Набор символов | Кодовая страница | CCSID | Схема кодирования |
---|---|---|---|
01170 | 00897 | 4993 | СБКС |
00370 | 00301 | 301 | ДБКС |
Все три варианта Shift-JIS CCSID представляют собой многобайтовые наборы символов (MBCS): часть однобайтового набора символов (SBCS) каждого CCSID различна. Часть двухбайтового набора символов (DBCS) одинакова для каждого CCSID. CCSID 5028 использует обновленную кодовую страницу 897, называемую CCSID 4993. CCSID 932 использует исходную кодовую страницу 897, то есть CCSID 897. CCSID 942 использует SBCS, отличный от двух других CCSID, то есть 1041.
Также обратите внимание, что CCSID 5028 и 4993 отличаются на 4096 (1000 в шестнадцатеричном формате) от предшественника CCSID с тем же идентификатором кодовой страницы. Это распространенный способ, которым CDRA обозначает обновленный CCSID.
Причин такой сложности несколько:
- Многие из CCSID используются в базах данных IBM, таких как IBM Db2 , где поле базы данных поддерживает только строку SBCS, DBCS или MBCS. CCSID позволяют программам различать, какой из них используется.
- Когда символы добавляются или заменяются, например, введение знака валюты евро, можно узнать, поддерживают или не поддерживают сохраненные строки эти добавления символов, поскольку используется другой CCSID. Такое управление версиями важно для целостности данных.
- Это позволяет повторно использовать ресурсы среди аналогичных CCSID. [7]
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с «Терминология IBM — Условия C» . ИБМ . Проверено 25 января 2013 г.
- ^ «Архитектура представления символьных данных» . ИБМ . Приложение А. Схемы кодирования . Проверено 29 июня 2019 г.
- ^ «Архитектура представления символьных данных» . ИБМ . Глава 3. Идентификаторы CDRA, раздел «Длинная идентификация» . Проверено 29 июня 2019 г.
- ^ «Японские компьютерные данные, смешанные, включая УДК 1880 года» . Глобализация . ИБМ. Архивировано из оригинала 20 февраля 2012 года . Проверено 29 ноября 2011 г.
- ^ «Японские смешанные данные ПК, включая 1880 UDC, расширенный SBCS» . Глобализация . ИБМ. Архивировано из оригинала 1 декабря 2014 года . Проверено 29 ноября 2011 г.
- ^ «Японские смешанные данные ПК, включая 1880 UDC (катакана — общий набор ПК для SBCS)» . Глобализация . ИБМ. Архивировано из оригинала 29 ноября 2014 года . Проверено 29 ноября 2011 г.
- ^ «Us-en_software_HP» . 9 ноября 2020 г.
Внешние ссылки [ править ]
- Словарь терминов IBM CDRA (архитектура представления символьных данных)
- Терминология глобализации IBM
- Полное описание IBM CDRA . (Это включает более подробное описание архитектуры CCSID.)
- Полный список CCSID и других связанных идентификаторов IBM.
- Список CCSID, поддерживаемых на компьютере IBM System i