Jump to content

CCSID

CCSID ) — это 16-битное число , ( идентификатор кодированного набора символов которое представляет конкретную кодировку определенной кодовой страницы . Например, Unicode — это кодовая страница, которая имеет несколько схем кодирования символов (называемых «формами преобразования»), включая UTF-8 , UTF-16 и UTF-32 , но которые на самом деле могут сопровождаться или не сопровождаться номером CCSID. чтобы указать, что эта кодировка используется.

Разница между кодовой страницей и CCSID [ править ]

Термины «кодовая страница» и CCSID часто используются как взаимозаменяемые, хотя они не являются синонимами. Кодовая страница может быть лишь частью CCSID. Следующие определения IBM помогают проиллюстрировать этот момент:

  • Глиф это реальный физический рисунок пикселей или чернил, который отображается на дисплее или на распечатке.
  • Символ — это понятие, охватывающее все глифы, связанные с определенным символом. Например, «Ф», « Ф », « Ф », « Ф », « Ф » и « F " — это разные глифы, но они используют один и тот же символ. Различные модификаторы (жирный, курсив, подчеркивание, цвет и шрифт) не меняют основную F-ность F.
  • Набор символов содержит символы, необходимые для того, чтобы позволить конкретному человеку осуществлять значимое взаимодействие с компьютером. В нем не указано, как эти символы представлены на компьютере. [1] Этот уровень является первым, на котором символы разделяются на различные алфавиты (латинский, арабский, иврит, кириллица и т. д.) или идеографические группы (например, китайский, корейский). Он соответствует «репертуару символов» в модели кодирования Unicode .
  • Кодовая страница представляет собой конкретное присвоение значений кодовых точек символам. [1] Он соответствует «кодированному набору символов» в модели кодирования Unicode. Кодовая точка символа — это внутреннее представление этого символа в данной кодовой странице компьютера. [1] Многие символы представлены разными кодовыми точками на разных кодовых страницах. Определенные наборы символов могут быть адекватно представлены с помощью однобайтовых кодовых страниц (которые имеют максимум 256 кодовых точек, следовательно, максимум 256 символов), но многим требуется больше. Примеры включают JIS X 0208 и Unicode .
  • Схема кодирования — это байтовый формат кодовой страницы. Он сопоставляет значения кодовых точек с последовательностями одного или нескольких байтовых значений на компьютере. [2] Например, UTF-8 и UTF-16BE — это две кодировки одной и той же кодовой страницы Unicode. (Варьируется только то, сколько байтов необходимо для представления определенного символьного значения Юникода, как оно содержится в этих байтах и ​​как обозначается наличие информации Юникода.) Между тем, в архитектуре представления символьных данных IBM (CDRA) это обычно представляется с помощью ESID (идентификатора схемы кодирования). [3] EUC и ISO-2022 — другие примеры схем кодирования.
  • Идентификатор кодированного набора символов ( CCSID ) содержит всю информацию, необходимую для назначения и сохранения значения и отображения символов на различных этапах обработки и обмена. Эта информация всегда включает в себя по крайней мере одну кодовую страницу, но может включать в себя несколько кодовых страниц разной длины в байтах. CCSID также имеет соответствующую схему кодирования, которая определяет, как следует обрабатывать различные кодовые точки. Этот механизм позволяет программе распознавать двунаправленную ориентацию, форму символов (в основном арабских символов) и другую сложную информацию кодирования.

Примеры [ править ]

Следующие примеры показывают, как одни CCSID состоят из других CCSID.

CCSID 932 [4]
Набор символов Кодовая страница CCSID Схема кодирования
01122 00897 897 СБКС
00370 00301 301 ДБКС
CCSID 942 [5]
Набор символов Кодовая страница CCSID Схема кодирования
01172 01041 1041 СБКС
00370 00301 301 ДБКС
CCSID 5028 [6]
Набор символов Кодовая страница CCSID Схема кодирования
01170 00897 4993 СБКС
00370 00301 301 ДБКС

Все три варианта Shift-JIS CCSID представляют собой многобайтовые наборы символов (MBCS): часть однобайтового набора символов (SBCS) каждого CCSID различна. Часть двухбайтового набора символов (DBCS) одинакова для каждого CCSID. CCSID 5028 использует обновленную кодовую страницу 897, называемую CCSID 4993. CCSID 932 использует исходную кодовую страницу 897, то есть CCSID 897. CCSID 942 использует SBCS, отличный от двух других CCSID, то есть 1041.

Также обратите внимание, что CCSID 5028 и 4993 отличаются на 4096 (1000 в шестнадцатеричном формате) от предшественника CCSID с тем же идентификатором кодовой страницы. Это распространенный способ, которым CDRA обозначает обновленный CCSID.

Причин такой сложности несколько:

  • Многие из CCSID используются в базах данных IBM, таких как IBM Db2 , где поле базы данных поддерживает только строку SBCS, DBCS или MBCS. CCSID позволяют программам различать, какой из них используется.
  • Когда символы добавляются или заменяются, например, введение знака валюты евро, можно узнать, поддерживают или не поддерживают сохраненные строки эти добавления символов, поскольку используется другой CCSID. Такое управление версиями важно для целостности данных.
  • Это позволяет повторно использовать ресурсы среди аналогичных CCSID. [7]

Ссылки [ править ]

  1. Перейти обратно: Перейти обратно: а б с «Терминология IBM — Условия C» . ИБМ . Проверено 25 января 2013 г.
  2. ^ «Архитектура представления символьных данных» . ИБМ . Приложение А. Схемы кодирования . Проверено 29 июня 2019 г.
  3. ^ «Архитектура представления символьных данных» . ИБМ . Глава 3. Идентификаторы CDRA, раздел «Длинная идентификация» . Проверено 29 июня 2019 г.
  4. ^ «Японские компьютерные данные, смешанные, включая УДК 1880 года» . Глобализация . ИБМ. Архивировано из оригинала 20 февраля 2012 года . Проверено 29 ноября 2011 г.
  5. ^ «Японские смешанные данные ПК, включая 1880 UDC, расширенный SBCS» . Глобализация . ИБМ. Архивировано из оригинала 1 декабря 2014 года . Проверено 29 ноября 2011 г.
  6. ^ «Японские смешанные данные ПК, включая 1880 UDC (катакана — общий набор ПК для SBCS)» . Глобализация . ИБМ. Архивировано из оригинала 29 ноября 2014 года . Проверено 29 ноября 2011 г.
  7. ^ «Us-en_software_HP» . 9 ноября 2020 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7d318481e289010a6339edd6cc7fa8ea__1690716000
URL1:https://arc.ask3.ru/arc/aa/7d/ea/7d318481e289010a6339edd6cc7fa8ea.html
Заголовок, (Title) документа по адресу, URL1:
CCSID - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)