Двухбайтовый набор символов
Эта статья включает список литературы , связанную литературу или внешние ссылки , но ее источники остаются неясными, поскольку в ней отсутствуют встроенные цитаты . ( сентябрь 2021 г. ) |
DBCS Двухбайтовый набор символов ( не ) — это кодировка символов , в которой либо все символы (включая управляющие символы ) кодируются в двух байтах, либо только каждый графический символ, представленный сопутствующим однобайтовым набором символов ( SBCS ), кодируется в два байта ( символы Хань большую часть этих двухбайтовых символов обычно составляют ). DBCS поддерживает национальные языки, которые содержат множество уникальных символов или символов (максимальное количество символов, которое может быть представлено одним байтом, составляет 256 символов, а два байта могут представлять до 65 536 символов). Примеры таких языков включают японский и китайский . Хангыль не содержит столько символов, но KS X 1001 поддерживает как хангыль, так и ханджа и использует два байта на символ.
В вычислениях CJK
[ редактировать ]Термин DBCS традиционно относится к кодировке символов, где каждый графический символ кодируется двумя байтами.
В 8-битном коде, таком как Big-5 или Shift JIS , символ из DBCS представлен ведущим (первым) байтом с установленным старшим значащим битом (т. е. больше семи битов) и соединенным с однобайтовый набор символов (SBCS). По практическим соображениям обеспечения совместимости с немодифицированным готовым программным обеспечением SBCS связан с символами половинной ширины , а DBCS — с символами полной ширины . В 7-битном коде, таком как ISO-2022-JP , escape-последовательности или коды сдвига используются для переключения между SBCS и DBCS.
Иногда использование термина «DBCS» может подразумевать базовую структуру, не соответствующую ISO 2022 . Например, «DBCS» иногда может означать двухбайтовую кодировку, которая не является расширенным кодом Unix (EUC).
Это первоначальное значение DBCS отличается от того, что некоторые считают правильным сегодня. Некоторые настаивают на том, чтобы эти кодировки символов правильно назывались многобайтовыми наборами символов (MBCS) или кодировками переменной ширины , поскольку такие кодировки символов, как EUC-JP , EUC-KR , EUC-TW , GB 18030 и UTF-8, используют более два байта для некоторых символов и один байт для других символов.
Двусмысленность
[ редактировать ]Некоторые люди используют DBCS для обозначения кодировок UTF-16 и UTF-8 , в то время как другие люди используют термин DBCS для обозначения более старых (до Unicode ) кодировок символов, которые используют более одного байта на символ. Shift JIS , GB 2312 и Big5 — это несколько кодировок символов, которые могут содержать более одного байта на символ, но даже использование термина DBCS для этих кодировок символов является неправильной терминологией, поскольку эти кодировки символов на самом деле являются кодировками переменной ширины (как и UTF). -16 и UTF-8). Некоторые мэйнфреймы IBM имеют настоящие кодовые страницы DBCS, которые содержат только двухбайтовую часть многобайтовой кодовой страницы.
Если кто-то использует термин «включение DBCS» для интернационализации программного обеспечения , он использует неоднозначную терминологию. Они либо имеют в виду, что хотят писать программное обеспечение для рынков Восточной Азии, используя старую технологию с кодовыми страницами, либо планируют использовать Unicode. Иногда этот термин также подразумевает перевод на восточноазиатский язык. Обычно «включение Unicode» означает интернационализацию программного обеспечения с использованием Unicode, а «включение DBCS» означает использование несовместимых кодировок символов, которые существуют в различных странах Восточной Азии, для интернационализации программного обеспечения. Поскольку Unicode, в отличие от многих других кодировок символов, поддерживает все основные языки Восточной Азии, обычно проще включать и поддерживать программное обеспечение, использующее Unicode. Включение DBCS (не Unicode) обычно желательно только в том случае, если более старые операционные системы или приложения не поддерживают Unicode.
ТБКС
[ редактировать ]Трехбайтовый набор символов (TBCS) — это кодировка символов, в которой символы (включая управляющие символы) кодируются тремя байтами.
См. также
[ редактировать ]Внешние ссылки
[ редактировать ]- Определение Microsoft «двухбайтового набора символов»
- Определение IBM «двухбайтового набора символов» на Wayback Machine (архивировано 18 октября 2018 г.)