Jump to content

Двухбайтовый набор символов

DBCS Двухбайтовый набор символов ( не ) — это кодировка символов , в которой либо все символы (включая управляющие символы ) кодируются в двух байтах, либо только каждый графический символ, представленный сопутствующим однобайтовым набором символов ( SBCS ), кодируется в два байта ( символы Хань большую часть этих двухбайтовых символов обычно составляют ). DBCS поддерживает национальные языки, которые содержат множество уникальных символов или символов (максимальное количество символов, которое может быть представлено одним байтом, составляет 256 символов, а два байта могут представлять до 65 536 символов). Примеры таких языков включают японский и китайский . Хангыль не содержит столько символов, но KS X 1001 поддерживает как хангыль, так и ханджа и использует два байта на символ.

В вычислениях CJK

[ редактировать ]

Термин DBCS традиционно относится к кодировке символов, где каждый графический символ кодируется двумя байтами.

В 8-битном коде, таком как Big-5 или Shift JIS , символ из DBCS представлен ведущим (первым) байтом с установленным старшим значащим битом (т. е. больше семи битов) и соединенным с однобайтовый набор символов (SBCS). По практическим соображениям обеспечения совместимости с немодифицированным готовым программным обеспечением SBCS связан с символами половинной ширины , а DBCS — с символами полной ширины . В 7-битном коде, таком как ISO-2022-JP , escape-последовательности или коды сдвига используются для переключения между SBCS и DBCS.

Иногда использование термина «DBCS» может подразумевать базовую структуру, не соответствующую ISO 2022 . Например, «DBCS» иногда может означать двухбайтовую кодировку, которая не является расширенным кодом Unix (EUC).

Это первоначальное значение DBCS отличается от того, что некоторые считают правильным сегодня. Некоторые настаивают на том, чтобы эти кодировки символов правильно назывались многобайтовыми наборами символов (MBCS) или кодировками переменной ширины , поскольку такие кодировки символов, как EUC-JP , EUC-KR , EUC-TW , GB 18030 и UTF-8, используют более два байта для некоторых символов и один байт для других символов.

Двусмысленность

[ редактировать ]

Некоторые люди используют DBCS для обозначения кодировок UTF-16 и UTF-8 , в то время как другие люди используют термин DBCS для обозначения более старых (до Unicode ) кодировок символов, которые используют более одного байта на символ. Shift JIS , GB 2312 и Big5 — это несколько кодировок символов, которые могут содержать более одного байта на символ, но даже использование термина DBCS для этих кодировок символов является неправильной терминологией, поскольку эти кодировки символов на самом деле являются кодировками переменной ширины (как и UTF). -16 и UTF-8). Некоторые мэйнфреймы IBM имеют настоящие кодовые страницы DBCS, которые содержат только двухбайтовую часть многобайтовой кодовой страницы.

Если кто-то использует термин «включение DBCS» для интернационализации программного обеспечения , он использует неоднозначную терминологию. Они либо имеют в виду, что хотят писать программное обеспечение для рынков Восточной Азии, используя старую технологию с кодовыми страницами, либо планируют использовать Unicode. Иногда этот термин также подразумевает перевод на восточноазиатский язык. Обычно «включение Unicode» означает интернационализацию программного обеспечения с использованием Unicode, а «включение DBCS» означает использование несовместимых кодировок символов, которые существуют в различных странах Восточной Азии, для интернационализации программного обеспечения. Поскольку Unicode, в отличие от многих других кодировок символов, поддерживает все основные языки Восточной Азии, обычно проще включать и поддерживать программное обеспечение, использующее Unicode. Включение DBCS (не Unicode) обычно желательно только в том случае, если более старые операционные системы или приложения не поддерживают Unicode.

Трехбайтовый набор символов (TBCS) — это кодировка символов, в которой символы (включая управляющие символы) кодируются тремя байтами.

См. также

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bdb1797ff4a2b1017bf94e70f43ab406__1721746560
URL1:https://arc.ask3.ru/arc/aa/bd/06/bdb1797ff4a2b1017bf94e70f43ab406.html
Заголовок, (Title) документа по адресу, URL1:
Double-byte character set - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)