Jump to content

Кодировка китайских символов

В вычислительной технике кодировки китайских символов могут использоваться для представления текста, написанного на CJK языках — китайском , японском , корейском — и (редко) устаревшем вьетнамском языке , все из которых используют китайские символы . общего назначения Несколько кодировок символов поддерживают китайские символы, а некоторые из них были разработаны специально для китайского языка.

Помимо Unicode (с набором унифицированных иероглифов CJK ), существуют локальные системы кодировки. Китайская система Guobiao (или GB, «национальный стандарт») используется в материковом Китае и Сингапуре , а (в основном) тайваньская система Big5 используется на Тайване , в Гонконге и Макао в качестве двух основных «устаревших» локальных систем кодирования. Guobiao обычно отображается с использованием упрощенных символов , а Big5 обычно отображается с использованием традиционных символов . Однако между системой кодирования и шрифтом, используемым для отображения символов, не существует обязательной связи; Шрифт и кодировка обычно связаны друг с другом по практическим соображениям.

Вопрос о том, какую кодировку использовать, также может иметь политические последствия, поскольку GB является официальным стандартом Китайской Народной Республики , а Big5 — фактическим стандартом Тайваня .

В отличие от ситуации с японским языком , явной оппозиции Unicode, который решает многие проблемы, связанные с GB и Big5, было относительно мало. Юникод широко считается политически нейтральным, имеет хорошую поддержку как упрощенных, так и традиционных символов и может быть легко преобразован в GB и Big5 и обратно. Более того, Unicode имеет то преимущество, что не ограничивается только китайским языком, поскольку он содержит коды символов (почти) для каждого языка.

Линия кодировок символов Guobiao (GB) начинается с упрощенного китайского языка набора символов GB 2312, опубликованного в 1980 году. Для GB 2312 существовали две схемы кодирования: обычно используемая одно- или двухбайтовая 8-битная кодировка EUC-CN и 7-байтовая кодировка. битовая кодировка, называемая HZ [1] для сообщений в Usenet. [2] : 94  Традиционный вариант под названием GB/T 12345 был опубликован в 1990 году.

Форма EUC-CN позже была расширена до GBK , включив в нее все иероглифы Unicode 1.1 CJK в 1993 году, отказавшись от модели ISO-2022. Таким образом, GBK включает традиционные китайские иероглифы в дополнение к упрощенным в GB2312. [3] GBK приобрел популярность благодаря широко распространенной реализации кодовой страницы 936, найденной в Microsoft Windows 95.

В 2000 году GB 18030 был опубликован как преемник GBK. Эта новая кодировка включает четырехбайтовый UTF, который кодирует все кодовые точки Unicode, которые ранее не кодировались. [4] В 2005 году был опубликован GB 18030 , содержащий справочные глифы для письменностей, используемых этническими меньшинствами в Китае , а также глифы из CJK Unified Ideographs Extension B из-за обновления Unicode .

Adobe-GB1 — это соответствующая кодировка PostScript для кодировок GB.

Большой5

[ редактировать ]

Семейство кодировок символов Big5 начинается с первоначального определения, данного консорциумом пяти тайваньских компаний, которые его разработали. [5] Это двухбайтовый набор символов (DBCS), чем-то похожий на Shift JIS , часто комбинируемый с MBCS, например ASCII . Существует довольно много поставщиков, а также официальных расширений, из которых ETEN, HKSCS (Гонконг) и Big5-2003 (как часть CNS 11643 , Тайвань). наиболее известными являются [6] Adobe-CNS1 — это набор символов PostScript, соответствующий семейству кодировок Big5.

Конверсия

[ редактировать ]

До GBK , который включал как традиционные, так и упрощенные символы, преобразование между кодировками традиционного и упрощенного китайского языка было осложнено необходимостью транскрибирования текста между двумя вариантами китайского языка, поскольку одна кодировка охватывала многие символы другого только в своем собственном варианте. Преобразование между традиционным и упрощенным китайским языком обычно проблематично, поскольку при упрощении некоторых традиционных форм два или более разных иероглифа были объединены в одну упрощенную форму. Традиционное преобразование в упрощенное (многие к одному) технически просто. Обратное преобразование часто приводит к потере данных при преобразовании в GB 2312 : при сопоставлении «один ко многим» при назначении традиционных глифов упрощенным глифам некоторые символы неизбежно будут неправильным выбором в некоторых случаях использования. Таким образом, упрощенное преобразование в традиционное часто требует контекста использования или общих списков фраз для разрешения конфликтов. Эта проблема менее проблематична для новых стандартов, таких как GBK, GB 18030 и Unicode, которые имеют отдельные кодовые точки как для упрощенных, так и для традиционных символов. [ нужна ссылка ]

Еще одна проблема заключается в том, что во многих системах кодирования отсутствуют символы. Хотя отсутствующие символы часто являются литературными и не часто используются в обычном тексте, это становится проблемой, поскольку имена людей часто содержат эти символы. Примером проблемы является тайваньский политик Ван Цзянь-шиен которого есть иероглиф сюань ( , в имени ), которого нет в некоторых системах символов, и бывший премьер-министр Китая Чжу Жунцзи , чей иероглиф жун ( ) отсутствует в GB 2312. Новейший стандарт GB, GB 18030, содержит полный набор символов Unicode 4.0, включая расширения Unihan в дополнительной идеографической плоскости . [2] : 105 

См. также

[ редактировать ]
  1. ^ РФК   1843
  2. ^ Jump up to: а б Лунде, Кен (декабрь 2008 г.). Обработка информации CJKV . O'Reilly Media, Inc. ISBN  978-0-596-51447-1 . Проверено 11 сентября 2016 г.
  3. ^ «GB18030-2000 — Новый китайский национальный стандарт — GB 18030» . 25 августа 2012 г. Архивировано из оригинала 25 августа 2012 г. Проверено 13 октября 2016 г. {{cite web}}: CS1 maint: bot: исходный статус URL неизвестен ( ссылка )
  4. ^ Авторитетная таблица сопоставления между GB18030-2000 и Unicode . ICU – международные компоненты для Unicode. 21 февраля 2001 г. Доступ 13 октября 2016 г.
  5. ^ «[китайский Mac] Наборы символов» . chinesemac.org . Проверено 13 октября 2016 г.
  6. ^ «Варианты Big5 в Mozilla: серия Mozilla и китайские иероглифы Big5» . 13 октября Проверено 2016 г. .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ddf4ff83a28ffa9c46f696ef29a9b5c2__1709170080
URL1:https://arc.ask3.ru/arc/aa/dd/c2/ddf4ff83a28ffa9c46f696ef29a9b5c2.html
Заголовок, (Title) документа по адресу, URL1:
Chinese character encoding - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)