Кодировка китайских символов
Эта статья нуждается в дополнительных цитатах для проверки . ( март 2016 г. ) |
В вычислительной технике кодировки китайских символов могут использоваться для представления текста, написанного на CJK языках — китайском , японском , корейском — и (редко) устаревшем вьетнамском языке , все из которых используют китайские символы . общего назначения Несколько кодировок символов поддерживают китайские символы, а некоторые из них были разработаны специально для китайского языка.
Помимо Unicode (с набором унифицированных иероглифов CJK ), существуют локальные системы кодировки. Китайская система Guobiao (или GB, «национальный стандарт») используется в материковом Китае и Сингапуре , а (в основном) тайваньская система Big5 используется на Тайване , в Гонконге и Макао в качестве двух основных «устаревших» локальных систем кодирования. Guobiao обычно отображается с использованием упрощенных символов , а Big5 обычно отображается с использованием традиционных символов . Однако между системой кодирования и шрифтом, используемым для отображения символов, не существует обязательной связи; Шрифт и кодировка обычно связаны друг с другом по практическим соображениям.
Вопрос о том, какую кодировку использовать, также может иметь политические последствия, поскольку GB является официальным стандартом Китайской Народной Республики , а Big5 — фактическим стандартом Тайваня .
В отличие от ситуации с японским языком , явной оппозиции Unicode, который решает многие проблемы, связанные с GB и Big5, было относительно мало. Юникод широко считается политически нейтральным, имеет хорошую поддержку как упрощенных, так и традиционных символов и может быть легко преобразован в GB и Big5 и обратно. Более того, Unicode имеет то преимущество, что не ограничивается только китайским языком, поскольку он содержит коды символов (почти) для каждого языка.
Гобяо
[ редактировать ]Линия кодировок символов Guobiao (GB) начинается с упрощенного китайского языка набора символов GB 2312, опубликованного в 1980 году. Для GB 2312 существовали две схемы кодирования: обычно используемая одно- или двухбайтовая 8-битная кодировка EUC-CN и 7-байтовая кодировка. битовая кодировка, называемая HZ [1] для сообщений в Usenet. [2] : 94 Традиционный вариант под названием GB/T 12345 был опубликован в 1990 году.
Форма EUC-CN позже была расширена до GBK , включив в нее все иероглифы Unicode 1.1 CJK в 1993 году, отказавшись от модели ISO-2022. Таким образом, GBK включает традиционные китайские иероглифы в дополнение к упрощенным в GB2312. [3] GBK приобрел популярность благодаря широко распространенной реализации кодовой страницы 936, найденной в Microsoft Windows 95.
В 2000 году GB 18030 был опубликован как преемник GBK. Эта новая кодировка включает четырехбайтовый UTF, который кодирует все кодовые точки Unicode, которые ранее не кодировались. [4] В 2005 году был опубликован GB 18030 , содержащий справочные глифы для письменностей, используемых этническими меньшинствами в Китае , а также глифы из CJK Unified Ideographs Extension B из-за обновления Unicode .
Adobe-GB1 — это соответствующая кодировка PostScript для кодировок GB.
Большой5
[ редактировать ]Семейство кодировок символов Big5 начинается с первоначального определения, данного консорциумом пяти тайваньских компаний, которые его разработали. [5] Это двухбайтовый набор символов (DBCS), чем-то похожий на Shift JIS , часто комбинируемый с MBCS, например ASCII . Существует довольно много поставщиков, а также официальных расширений, из которых ETEN, HKSCS (Гонконг) и Big5-2003 (как часть CNS 11643 , Тайвань). наиболее известными являются [6] Adobe-CNS1 — это набор символов PostScript, соответствующий семейству кодировок Big5.
Конверсия
[ редактировать ]До GBK , который включал как традиционные, так и упрощенные символы, преобразование между кодировками традиционного и упрощенного китайского языка было осложнено необходимостью транскрибирования текста между двумя вариантами китайского языка, поскольку одна кодировка охватывала многие символы другого только в своем собственном варианте. Преобразование между традиционным и упрощенным китайским языком обычно проблематично, поскольку при упрощении некоторых традиционных форм два или более разных иероглифа были объединены в одну упрощенную форму. Традиционное преобразование в упрощенное (многие к одному) технически просто. Обратное преобразование часто приводит к потере данных при преобразовании в GB 2312 : при сопоставлении «один ко многим» при назначении традиционных глифов упрощенным глифам некоторые символы неизбежно будут неправильным выбором в некоторых случаях использования. Таким образом, упрощенное преобразование в традиционное часто требует контекста использования или общих списков фраз для разрешения конфликтов. Эта проблема менее проблематична для новых стандартов, таких как GBK, GB 18030 и Unicode, которые имеют отдельные кодовые точки как для упрощенных, так и для традиционных символов. [ нужна ссылка ]
Еще одна проблема заключается в том, что во многих системах кодирования отсутствуют символы. Хотя отсутствующие символы часто являются литературными и не часто используются в обычном тексте, это становится проблемой, поскольку имена людей часто содержат эти символы. Примером проблемы является тайваньский политик Ван Цзянь-шиен которого есть иероглиф сюань ( 煊 , в имени ), которого нет в некоторых системах символов, и бывший премьер-министр Китая Чжу Жунцзи , чей иероглиф жун ( 镕 ) отсутствует в GB 2312. Новейший стандарт GB, GB 18030, содержит полный набор символов Unicode 4.0, включая расширения Unihan в дополнительной идеографической плоскости . [2] : 105
См. также
[ редактировать ]- Китайские методы ввода для компьютеров
- Ханьское объединение
- Четырехугольный метод
- Китайский иероглиф ИТ
Ссылки
[ редактировать ]- ^ РФК 1843
- ^ Jump up to: а б Лунде, Кен (декабрь 2008 г.). Обработка информации CJKV . O'Reilly Media, Inc. ISBN 978-0-596-51447-1 . Проверено 11 сентября 2016 г.
- ^ «GB18030-2000 — Новый китайский национальный стандарт — GB 18030» . 25 августа 2012 г. Архивировано из оригинала 25 августа 2012 г. Проверено 13 октября 2016 г.
{{cite web}}
: CS1 maint: bot: исходный статус URL неизвестен ( ссылка ) - ^ Авторитетная таблица сопоставления между GB18030-2000 и Unicode . ICU – международные компоненты для Unicode. 21 февраля 2001 г. Доступ 13 октября 2016 г.
- ^ «[китайский Mac] Наборы символов» . chinesemac.org . Проверено 13 октября 2016 г.
- ^ «Варианты Big5 в Mozilla: серия Mozilla и китайские иероглифы Big5» . 13 октября Проверено 2016 г. .
Дальнейшее чтение
[ редактировать ]- Лунде, Кен (2009). «Стандарты китайского набора символов — Китай» . Обработка информации CJKV (2-е изд.). О'Рейли. ISBN 9780596514471 .