Jump to content

Большой5

(Перенаправлено с «Большой пятерки» )
Большой5
МИМ / IANA Большой5
Псевдоним(а) Размер «Большая пятерка», «Большая пятерка»
Язык(и) Традиционный китайский , английский
Частичная поддержка:
Упрощенный китайский , греческий , японский , русский , болгарский , некоторые буквы IPA для фонетического использования. [1]
Создано Институт информационной индустрии
Классификация Расширенный ASCII , [а] [б] кодировка переменной ширины , DBCS , кодировка CJK
Расширяет ASCII [б]
Расширения Windows-950 , Big5-HKSCS и многие другие.
Другая связанная кодировка(и) ЦНС 11643
  1. ^ Не в самом строгом смысле этого слова, поскольку байты ASCII могут отображаться как байты следа.
  2. ^ Перейти обратно: а б Big5 не определяет однобайтовый компонент; однако на практике используется ASCII (или расширение).

Big-5 или Big5 ( китайский : 大五碼 ) — это метод кодирования китайских символов, используемый в Тайване , Гонконге и Макао для традиционных китайских символов .

, Китайская Народная Республика (КНР) где используются упрощенные китайские символы , вместо этого использует набор символов GB 18030 (хотя он также может заменять Big-5 или UTF-8).

Big5 получила свое название от консорциума пяти тайваньских компаний, которые ее разработали. [2]

Кодирование

[ редактировать ]

Исходный набор символов Big5 сортируется сначала по частоте использования, затем по количеству штрихов и, наконец, по радикалу Канси .

В исходном наборе символов Big5 не хватало многих часто используемых символов. Чтобы решить эту проблему, каждый поставщик разработал собственное расширение. Расширение ETen стало частью текущего стандарта Big5 благодаря своей популярности.

Структура Big5 не соответствует стандарту ISO 2022 , а скорее имеет определенное сходство с кодировкой Shift JIS . Это двухбайтовый набор символов (DBCS) со следующей структурой:

Первый байт («ведущий байт») 0x81 до 0xfe (или 0xa1 до 0xf9 для символов, не определяемых пользователем)
Второй байт 0x40 до 0x7е , 0xa1 до 0xfe

(префикс 0x означает шестнадцатеричные числа).

Стандартные назначения (за исключением расширений, определяемых поставщиком или пользователем) не используют байты 0x7F через 0xA0 или 0xFF в качестве ведущего (первого) или завершающего (второго) байта. Байты 0xA1 через 0xFE используются как для начальных, так и для конечных байтов двухбайтовых кодов (Big5). Байты 0x40 через 0x7E используются в качестве завершающих байтов, следующих за ведущим байтом, или в противном случае для однобайтовых кодов. Если второй байт не находится ни в одном из диапазонов, поведение не определено (т. е. варьируется от системы к системе). Кроме того, некоторые варианты набора символов Big5, например HKSCS , используют расширенный диапазон для ведущего байта, включая значения в 0x81 до Диапазон 0xA0 (аналогично Shift JIS ), тогда как другие используют сокращенные диапазоны ведущих байтов (например, вариант Apple Macintosh использует 0xFD через 0xFF в виде однобайтовых кодов, ограничивающих диапазон ведущих байтов 0xA1 через 0xFC ). [3]

Числовое значение отдельных кодов Big5 часто задается в виде 4-значного шестнадцатеричного числа, которое описывает два байта, составляющие код Big5, как если бы эти два байта были представлением с прямым порядком байтов 16-битного числа. Например, код Big5 для пространства полной ширины, байты которого 0x1 0x40 обычно записывается как 0xa140 или просто A140.

Строго говоря, кодировка Big5 содержит только символы DBCS. Однако на практике коды Big5 всегда используются вместе с неопределенным, зависящим от системы однобайтовым набором символов (SBCS) (например, ASCII или кодовая страница 437 ), так что текст, закодированный Big5, содержит смесь двухбайтовых символов. символы и однобайтовые символы. Байты в диапазоне 0x00 до 0x7f , которые не являются частью двухбайтового символа, считаются однобайтовыми символами. (Более подробное описание этой проблемы см. в обсуждении «Соответствующий SBCS» ниже.)

Значение одиночных байтов, отличных от ASCII, за пределами разрешенных значений, которые не являются частью двухбайтового символа, варьируется от системы к системе. В старых системах на базе MSDOS они, скорее всего, будут отображаться как 8-битные символы; в современных системах они, скорее всего, либо дадут непредсказуемые результаты, либо выдадут ошибку.

Более детальный взгляд на организацию

[ редактировать ]

В оригинальной Big5 кодировка разделена на разные зоны:

0x8140 до 0xA0FE Зарезервировано для пользовательских символов 造字
0xA140 в 0xA3BF Графический код «Графические символы»
0xA3C0 в 0xA3FE Зарезервировано, не для пользовательских символов
0xA440 в 0xC67E Часто используемые символы Часто используемые символы
0xC6A1 до 0xC8FE Зарезервировано для пользовательских символов
0xC940 в 0xF9D5 Менее часто используемые символы Менее часто используемые символы
0xF9D6 в 0xFEFE Зарезервировано для пользовательских символов

«Графические символы» на самом деле включают знаки препинания, частичные знаки препинания (например, половину тире, половину многоточия; см. ниже), дингбаты , иностранные символы и другие специальные символы (например, презентационные формы «полной ширины», цифры для цифр Сучжоу , чжуинь фухао и т. д.)

В большинстве расширений поставщиков расширенные символы размещаются в различных зонах, зарезервированных для определяемых пользователем символов, каждая из которых обычно считается связанной с предыдущей зоной. Например, ожидается, что в тексте будут размещены дополнительные «графические символы» (например, знаки препинания). 0xa3c0 0xa3fe , а дополнительные логотипы будут размещены либо в 0xc6a1 0xc8fe или 0xf9d6 Диапазон 0xfefe . Иногда это невозможно из-за большого количества добавляемых расширенных символов;например, кириллические буквы и японская кана помещены в зону, связанную с «часто используемыми символами».

Дубликаты

[ редактировать ]

Big5 закодировал два повторяющихся символа: «兀» в 0xA461 (U+5140) и 0xC94A (U+FA0C), «嗀» в 0xDCD1 (U+55C0) и 0xDDFC (U+FA0D).

Некоторые сопоставления кодирования также сопоставляют три цифры Сучжоу, «〸», «〹» и «〺», в графическом разделе с иероглифическими символами (U + 5341, U + 5344 и U + 5345 соответственно). [4] [5] вместо символов и пунктуации CJK (U+3038, U+3039 и U+303A соответственно). [6] [7]

Что на самом деле кодирует код Big5

[ редактировать ]

Отдельный код Big5 не всегда представляет собой полную семантическую единицу. Коды логотипов Big5 всегда являются логограммами, но коды в разделе «графические символы» не всегда являются полными «графическими символами». Big5 кодирует определенные графические представления символов или частей символов, которые помещаются в пространство, занимаемое двумя моноширинными символами ASCII. Это свойство CJK двухбайтовых наборов символов , а не уникальная проблема Big5.

(Вышеизложенное, возможно, нуждается в некотором объяснении, если рассматривать его в исторической перспективе, поскольку оно теоретически неверно: раньше, когда текстовый режим персональных компьютеров все еще был нормой, символы обычно представлялись как отдельные байты, и каждый символ занимал одну позицию на экране. Было поэтому есть практическая причина настаивать на том, чтобы двухбайтовые символы занимали две позиции на экране, а именно, что готовое программное обеспечение американского производства можно было бы использовать без изменений в системе на основе DBCS, если символ может принимать. произвольное количество позиций экрана, программное обеспечение, предполагающее, что один байт текста занимает одну позицию экрана, будет выдавать неправильный вывод. Конечно, если бы компьютеру никогда не приходилось иметь дело с текстовым экраном, производитель не стал бы применять это искусственное ограничение; Macintosh является примером. Тем не менее, сама кодировка должна быть разработана так, чтобы она корректно работала в системах с текстовым экраном.)

Чтобы проиллюстрировать это, рассмотрим код Big5. 0xa14b (…). Для носителей английского языка это выглядит как многоточие, и стандарт Unicode определяет его как таковое; однако в китайском языке многоточие состоит из шести точек, которые помещаются в пространство двух китайских иероглифов (……), поэтому на самом деле для китайского многоточия не существует кода Big5, а код Big5 0xa14b представляет собой половину китайского многоточия. Он представляет собой только половину многоточия, поскольку весь многоточие должно занимать место двух китайских иероглифов, а во многих системах DBCS один символ DBCS должен занимать ровно место одного китайского иероглифа.

Символы, закодированные в Big5, не всегда представляют собой вещи, которые можно легко использовать в текстовых файлах; пример - "знак цитирования" ( 0xa1ca , ﹋), который при использовании необходимо верстать под названием литературного произведения. Другим примером являются цифры Сучжоу, которые представляют собой форму научной записи , которая требует, чтобы число было представлено в двумерной форме, состоящей как минимум из двух строк.

Соответствующий SBCS

[ редактировать ]

На практике Big5 нельзя использовать без соответствующего SBCS; в основном это связано с причинами совместимости. Однако, как и в случае с другими наборами символов CJK DBCS, используемый SBCS никогда не указывался. Big5 всегда определялся как DBCS, хотя при использовании он должен быть соединен с подходящим, неуказанным SBCS и, следовательно, использоваться как то, что некоторые называют MBCS ; тем не менее, Big5 сама по себе, по определению, является строго DBCS.

Отсутствие указания используемого SBCS означает, что используемый SBCS теоретически может варьироваться от системы к системе. В настоящее время ASCII является единственным возможным SBCS, который можно использовать. Однако в старых DOS системах на базе кодовая страница 437 с дополнительными специальными символами в области управляющего кода, включая позицию 127, была гораздо более распространенной. Тем не менее, в системе Macintosh с комплектом китайского языка или в системе Unix, на которой работает эмулятор терминала cxterm, SBCS в паре с Big5 не будет иметь кодовую страницу 437.

За пределами допустимого диапазона Big5 старые системы на базе DOS обычно интерпретировали вещи в соответствии с SBCS, который связан с Big5 в этой системе. В таких системах, например, символы с 127 по 160, скорее всего, не избегались, потому что они приводили к недопустимому Big5, а использовались, потому что они были бы допустимыми символами в кодовой странице 437.

Таким образом, современная характеристика Big5 как MBCS, состоящая из DBCS Big5 плюс SBCS ASCII, исторически неверна и потенциально ошибочна, поскольку выбор соответствующего SBCS был и теоретически остается совершенно независимым от используемого варианта Big5. .

Неспособность ASCII поддерживать большие наборы символов китайского, японского и корейского (CJK) заставила правительства и промышленность искать творческие решения, позволяющие отображать их языки на компьютерах. Разнообразие специальных и обычно запатентованных методов ввода привело к попыткам разработать стандартную систему. В результате кодировка Big5 была определена Институтом информационной индустрии Тайваня в 1984 году.

Название «Большая пятерка» означает признание того, что стандарт возник в результате сотрудничества пяти крупнейших ИТ-компаний Тайваня:

Big5 был быстро популяризирован на Тайване и во всем мире среди китайцев, которые использовали традиционный китайский набор символов благодаря его принятию в нескольких коммерческих пакетах программного обеспечения, в частности, в E-TEN китайской DOS системе ввода ( ETen Chinese System ). объявило Правительство Китайской Республики Big5 своим стандартом в середине 1980-х годов, поскольку к тому времени он стал фактическим стандартом использования традиционного китайского языка на компьютерах.

Расширения

[ редактировать ]

Исходная «Большая пятерка» включает только логотипы CJK из Таблиц стандартных форм общенациональных символов (4808 символов) и менее распространенных национальных символов (6343 символа), но не буквы из имен людей, топонимов, диалектов, химии , биология , японская кана. В результате многие поддерживающие программы «Большой пятерки» включают расширения для решения этих проблем.

Множество вариаций делают UTF-8 (или UTF-16 , или китайский стандарт GB 18030 , который также является полным форматом преобразования Unicode, то есть не только для упрощенного китайского языка) более согласованной кодовой страницей для современного использования.

Расширения поставщиков

[ редактировать ]

Расширения Этен

[ редактировать ]

В китайской операционной системе ETen (倚天) добавлены следующие кодовые точки, чтобы добавить поддержку некоторых символов, присутствующих в кодовой странице IBM 5550 , но отсутствующих в универсальном Big5:

В некоторых версиях ETen присутствуют дополнительные графические символы и упрощенные китайские иероглифы .

Кодовые страницы Microsoft

[ редактировать ]

Microsoft (微軟) создала свою собственную версию расширения Big5 как кодовую страницу 950 для использования с Microsoft Windows , которая поддерживает кодовые точки F9D6–F9FE из расширений ETEN. В некоторых версиях Windows евро символ валюты сопоставляется с кодовой точкой Большой пятерки A3E1.

Microsoft После установки исправления HKSCS поверх традиционной китайской Windows (или любой версии Windows 2000 и выше с соответствующим языковым пакетом) приложения, использующие кодовую страницу 950, автоматически используют скрытую таблицу кодовой страницы 951. Таблица поддерживает все кодовые точки HKSCS-2001, за исключением кодовых точек совместимости, указанных в стандарте. [8]

Кодовые страницы IBM

[ редактировать ]

В отличие от кодовой страницы 950 Microsoft, CCSID 950 IBM состоит из однобайтовой кодовой страницы 1114 (CCSID 1114) и двухбайтовой кодовой страницы 947 (CCSID 947). [9] [10] [11] Он включает расширения ETEN для ведущих байтов. 0xA3 , [12] 0xC6 , [13] [14] 0xC7 [15] и 0xC8 , [13] [16] опуская те, у которых есть ведущий байт 0xF9 (которые включает Microsoft), сопоставляя их вместо этого с областью частного использования как определяемые пользователем символы. [13] [17] Он также включает в себя две области расширения, отличные от ETEN, с байтами следа. 0x81–A0 , т. е. за пределами обычного диапазона следовых байтов Big5, но аналогично диапазону следовых байтов Big5+: область 5 содержит ведущие байты. 0xF2–F9 и содержит символы, выбранные IBM, а область 9 содержит ведущие байты. 0x81–8C и представляет собой определяемую пользователем область. [18]

IBM называет обновление знака евро своего варианта Big-5 CCSID 1370, которое включает в себя как однобайтовые ( 0x80 ) и двухбайтовый ( 0xA3E1 ) знаки евро. [19] Он состоит из однобайтовой кодовой страницы 1114 (CCSID 5210) и двухбайтовой кодовой страницы 947 (CCSID 21427). [19] [20] [21] Для лучшей совместимости с вариантом Microsoft в IBM Db2 IBM также определяет чистую двухбайтовую кодовую страницу 1372. [22] и связанный с ним CCSID переменной ширины 1373, который соответствует кодовой странице Microsoft 950. [23]

IBM присваивает CCSID 5471 кодовой странице HKSCS-2001 Big5 (с CPGID 1374 в качестве CCSID 5470 в качестве двухбайтового компонента), [24] [25] CCSID 9567 в кодовую страницу HKSCS-2004 (с CPGID 1374 в качестве CCSID 9566 в качестве двухбайтового компонента), [26] и CCSID 13663 в кодовую страницу HKSCS-2008 (с CPGID 1374 в качестве CCSID 13662 в качестве двухбайтового компонента), [27] в то время как CCSID 1375 присвоен растущей кодовой странице HKSCS, которая в настоящее время эквивалентна CCSID 13663. [28]

Шрифт ChinaSea

[ редактировать ]

ChinaSea Fonts (Китайские морские шрифты) [29] — традиционные китайские шрифты, созданные ChinaSea. Шрифты редко продаются отдельно, но идут в комплекте с другими продуктами, например, с китайской версией Microsoft Office 97 . Шрифты поддерживают японские кана, кокудзи и другие символы, отсутствующие в Big-5. В результате расширения ChinaSea стали более популярными, чем расширения, поддерживаемые правительством. [ на момент? ] в Гонконге Некоторые BBS использовали кодировки шрифтов ChinaSea до появления HKSCS.

Шрифт «Сакура»

[ редактировать ]

Шрифт «Sakura» (日和字集 Sakura Version) разработан в Гонконге и совместим с HKSCS. Он добавляет поддержку кокудзи и собственных дингбатов (включая Doraemon ), которых нет в HKSCS.

Юникод-в-вкл.

[ редактировать ]

Unicode-at-on ( Unicode補完計畫 ), ранее расширение BIG5, расширяет BIG-5 за счет изменения таблиц кодовых страниц, но использует расширения ChinaSea, начиная с версии 2. Однако из-за банкротства ChinaSea, позднего развития и увеличения популярности HKSCS и Unicode (проект несовместим с HKSCS), успех этого расширения в лучшем случае ограничен.

Несмотря на проблемы, символы, ранее сопоставленные с областью частного использования Unicode, переназначаются на стандартизированные эквиваленты при экспорте символов в формат Unicode.

На веб-сайтах газет Oriental Daily News и Sun Daily , принадлежащих компании Oriental Press Group Limited (東方報業集團有限公司) в Гонконге, использовался загружаемый шрифт с кодировкой расширения Big-5, отличной от HKSCS.

Официальные расширения

[ редактировать ]

Шрифт Министерства образования Тайваня

[ редактировать ]

Министерство образования Тайваня предоставило свой собственный шрифт, шрифт Министерства образования Тайваня (шрифт Министерства образования Тайваня) для внутреннего использования.

Шрифт Тайваньского совета сельского хозяйства

[ редактировать ]

Тайваня Шрифт Совета сельского хозяйства , Executive Yuan, представил специальный шрифт из 133 символов, шрифт Тайваньского совета сельского хозяйства, который включает 84 символа из радикала рыбы и 7 символов из радикала птицы .

Большой5+

[ редактировать ]

Китайский фонд технологий оцифровки (中文數位化技術推廣委員會) представил Big5+ в 1997 году, который использовал более 20 000 кодовых точек для включения всех логотипограмм CJK в Unicode 1.1. Однако дополнительные кодовые точки превышали исходное определение Big-5 (Big5+ использует значения старших байтов 81-FE и значения младших байтов 40-7E и 80-FE), что не позволяет установить его в Microsoft Windows без новых файлов кодовой страницы.

Чтобы позволить пользователям Windows использовать собственные шрифты, Китайский фонд технологий оцифровки представил Big-5E, который добавил 3954 символа (в трех блоках кодовых точек: 8E40-A0FE, 8140-86DF, 86E0-875C) и удалил японскую кану из расширение ETEN. В отличие от «Большой пятерки+», Big5E расширяет «Большую пятерку» в ее первоначальном определении. Mac OS X 10.3 и более поздние версии поддерживают Big-5E в шрифтах LiHei Pro (儷黑 Pro.ttf) и LiSong Pro (儷宋 Pro.ttf).

Китайский фонд технологий оцифровки разработал определение «большой пятерки» и включил его в CNS 11643 в виде примечаний, сделав его частью официального стандарта на Тайване.

Big5-2003 включает в себя все символы Big-5, представленные в расширениях ETEN 1984 года (кодовые точки A3C0-A3E0, C6A1-C7F2 и F9D6-F9FE), а также символ евро. Кириллические символы не были включены, поскольку власти заявили, что CNS 11643 не включает такие символы.

В конце 1990-х годов Academia Sinica создала китайский шрифт обработки данных (漢字構形資料庫), последняя версия которого 2.5 включала 112 533 символа, что немного меньше, чем шрифты Mojikyo .

Гонконг также принял Big5 для кодировки символов. Однако письменный кантонский диалект имеет свои собственные символы, недоступные в обычном наборе символов Big5. Чтобы решить эту проблему, правительство Гонконга (GCCS) расширений Big5 создало правительственный набор китайских символов в 1995 году и дополнительный набор символов Гонконга в 1999 году. Расширения Гонконга обычно распространялись в виде патчей. Microsoft по-прежнему распространяется в виде патча, но полный шрифт Unicode также доступен на веб-сайте правительства Гонконга.

Существует две схемы кодирования HKSCS: одна схема кодирования соответствует стандарту кодирования Big-5, а другая — стандарту ISO 10646 . После первоначальной версии существуют также HKSCS-2001 и HKSCS-2004. HKSCS-2004 технически соответствует стандарту ISO/IEC 10646:2003 и поправке 1 к нему, опубликованному в апреле 2004 года Международной организацией по стандартизации (ISO).

HKSCS включает все символы из общего расширения ETen, а также некоторые символы упрощенного китайского языка, географические названия, имена людей и кантонские фразы (включая ненормативную лексику ).

По состоянию на 2020 год последней редакцией HKSCS является HKSCS-2016; однако последней редакцией HKSCS, кодирующей все символы в Big5, была HKSCS-2008, тогда как символы, добавленные в более поздних редакциях, сопоставляются только с ISO 10646 / Unicode (как расширение горизонтального глифа CJK Unified Ideographs , где это необходимо). [30] Кроме того, как и в ситуации с Гонконгом, есть также символы, которые необходимы Макао, но не включены ни в Big5, ни в HKSCS, поэтому был разработан дополнительный набор символов Макао , включающий символы, которых нет в Big5 или HKSCS; однако это также не закодировано в Big5. Первая партия из 121 символа MSCS была отправлена ​​для включения или сопоставления с Unicode в 2009 году. [31] а первая окончательная версия MSCS была создана в 2020 году. [30]

Кана и кириллица

[ редактировать ]

Существует две основные раскладки расширений Big5 для кодирования каны, русской кириллицы и маркеров списков в диапазоне от 0xC6A1 до 0xC875. Они не совместимы друг с другом. [32] Их сравнение приведено в таблице ниже.

Раскладка каны и кириллицы ETEN также используется HKSCS. [33] (включая HTML5 ) [34] и Unicode-At-On [35] варианты, а также версия кодовой страницы 950 от IBM, [36] [37] [38] а раскладка каны ETEN (без кириллицы) также используется в варианте Big5-2003. [39] Опубликованные файлы сопоставления для Windows-950 не содержат ни того, ни другого, и этот диапазон Big5 сопоставляется с областью частного использования реализацией Windows-950 из International Components for Unicode . [40] Python Встроенный cp950 реализация кодека использует макет BIG5.TXT. [41] Классическая версия Mac OS не содержит ни одного макета. [3]

См. также

[ редактировать ]
  1. ^ «Таблица кодов символов Big5 (традиционный китайский)» . Архивировано из оригинала 4 мая 2002 г. Проверено 23 августа 2007 г.
  2. ^ «Наборы символов» . chinesemac.org . Архивировано из оригинала 12 августа 2017 г. Проверено 31 августа 2021 г.
  3. ^ Перейти обратно: а б Apple, Inc (04 апреля 2005 г.) [31 июня 1996 г.]. Сопоставление (внешняя версия) традиционной китайской кодировки Mac OS с Unicode 3.0 и более поздних версий . Консорциум Юникод . Архивировано из оригинала 14 мая 2021 г. Проверено 24 февраля 2021 г.
  4. ^ «Файл сопоставления Unicode CP950» . Юникод . Консорциум Юникод . Архивировано из оригинала 27 июня 2023 г. Проверено 11 мая 2023 г.
  5. ^ «Файл сопоставления Unicode Big5» . Юникод . Консорциум Юникод . Архивировано из оригинала 27 июня 2023 г. Проверено 11 мая 2023 г.
  6. ^ «Серия Mozilla и китайский код Big5 (Big5-2003)» . Тайваньское сообщество Mozilla (на китайском языке (Тайвань)). Архивировано из оригинала 27 июня 2023 г. Проверено 01 июля 2020 г.
  7. ^ Файл сопоставления ETEN, предоставленный тайваньским сообществом Mozilla, сопоставляет три символа как с символом, так и с кодовой точкой идеографа. «Серия Mozilla и код китайских символов Big5 (ETEN)» . Тайваньское сообщество Mozilla (на китайском языке (Тайвань)). Архивировано из оригинала 27 июня 2023 г. Проверено 01 июля 2020 г.
  8. ^ «狗爺語錄 » Архив блога » Что такое кодовая страница 951 (CP951)?» . Архивировано из оригинала 22 февраля 2007 г. Проверено 27 сентября 2006 г.
  9. ^ «Информационный документ CCSID 950» . Архивировано из оригинала 2 декабря 2014 г.
  10. ^ «Информационный документ CCSID 1114» . Архивировано из оригинала 27 марта 2016 г.
  11. ^ «Информационный документ CCSID 947» . Архивировано из оригинала 1 декабря 2014 г.
  12. ^ «Свинцовый байт A3: IBM-950_P110-1999» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
  13. ^ Перейти обратно: а б с Чжу, ХФ.; Ху, Д.Ю.; Ван, ЗГ .; Као, ТК; Чанг, ЧМ.; Криспин, М. (1996). «Китайская кодировка символов для интернет-сообщений» . Запросы на комментарии . IETF . дои : 10.17487/rfc1922 . RFC 1922. Архивировано из оригинала 29 апреля 2021 г. Проверено 1 января 2022 г.
  14. ^ «Свинцовый байт C6: IBM-950_P110-1999» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
  15. ^ «Свинцовый байт C7: IBM-950_P110-1999» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
  16. ^ «Свинцовый байт C8: ibm-950_P110-1999» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
  17. ^ «Свинцовый байт F9: IBM-950_P110-1999» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
  18. ^ «Набор традиционных китайских графических символов IBM для кода IBM BIG-5» (PDF) . ИБМ . 1999. CH 3-3220-131 1999-04. Архивировано (PDF) из оригинала 22 ноября 2021 г. Проверено 1 января 2022 г.
  19. ^ Перейти обратно: а б «Информационный документ CCSID 1370» . Архивировано из оригинала 27 марта 2016 г.
  20. ^ «Информационный документ CCSID 5210» . Архивировано из оригинала 29 ноября 2014 г.
  21. ^ «Информационный документ CCSID 21427» . Архивировано из оригинала 27 марта 2016 г.
  22. ^ «CPGID 01372: MS T-Chinese Big-5 (специально для DB2)» . IBM Globalization — Идентификаторы кодовых страниц . Архивировано из оригинала 17 марта 2016 г.
  23. ^ "ibm-1373_P100-2002" . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode . Архивировано из оригинала 26 мая 2021 г. Проверено 1 января 2022 г.
  24. ^ «CCSID 5471: смешанный добавочный номер Big-5 для HKSCS-2001» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.
  25. ^ Международные компоненты для Unicode (ICU), ibm-5471_P100-2006.ucm , 09 мая 2007 г., заархивировано из оригинала 13 августа 2023 г. , получено 1 января 2022 г.
  26. ^ «CCSID 9567: смешанный добавочный номер Big-5 для HKSCS-2004» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.
  27. ^ «CCSID 13663: смешанный добавочный номер Big-5 для HKSCS-2008» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.
  28. ^ «CCSID 1375: смешанный добавочный номер Big-5 для HKSCS» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.
  29. ^ Хуан Гошу. «Коллекция китайских морских персонажей Chinasea 1.0» . Архивировано из оригинала 19 марта 2005 г. Проверено 5 декабря 2016 г.
  30. ^ Перейти обратно: а б Правительство специального административного района Макао (11 июня 2020 г.). «Представление вертикального расширения Макао (символы UNC), горизонтального расширения и регистрации IVSes для MSCS» (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 IRGN 2430. Архивировано (PDF) из оригинала 23 июня 2020 г. Проверено 2 июля 2020 г.
  31. ^ Рабочая группа по кодированию компьютерных китайских иероглифов (12 июня 2009 г.). «Представление символов из набора символов информационных систем Макао» (PDF) . ISO/IEC JTC 1/SC 2 /WG 2 IRGN 1580. Архивировано из оригинала (PDF) 4 января 2015 г.
  32. ^ Лунде, Кен (12 июля 1996 г.). «2.3.1: БОЛЬШАЯ ПЯТЕРКА». CJK.INF Версия 2.1 . Архивировано из оригинала 15 мая 2021 г. Проверено 15 марта 2020 г.
  33. ^ «Большой5HKSCS-2004» . Мозилла Тайвань. Архивировано из оригинала 24 сентября 2020 г. Проверено 1 июля 2020 г.
  34. ^ ван Кестерен, Энн . «большая пятёрка» . Стандарт кодирования . ЧТОРГ . Архивировано из оригинала 4 мая 2020 г. Проверено 15 марта 2020 г.
  35. ^ «УАО 2.41 б2у» . Мозилла Тайвань. Архивировано из оригинала 24 октября 2020 г. Проверено 1 июля 2020 г.
  36. ^ «Свинцовый байт C6: IBM-950_P110-1999» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
  37. ^ «Свинцовый байт C7: IBM-950_P110-1999» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
  38. ^ «Свинцовый байт C8: ibm-950_P110-1999» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
  39. ^ «Биг5-2003 б2у» . Мозилла Тайвань. Архивировано из оригинала 27 июня 2023 г. Проверено 1 июля 2020 г.
  40. ^ ИБМ ; Консорциум Unicode (3 декабря 2002 г.). «виндовс-950-2000» . Международные компоненты для Unicode . Архивировано из оригинала 2 июля 2020 г. Проверено 1 июля 2020 г.
  41. ^ «Сценарий, показывающий выходные данные кодека cp950 для ведущих байтов 0xC6 и 0xC7» . Архивировано из оригинала 18 октября 2022 г. Проверено 18 октября 2022 г.
  42. ^ Консорциум Unicode (2 декабря 2015 г.) [11 февраля 1994 г.]. Таблица BIG5 в Unicode (полная) . Архивировано из оригинала 27 июня 2023 г. Проверено 15 марта 2020 г.
  43. ^ «Таблица сопоставления Big5-ETen и Unicode» . Мозилла Тайвань. 24 февраля 2002 г. Архивировано из оригинала 27 июня 2023 г. Проверено 1 июля 2020 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 97d69a2e3199a704f85161c23604c4c4__1720023420
URL1:https://arc.ask3.ru/arc/aa/97/c4/97d69a2e3199a704f85161c23604c4c4.html
Заголовок, (Title) документа по адресу, URL1:
Big5 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)