Универсальный набор кодированных символов

Универсальный набор кодированных символов
Псевдоним(а)	UCS, Юникод
Язык(и)	Международный
Стандартный	ИСО/МЭК 10646
Форматы кодирования	UTF-8 , UTF-16 , ГБ 18030 ; Реже : UTF-32 , BOCU , SCSU , UTF-7.
Предшественник	ISO/IEC 8859 , ISO/IEC 2022 и другие.
	v ; т ; и ;

®️

Универсальный набор кодированных символов ( UCS , Unicode ) — это стандартный набор символов , определенный международным стандартом ISO / IEC 10646, Информационные технологии — Универсальный набор кодированных символов (UCS) (плюс поправки к этому стандарту), который является основой многих кодировки символов , улучшающиеся по мере добавления символов из ранее не представленных систем типизации.

UCS имеет более 1,1 миллиона возможных кодовых точек, доступных для использования/распределения, но только первые 65 536, то есть базовая многоязычная плоскость (BMP), вошли в общее использование до 2000 года. Эта ситуация начала меняться, когда Китайская Народная Республика ( КНР) в 2006 году постановила, что все программное обеспечение, продаваемое в ее юрисдикции, должно поддерживать GB 18030 . Это требовало программного обеспечения, предназначенного для продажи в КНР, для выхода за рамки БМП. ^{[ нужны разъяснения ]}

Система намеренно оставляет множество кодов, не присвоенных символам, даже в BMP. Это делается для того, чтобы обеспечить возможность дальнейшего расширения или минимизировать конфликты с другими формами кодирования.

В исходной редакции UCS определялась UTF-16 , расширение UCS-2, для представления кодовых точек вне BMP. Диапазон кодовых точек в зоне S (специальной) BMP остается неназначенным символам. UCS-2 запрещает использование кодовых значений для этих кодовых точек, но UTF-16 позволяет использовать их парами. Unicode также принял UTF-16, но в терминологии Unicode элементы верхней полузоны становятся «высокими суррогатами», а элементы нижней полузоны становятся «низкими суррогатами». ^{[ нужны разъяснения ]}

Другая кодировка, UTF-32 (ранее называвшаяся UCS-4), использует четыре байта (всего 32 бита) для кодирования одного символа кодового пространства. Таким образом, UTF-32 допускает двоичное представление каждой точки кода (по состоянию на 2024 год) в API и программных приложениях.

История [ править ]

Международная организация по стандартизации (ISO) приступила к созданию универсального набора символов в 1989 году и опубликовала проект ISO 10646 в 1990 году. Хью МакГрегор Росс был одним из его главных архитекторов.

Эта работа происходила независимо от разработки стандарта Unicode , который разрабатывался с 1987 года компаниями Xerox и Apple .

Первоначальный проект ISO 10646 заметно отличался от действующего стандарта. Он определил:

128 групп
256 самолетов
256 рядов
256 ячеек,

кажущаяся сумма составляет 2 147 483 648 символов, но на самом деле стандарт мог кодировать только 679 477 248 символов, поскольку политика запрещала байтовые значения управляющих кодов C0 и C1 (от 0x00 до 0x1F и от 0x80 до 0x9F в шестнадцатеричной записи) в любом из четырех байтов. задание группы, плоскости, строки и ячейки. Например, латинская заглавная буква A находилась в группе 0x20, плоскости 0x20, строке 0x20, ячейке 0x41.

Символы этого изначального стандарта ISO/IEC 10646 можно закодировать одним из трех способов:

UCS-4, четыре байта на каждый символ, что обеспечивает простое кодирование всех символов;
UCS-2, два байта на каждый символ, позволяющий кодировать первую плоскость, 0x20, базовую многоязычную плоскость, содержащую первые 36 864 кодовых точки, напрямую, а также другие плоскости и группы путем переключения на них с помощью ISO/IEC 2022 ; escape-последовательностей
UTF-1 , который кодирует все символы в последовательности байтов различной длины (от 1 до 5 байт, каждый из которых не содержит управляющих кодов).

Таким образом, в 1990 году существовало две инициативы по созданию универсального набора символов: Unicode с 16 битами для каждого символа (65 536 возможных символов) и ISO/IEC 10646. Компании-разработчики программного обеспечения отказались принять требования стандарта ISO к сложности и размеру и смогли убедить ряд национальных органов ИСО проголосовать против него. ^{[ нужна ссылка ]} Должностные лица ISO осознали, что не могут продолжать поддерживать стандарт в его нынешнем состоянии, и договорились об унификации своего стандарта с Unicode. Произошло два изменения: снятие ограничения на количество символов (запрет на значения управляющего кода), что открыло для распределения кодовые точки; и синхронизация репертуара базовой многоязычной плоскости с репертуаром Unicode.

Между тем, с течением времени ситуация в самом стандарте Unicode изменилась: 65 536 символов оказались недостаточными, а стандарт начиная с версии 2.0 и далее поддерживает кодирование 1 112 064 кодовых точек из 17 плоскостей с помощью UTF-16. суррогатного механизма . По этой причине ISO/IEC 10646 был ограничен содержанием такого количества символов, которое может быть закодировано с помощью UTF-16, и не более, то есть чуть более миллиона символов вместо более чем 679 миллионов. Кодировка UCS-4 ISO/IEC 10646 была включена в стандарт Unicode с ограничением диапазона UTF-16 и под названием UTF-32 , хотя она практически не используется вне внутренних данных программ.

Роб Пайк и Кен Томпсон , разработчики операционной системы Plan 9 , разработали новую, быструю и хорошо продуманную кодировку смешанной ширины, которая также была обратно совместима с 7-битным ASCII , и которая получила название UTF-8 . ^[1] и в настоящее время является самой популярной кодировкой UCS.

Отличия от Юникод [ править ]

ISO/IEC 10646 и Unicode имеют идентичный репертуар и номера — в обоих стандартах существуют одни и те же символы с одинаковыми номерами, хотя Unicode выпускает новые версии и чаще добавляет новые символы. В Unicode есть правила и спецификации, выходящие за рамки ISO/IEC 10646. ISO/IEC 10646 — это простая карта символов, расширение предыдущих стандартов, таких как ISO/IEC 8859 . Напротив, Unicode добавляет правила сортировки , нормализации форм и двунаправленный алгоритм для сценариев с письмом справа налево, таких как арабский и иврит. Для взаимодействия между платформами, особенно если используются двунаправленные сценарии, недостаточно поддерживать ISO/IEC 10646; Юникод должен быть реализован.

Для поддержки этих правил и алгоритмов Unicode добавляет множество свойств к каждому символу в наборе, например свойства, определяющие класс двунаправленного письма по умолчанию, и свойства, определяющие, как символ сочетается с другими символами. Если символ представляет числовое значение, например европейское число «8» или обычную дробь «¼», это числовое значение также добавляется как свойство символа. Юникод предполагает, что эти свойства поддерживают совместимую обработку текста на разных языках.

Некоторые приложения поддерживают символы ISO/IEC 10646, но не полностью поддерживают Unicode. Одно из таких приложений, Xterm , может правильно отображать все символы ISO/IEC 10646, которые имеют однозначное сопоставление символов с глифами. ^{[ нужны разъяснения ]} и однонаправленность. Он может обрабатывать некоторые комбинированные знаки простыми методами перечеркивания, но не может отображать иврит (двунаправленный), деванагари (один символ для многих глифов) или арабский язык (обе функции). Большинство приложений с графическим пользовательским интерфейсом используют стандартные процедуры рисования текста ОС, которые обрабатывают такие сценарии, хотя сами приложения по-прежнему не всегда обрабатывают их правильно.

универсальный набор кодированных символов на Ссылка

ISO/IEC 10646 , общая неофициальная ссылка на семейство стандартов ISO/IEC 10646, приемлема в большинстве случаев. И хотя это отдельный стандарт, термин Unicode столь же часто неофициально используется при обсуждении UCS. Однако в любых нормативных ссылках на UCS как на публикацию должен указываться год издания в форме ISO/IEC 10646:{year} , например: ISO/IEC 10646:2014 .

Связь с Unicode [ править ]

С 1991 года Консорциум Unicode и ISO / IEC разработали Стандарт Unicode совместно («Юникод») и ISO/IEC 10646. Репертуар, имена символов и кодовые точки Unicode версии 2.0 точно соответствуют стандарту ISO/IEC 10646-1:1993 с его первыми семью опубликованными поправками. После публикации Unicode 3.0 в феврале 2000 года соответствующие новые и обновленные символы вошли в UCS через ISO/IEC 10646-1:2000. В 2003 году части 1 и 2 стандарта ISO/IEC 10646 были объединены в одну часть, в которую с тех пор был внесен ряд поправок, добавляющих в стандарт символы, примерно синхронные со стандартом Unicode.

ISO/IEC 10646-1:1993 = Юникод 1.1.
ISO/IEC 10646-1:1993 плюс поправки 5–7 = Unicode 2.0.
ISO/IEC 10646-1:1993 плюс поправки 5–7 = Unicode 2.1, за исключением знака евро и символа замены объекта , которые включены в поправку 18.
ISO/IEC 10646-1:2000 = Юникод 3.0.
ISO/IEC 10646-1:2000 и ISO/IEC 10646-2:2001 = Юникод 3.1.
ISO/IEC 10646-1:2000 плюс поправка 1 и ISO/IEC 10646-2:2001 = Unicode 3.2.
ISO/IEC 10646:2003 = Юникод 4.0.
ISO/IEC 10646:2003 плюс поправка 1 = Unicode 4.1.
ISO/IEC 10646:2003 плюс поправки 1–2 = Unicode 5.0, за исключением букв деванагари GGA, JJA, DDDA и BBA, которые включены в поправку 3.
ISO/IEC 10646:2003 плюс поправки с 1 по 4 = Unicode 5.1.
ISO/IEC 10646:2003 плюс поправки с 1 по 6 = Unicode 5.2.
ISO/IEC 10646:2003 плюс поправки с 1 по 8 = ISO/IEC 10646:2011 = Unicode 6.0, за исключением знака индийской рупии.
ISO/IEC 10646:2012 = Юникод 6.1.
ISO/IEC 10646:2012 = Unicode 6.2, за исключением знака турецкой лиры , который включен в поправку 1.
ISO/IEC 10646:2012 = Юникод 6.3 , за исключением знака турецкой лиры, который включен в поправку 1, и пяти двунаправленных управляющих символов (знак арабской буквы, выделение слева направо, выделение справа налево, первый сильный изолированный символ, всплывающее окно). Directional Isolate), которые включены в Поправку 2.
ISO/IEC 10646:2012 плюс поправки 1 и 2 = Unicode 7.0, исключая знак рубля.
ISO/IEC 10646:2014 плюс поправка 1 = Unicode 8.0, за исключением знака лари , девяти унифицированных иероглифов CJK и 41 символа эмодзи.
ISO/IEC 10646:2014 плюс поправки 1 и 2 = Unicode 9.0, за исключением Adlam , Newa , символов японского телевидения, а также 74 эмодзи и символов.
ISO/IEC 10646:2017 = Unicode 10.0, за исключением 285 хентайганы символов , 3 символов площади Занабазар и 56 символов эмодзи.
ISO/IEC 10646:2017 плюс поправка 1 = Unicode 11.0, за исключением 46 грузинских заглавных букв Мтаврули , 5 унифицированных иероглифов CJK и 66 символов эмодзи.
ISO/IEC 10646:2017 плюс поправки 1 и 2 = Unicode 12.0, исключая 62 дополнительных символа.
ISO/IEC 10646:2020 = Юникод 13.0
ISO/IEC 10646:2021 = Юникод 14.0

См. также [ править ]

Сопутствующие стандарты:

- ISO/IEC 646 (позиции от 0 до 127 такие же, как в ISO/IEC 10646 и Unicode, а номера 646 и 10646 аналогичны)
- ISO/IEC 2022 Информационные технологии. Структура кода символов и методы расширения.
- Коды управления ISO/IEC 6429 C0 и C1
- ISO/IEC 8859 (позиции от 0 до 255 в UCS и Unicode такие же, как в ISO/IEC 8859-1, псевдоним ISO Latin 1)
- ISO/IEC 14651 Информационные технологии. Международный порядок и сравнение строк.
- Коды ISO 15924 для представления названий сценариев (каждый символ связан с одним из этих сценариев)
Сравнение кодировок Unicode
Список ссылок на символьные сущности XML и HTML
Список шрифтов Юникода
Персонажи универсального набора символов
ИСО/МЭК ОТК 1/ПК 2

Ссылки [ править ]

^ Пайк, Роб (3 апреля 2003 г.). «История UTF-8» . Архивировано из оригинала 23 мая 2016 г.

Внешние ссылки [ править ]

Общедоступные стандарты (ISO) – включают копию ISO/IEC 10646:2020/Amd. 1:2023(Р)
ISO/IEC JTC1/SC2/WG2 , рабочая группа, отвечающая за ISO 10646.
Часто задаваемые вопросы по UTF-8 и Unicode
Бесплатные шрифты, редакторы и документация SIL.
Простой, но приятный пример UTF-8, проверяющий возможности вашего веб-браузера и шрифтов.
Проблемы с набором символов для ADA 9x с октября 1989 года, в которых подробно рассказывается об оригинальном DIS ISO-10646, выпущенном до слияния.

[Pike_2003-1] Пайк, Роб (3 апреля 2003 г.). «История UTF-8» . Архивировано из оригинала 23 мая 2016 г.

[1]

v т и Кодировки символов
Early telecommunications	Telegraph code Needle Morse Non-Latin Wabun/Kana Chinese Cyrillic Korean Baudot and Murray Fieldata ASCII ISO/IEC 646 BCDIC Teletex and Videotex/Teletext T.51/ISO/IEC 6937 ITU T.61 ITU T.101 World System Teletext background sets Transcode
ISO/IEC 8859	Approved parts -1 (Western Europe) -2 (Central Europe) -3 (Maltese/Esperanto) -4 (North Europe) -5 (Cyrillic) -6 (Arabic) -7 (Greek) -8 (Hebrew) -9 (Turkish) -10 (Nordic) -11 (Thai) -13 (Baltic) -14 (Celtic) -15 (New Western Europe) -16 (Romanian) Abandoned parts -12 (Devanagari) Proposed but not approved KOI-8 Cyrillic Sámi Adaptations Welsh Barents Cyrillic Estonian Ukrainian Cyrillic
Bibliographic use	MARC-8 ANSEL CCCII/EACC ISO 5426 5426-2 5427 5428 6438 6862
National standards	ArmSCII Big5 BraSCII CNS 11643 DIN 66003 ELOT 927 GOST 10859 GB 2312 GB 12345 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KS X 1001 KS X 1002 LST 1564 LST 1590-4 PASCII Shift JIS SI 960 TIS-620 TSCII VISCII VSCII YUSCII
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367 Extended Unix Code / EUC
Mac OS Code pages ("scripts")	Armenian Arabic Barents Cyrillic Celtic Central European Croatian Cyrillic Devanagari Farsi (Persian) Font X (Kermit) Gaelic Georgian Greek Gujarati Gurmukhi Hebrew Iceland Inuit Keyboard Latin (Kermit) Maltese/Esperanto Ogham Roman Romanian Sámi Turkish Turkic Cyrillic Ukrainian VT100
DOS code pages	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1034 1040 1042 1043 1044 1098 1115 1116 1117 1118 1127 3846 ABICOMP CS Indic CSX Indic CSX+ Indic CWI-2 Iran System Kamenický Mazovia MIK
IBM AIX code pages	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1046 1124 1133
Windows code pages	CER-GS 932 936 (GBK) 950 1169 Extended Latin-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 Cyrillic + Finnish Cyrillic + French Cyrillic + German Polytonic Greek
EBCDIC code pages	Japanese language in EBCDIC DKOI
DEC terminals (VTx)	Multinational (MCS) National Replacement (NRCS) French Canadian Swiss Spanish United Kingdom Dutch Finnish French Norwegian and Danish Swedish Norwegian and Danish (alternative) 8-bit Greek 8-bit Turkish SI 960 Hebrew Special Graphics Technical (TCS)
Platform specific	1052 1053 1054 1055 1056 1057 1058 Acorn RISC OS Amstrad CPC Apple II ATASCII Atari ST BICS Casio calculators CDC Compucolor 8001 Compucolor II CP/M+ DEC RADIX 50 DEC MCS/NRCS DG International Galaksija GEM GSM 03.38 HP Roman HP FOCAL HP RPL SQUOZE LICS LMBCS MSX NEC APC NeXT PETSCII PostScript Standard PostScript Latin 1 SAM Coupé Sega SC-3000 Sharp calculators Sharp MZ Sinclair QL Teletext TI calculators TRS-80 Ventura International WISCII XCCS ZX80 ZX81 ZX Spectrum
Unicode / ISO/IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC GB 18030 DIN 91379 BOCU-1 CESU-8 SCSU TACE16 Comparison of Unicode encodings
TeX typesetting system	Cork LY1 OML OMS OT1
Miscellaneous code pages	ABICOMP ASMO 449 Digital encoding of APL symbols ISO-IR-68 ARIB STD-B24 Fieldata HZ IEC-P27-1 INIS 7-bit 8-bit ISO-IR-169 ISO 2033 KOI KOI8-R KOI8-RU KOI8-U Mojikyō SEASCII Stanford/ITS Symbol TRON Unified Hangul Code
Control character	Morse prosigns C0 and C1 control codes ISO/IEC 6429 JIS X 0211 Unicode control, format and separator characters Whitespace characters
Related topics	CCSID Character encodings in HTML Charset detection Han unification Hardware code page MICR code Mojibake Variable-length encoding
Character sets

v т и ISO Стандарты по номеру стандарта
List of ISO standards – ISO romanizations – IEC standards
1–9999	1 2 3 4 6 7 9 16 17 31 -0 -1 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 68-1 128 216 217 226 228 233 259 261 262 302 306 361 500 518 519 639 -1 -2 -3 -5 -6 646 657 668 690 704 732 764 838 843 860 898 965 999 1000 1004 1007 1073-1 1073-2 1155 1413 1538 1629 1745 1989 2014 2015 2022 2033 2047 2108 2145 2146 2240 2281 2533 2709 2711 2720 2788 2848 2852 2921 3029 3103 3166 -1 -2 -3 3297 3307 3601 3602 3864 3901 3950 3977 4031 4157 4165 4217 4909 5218 5426 5427 5428 5725 5775 5776 5800 5807 5964 6166 6344 6346 6373 6385 6425 6429 6438 6523 6709 6943 7001 7002 7010 7027 7064 7098 7185 7200 7498 -1 7637 7736 7810 7811 7812 7813 7816 7942 8000 8093 8178 8217 8373 8501-1 8571 8583 8601 8613 8632 8651 8652 8691 8805/8806 8807 8820-5 8859 -1 -2 -3 -4 -5 -6 -7 -8 -8-I -9 -10 -11 -12 -13 -14 -15 -16 8879 9000/9001 9036 9075 9126 9141 9227 9241 9293 9314 9362 9407 9496 9506 9529 9564 9592/9593 9594 9660 9797-1 9897 9899 9945 9984 9985 9995
10000–19999	10006 10007 10116 10118-3 10160 10161 10165 10179 10206 10218 10279 10303 -11 -21 -22 -28 -238 10383 10585 10589 10628 10646 10664 10746 10861 10957 10962 10967 11073 11170 11172 11179 11404 11544 11783 11784 11785 11801 11889 11898 11940 (-2) 11941 11941 (TR) 11992 12006 12052 12182 12207 12234-2 12620 13211 -1 -2 13216 13250 13399 13406-2 13450 13485 13490 13567 13568 13584 13616 13816 13818 14000 14031 14224 14289 14396 14443 14496 -2 -3 -6 -10 -11 -12 -14 -17 -20 14617 14644 14649 14651 14698 14764 14882 14971 15022 15189 15288 15291 15292 15398 15408 15444 -3 -9 15445 15438 15504 15511 15686 15693 15706 -2 15707 15897 15919 15924 15926 15926 WIP 15930 15938 16023 16262 16355-1 16485 16612-2 16750 16949 (TS) 17024 17025 17100 17203 17369 17442 17506 17799 18004 18014 18181 18245 18629 18916 19005 19011 19092 -1 -2 19114 19115 19125 19136 19407 19439 19500 19501 19502 19503 19505 19506 19507 19508 19509 19510 19600 19752 19757 19770 19775-1 19794-5 19831
20000–29999	20000 20022 20121 20400 20802 20830 21000 21001 21047 21122 21500 21827 22000 22275 22300 22301 22395 22537 23000 23003 23008 23009 23090-3 23092 23094-1 23094-2 23270 23271 23360 23941 24517 24613 24617 24707 24728 25178 25964 26000 26262 26300 26324 27000 series 27000 27001 27002 27005 27006 27729 28000 29110 29148 29199-2 29500
30000+	30170 31000 32000 37001 38500 39075 40500 42010 45001 50001 55000 56000 80000
Category

v т и стандарты МЭК
IEC	60027 60034 60038 60062 60063 60068 60112 60228 60269 60297 60309 60320 60364 60446 60559 60601 60870 60870-5 60870-6 60906-1 60908 60929 60958 61030 61131 61131-3 61131-9 61158 61162 61334 61355 61360 61400 61499 61508 61511 61784 61850 61851 61883 61960 61968 61970 62014-4 62026 62056 62061 62196 62262 62264 62304 62325 62351 62365 62366 62379 62386 62455 62680 62682 62700 63110 63119 63382
ISO/IEC	646 1989 2022 4909 5218 6429 6523 7810 7811 7812 7813 7816 7942 8613 8632 8652 8859 9126 9293 9496 9529 9592 9593 9899 9945 9995 10021 10116 10165 10179 10279 10646 10967 11172 11179 11404 11544 11801 12207 13250 13346 13522-5 13568 13816 13818 14443 14496 14651 14882 15288 15291 15408 15444 15445 15504 15511 15693 15897 15938 16262 16485 17024 17025 18004 18014 18181 19752 19757 19770 19788 20000 20802 21000 21827 22275 22537 23000 23003 23008 23270 23360 24707 24727 24744 24752 26300 27000 27000-series 27002 27040 29110 29119 33001 38500 39075 42010 80000 81346
Related	International Electrotechnical Commission