Базовая латиница (блок Unicode)
Базовая латынь или Элементы управления C0 и базовая латиница | |
---|---|
Диапазон | U+0000..U+007F (128 кодовых точек) |
Самолет | БМП |
Скрипты | Латиница (52 символа) Общий (76 символов) |
Основные алфавиты | Английский Французский немецкий испанский вьетнамский |
Наборы символов | арабские цифры Пунктуация |
Назначенный | 128 кодовых точек 33 Управление или форматирование |
Неиспользованный | 0 зарезервированных кодовых точек |
Исходные стандарты | ИСО/МЭК 8859 , ИСО 646 |
История версий Юникода | |
1.0.0 (1991) | 128 (+128) |
Документация Юникод | |
Таблица кодов ∣ Веб-страница | |
Примечание : [1] [2] |
Блок Basic Latin Unicode , [3] иногда неофициально называемые C0 Controls и Basic Latin , [4] — это первый блок стандарта Unicode и единственный блок, который закодирован в один байт в UTF-8 . Блок содержит все буквы и управляющие коды кодировки ASCII. Он варьируется от U+0000 до U+007F, содержит 128 символов и включает элементы управления C0 , знаки препинания и символы ASCII , ASCII цифры , как прописные , так и строчные буквы английского алфавита , а также управляющий символ .
Блок базовой латиницы был включен в его нынешней форме из версии 1.0.0 стандарта Unicode без добавления или изменения набора символов. [5] Имя его блока в Unicode 1.0 было ASCII . [6]
Таблица символов [ править ]
- А Буква U+005C (\) может отображаться как знак иены (¥) или воны (₩) в японских/корейских шрифтах, принимая Unicode (особенно UTF-8 ) за устаревший набор символов, который заменил обратную косую черту этими знаками. [7]
Подзаголовки [ править ]
Блок C0 Controls and Basic Latin содержит шесть подзаголовков. [8]
Элементы управления C0 [ править ]
Элементы управления C0 , называемые в версии 1.0 управляющими кодами C0 ASCII, унаследованы от ASCII и других 7-битных и 8-битных схем кодирования. Псевдонимы элементов управления C0 взяты из стандарта ISO/IEC 6429:1992 . [8]
Знаки пунктуации и символы ASCII [ править ]
В этом подзаголовке упоминаются стандартные знаки пунктуации, простые математические операторы и такие символы, как знак доллара, процент, амперсанд, подчеркивание и трубка. [8]
Цифры ASCII [ править ]
Подзаголовок ASCII Digits содержит стандартные европейские числовые символы 1–9 и 0. [8]
Прописная латиница [ править ]
Подзаголовок «Прописной латинский алфавит» содержит стандартный 26-буквенный латинский алфавит без ударения в маюскуле . [8]
Строчный латинский алфавит [ править ]
Подзаголовок «Латинский алфавит в нижнем регистре» содержит стандартный 26-буквенный латинский алфавит без ударения в минускулах . [8]
Управляющий персонаж [ править ]
Подзаголовок «Управляющий символ» содержит символ «Удалить» . [8]
Количество символов, букв и кодов управления [ править ]
В таблице ниже указано количество букв , символов и управляющих кодов в каждом из подзаголовков блока C0 Controls и Basic Latin.
Подзаголовок | Количество символов | Диапазон символов |
---|---|---|
Управление C0 | 32 кода управления | От U+0000 до U+001F |
Знаки препинания и символы ASCII | 33 знака препинания и символов | От U+0020 до U+002F, от U+003A до U+0040, от U+005B до U+0060 и от U+007B до U+007E |
цифры ASCII | 10 цифр | От U+0030 до U+0039 |
Прописные буквы латинского алфавита | 26 безударных латинских букв в маюскуле. | От U+0041 до U+005A |
Строчный латинский алфавит | 26 безударных латинских букв в мизере. | От U+0061 до U+007A |
Управляющий персонаж | 1 управляющий код, содержащий символ «Удалить». | U + 007F |
График [ править ]
Элементы управления C0 и базовая латиница [а] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
U+000x | НУЛЕВОЙ | СОХ | СТХ | И Т. Д | EOT | ENQ | ПОДТВЕРЖДЕНИЕ | БЕЛ | БС | ХТ | НЧ | ВТ | ФФ | ЧР | ТАК | И |
U + 001x | ДЛЕ | DC1 | DC2 | DC3 | DC4 | ХОТЕТЬ | СИН | ЭТБ | МОЖЕТ | В | СУБ | ЭКУ | ФС | GS | РС | НАС |
U + 002x | СП | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
U + 003x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
U + 004x | @ | А | Б | С | Д | И | Ф | Г | ЧАС | я | Дж | К | л | М | Н | ТО |
U + 005x | П | вопрос | Р | С | Т | В | V | В | Х | И | С | [ | \ | ] | ^ | _ |
U + 006x | ` | а | б | с | д | и | ж | г | час | я | дж | к | л | м | н | тот |
U + 007x | п | д | р | с | т | в | v | В | х | и | С | { | | | } | ~ | ПРИНАДЛЕЖАЩИЙ |
|
Варианты [ править ]
Некоторые символы определены для отображения как стандартизированный вариант, если за ним следуют индикаторы варианта.
Вариант определен для нуля с короткой диагональной чертой: U+0030 DIGIT ZERO, U+FE00 VS1 (0︀). [9] [10]
За двенадцатью символами (#, * и цифры) могут следовать U+FE0E VS15 или U+FE0F VS16 для создания вариантов эмодзи . [11] [12] [13] [14] Это базовые символы клавиатуры , например #️⃣ (U+0023 ЗНАК ЦИФРЫ U+FE0F VS16 U+20E3 КОМБИНИРОВАНИЕ КЛАВИАТУРЫ). Версия VS15 представляет собой «текстовое представление», а версия VS16 — «стиль эмодзи». [10]
У+ | 0023 | 002А | 0030 | 0031 | 0032 | 0033 | 0034 | 0035 | 0036 | 0037 | 0038 | 0039 |
база | # | * | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
база+VS15+клавиша | #︎⃣ | *︎⃣ | 0︎⃣ | 1︎⃣ | 2︎⃣ | 3︎⃣ | 4︎⃣ | 5︎⃣ | 6︎⃣ | 7︎⃣ | 8︎⃣ | 9︎⃣ |
база+VS16+клавиша | #️⃣ | *️⃣ | 0️⃣ | 1️⃣ | 2️⃣ | 3️⃣ | 4️⃣ | 5️⃣ | 6️⃣ | 7️⃣ | 8️⃣ | 9️⃣ |
История [ править ]
В следующих документах, связанных с Unicode, записаны цель и процесс определения определенных символов в блоке базовой латиницы:
Версия | Окончательные кодовые точки [а] | Считать | UTC идентификатор | L2 Идентификатор | рабочей группы 2 Идентификатор | Документ |
---|---|---|---|---|---|---|
1.0.0 | U + 0000..007F | 128 | (будет определено) | |||
UTC/1999-013 | Карлссон, Кент (27 мая 1999 г.), Тильды и разложение микрознаков | |||||
Л2/99-176Р | Мур, Лиза (04 ноября 1999 г.), «Сопоставление случаев микрознаков», протокол совместной встречи UTC/L2 в Сиэтле, 8–10 июня 1999 г. | |||||
Л2/04-145 | Старнер, Дэвид (30 апреля 2004 г.), C с примерами штриховых символов из отчета BAE 1884 г. (Дорси) | |||||
Л2/04-202 | Андерсон, Дебора (07 июня 2004 г.), Slashed C Feedback | |||||
N3046 | Суиньяр, Мишель (22 февраля 2006 г.), Улучшение формального определения управляющих символов. | |||||
N3103 (pdf , док ) | Умамахесваран, В.С. (25 августа 2006 г.), «M48.33», Неподтвержденный протокол заседания 48 РГ 2, Маунтин-Вью, Калифорния, США; 2006-04-24/27 | |||||
Л2/11-043 | Фрейтаг, Асмус; Карлссон, Кент (2 февраля 2011 г.), Предложение по исправлению ошибок и несоответствий в определенных присвоениях свойств для надстрочных и подстрочных букв. | |||||
Л2/11-160 | PRI # 181 Изменение общей категории двенадцати символов , 2 мая 2011 г. | |||||
Л2/11-261Р2 | Мур, Лиза (16 августа 2011 г.), «Консенсус 128-C3», UTC № 128 / L2 № 225 минут , Примите рекомендации Кена Уистлера в L2 / 11-281 по псевдонимам имен для управляющих символов с добавлением сокращений BEL. и НУЛ. | |||||
Л2/11-438 [б] [с] | N4182 | Эдберг, Питер (22 декабря 2011 г.), Последовательности вариаций эмодзи (редакция L2 / 11-429) | ||||
Л2/15-107 | Мур, Лиза (12 мая 2015 г.), «Консенсус 143-C5», UTC № 143 минут . Добавьте 12 последовательностей клавиш в emoji-data.txt в качестве предварительных именованных последовательностей в Юникоде 8.0. | |||||
Л2/15-268 | Битон, Барбара; Фрейтаг, Асмус; Янку, Лаурентиу; Сарджент, Мюррей (30 октября 2015 г.), Предложение представить вариант пустого множества с перечеркнутым нулем | |||||
Л2/15-301 [д] [с] | Пурнадер, Рузбе (01 ноября 2015 г.), Предложение по 278 стандартизированным вариационным последовательностям для смайликов. | |||||
Л2/15-254 | Мур, Лиза (16 ноября 2015 г.), «B.12.1.2 Предложение представить вариант пустого набора с перечеркнутым нулем», UTC № 145 минут | |||||
Л2/17-294 | N4914 | Лунде, Кен (14 августа 2017 г.), Предложение добавить стандартизированную последовательность вариантов для U + FF10 FULLWIDTH DIGIT ZERO | ||||
Л2/22-019 | Шерер, Маркус; и др. (19 января 2022 г.), «F.2 F4: U+0019 в ISO по сравнению с NameAliases.txt и диаграммой/NamesList.txt», отзывы и рекомендации по свойствам UTC № 170 | |||||
Л2/22-016 | Констебль, Питер (21 апреля 2022 г.), «Консенсус 170-C24», UTC # 170 минут . Для U + 0019 добавьте псевдоним имени «EM» в виде сокращения типа для Unicode версии 15.0. | |||||
|
См. также [ править ]
- Латиница в Юникоде
- Дополнение Latin-1
- Кодировка символов
- ИСО/МЭК 8859-1
- Латиница
- Базовый латинский алфавит ISO
Ссылки [ править ]
- ^ «База данных символов Юникода» . Стандарт Юникод . Проверено 26 июля 2023 г.
- ^ «Перечисленные версии стандарта Unicode» . Стандарт Юникод . Проверено 26 июля 2023 г.
- ^ "блок.txt" . Консорциум Юникод . Проверено 23 марта 2023 г.
- ^ «Элементы управления C0 и базовая латиница» (PDF) . Стандарт Юникод, версия 15.0 . Юникод, Инк. 2022 . Проверено 22 марта 2023 г.
- ^ Стандарт Unicode, версия 1.0, том 1 . Addison-Wesley Publishing Company, Inc., 1990. ISBN. 0-201-56788-1 .
- ^ «3.8: Поблочные диаграммы» (PDF) . Стандарт Юникод . версия 1.0. Консорциум Юникод .
- ^ Майкл С. Каплан (17 сентября 2005 г.). «Когда обратная косая черта не является обратной косой чертой?» . Разбираем все это . Майкрософт. Архивировано из оригинала 12 июня 2010 г. Также доступно по адресу: http://archives.miloush.net/michkap/archive/2005/09/17/469941.html.
- ↑ Перейти обратно: Перейти обратно: а б с д и ж г «Таблицы кодов Unicode 6.2» (PDF) . Стандарт Юникод . Проверено 1 апреля 2013 г.
- ^ Битон, Барбара; Фрейтаг, Асмус; Янку, Лаурентиу; Сарджент, Мюррей (30 октября 2015 г.). «L2 / 15-268: Предложение представить вариант пустого набора с перечеркнутым нулем» (PDF) .
- ↑ Перейти обратно: Перейти обратно: а б «Последовательности вариаций эмодзи UTS № 51» . Консорциум Юникод.
- ^ Эдберг, Питер (22 декабря 2011 г.). «L2/11-438: Последовательности вариаций эмодзи (редакция L2/11-429)» (PDF) .
- ^ Пурнадер, Рузбе (01 ноября 2015 г.). «L2/15-301: Предложение по 278 стандартизированным вариационным последовательностям для эмодзи» (PDF) .
- ^ «UTR № 51: эмодзи Юникода» . Консорциум Юникод. 05.09.2023.
- ^ «UCD: данные Emoji для UTR #51» . Консорциум Юникод. 01.02.2023.