Специальные предложения (блок Unicode)
Специальные предложения | |
---|---|
Диапазон | U+FFF0..U+FFFF (16 кодовых точек) |
Самолет | БМП |
Скрипты | Общий |
Назначенный | 5 кодовых точек |
Неиспользованный | 9 зарезервированных кодовых точек 2 не персонажа |
История версий Юникода | |
1.0.0 (1991) | 1 (+1) |
2.1 (1998) | 2 (+1) |
3.0 (1999) | 5 (+3) |
Документация Юникод | |
Таблица кодов ∣ Веб-страница | |
Примечание : [1] [2] |
Специальные символы — это короткий блок символов Юникода , расположенный в самом конце базовой многоязычной плоскости , по адресам U+FFF0–FFFF. Из этих 16 кодовых точек пять были присвоены начиная с Unicode 3.0:
- U+FFF9 ЯКОРЬ МЕЖЛИНЕЙНОЙ АННОТАЦИИ , отмечает начало аннотированного текста.
- U+FFFA РАЗДЕЛИТЕЛЬ МЕЖЛИНЕЙНЫХ АННОТАНЦИЙ , отмечает начало символа(ов) аннотации.
- U+FFFB TERMINATOR INTERLINEAR ANNOTATION TERMINATOR , отмечает конец блока аннотаций.
- U+FFFC  СИМВОЛ ЗАМЕНЫ ОБЪЕКТА , заполнитель в тексте для другого неопределенного объекта, например в составном документе .
- U+FFFD — СИМВОЛ ЗАМЕНЫ , используемый для замены неизвестного, нераспознанного или непредставимого символа.
- U+FFFE <noncharacter-FFFE> не является символом.
- U+FFFF <noncharacter-FFFF> не является символом.
U+FFFE <несимвольный-FFFE> и U+FFFF <noncharacter-FFFF> — это несимволы , то есть они зарезервированы, но не приводят к неправильному форматированию текста в Юникоде. В версиях стандарта Unicode с 3.1.0 по 6.3.0 утверждалось, что эти символы никогда не следует менять местами, в результате чего некоторые приложения использовали их для угадывания кодировки текста, интерпретируя присутствие любого из них как признак того, что текст не является Unicode. Однако позже в Исправлении № 9 было указано, что несимвольные символы не являются незаконными, и поэтому этот метод проверки кодировки текста неверен. [3]
Юникод Символ U+FEFF ZERO WIDTH NO-BREAK SPACE может быть вставлен в начало текста Unicode, чтобы указать на его порядковый номер : программа, читающая такой текст и встречающая 0xFFFE, будет знать, что ей следует изменить порядок байтов для всех следующих символов.
Имя его блока в Юникоде 1.0 было Special . [4]
Заменяющий символ
[ редактировать ]Символ замены � (часто отображается в виде черного ромба с белым вопросительным знаком) — это символ, встречающийся в стандарте Unicode в кодовой точке U+FFFD в таблице Specials . Он используется для обозначения проблем, когда система не может преобразовать поток данных для исправления символов. [5]
Например, текстовый файл, закодированный в ISO 8859-1, содержащий немецкое слово für, содержит байты 0x66 0xFC 0x72
. Если этот файл открыт в текстовом редакторе, который предполагает, что входные данные имеют формат UTF-8 , первый и третий байты являются допустимыми кодировками ASCII UTF-8 , а второй байт ( 0xFC
) недействителен в UTF-8. Текстовый редактор может заменить этот байт символом замены, чтобы создать действительную строку кодовых точек Юникода для отображения, чтобы пользователь видел «f’r».
Плохо реализованный текстовый редактор может записать символ замены, когда пользователь сохраняет файл; данные в файле станут 0x66 0xEF 0xBF 0xBD 0x72
. Если файл повторно открыт с использованием ISO 8859-1, он отобразит «f�r» (это называется mojibake ). Поскольку замена одинакова для всех ошибок, восстановить исходный символ невозможно. Лучшее решение (но более сложное в реализации) — сохранить исходные байты, включая любые ошибки, и преобразовать их в замену только при отображении текста. Это позволит текстовому редактору сохранить исходную последовательность байтов, при этом показывая пользователю сообщение об ошибке.
Одно время символ замены часто использовался, когда в шрифте не было глифа для этого символа, как при замене шрифта . Однако большинство современных систем рендеринга текста вместо этого используют шрифт. Символ .notdef , который в большинстве случаев представляет собой пустое поле или "?" или «X» в квадрате, [6] (этот браузер отображает �), иногда называемый « тофу ». Для этого символа не существует кодовой точки Unicode.
Таким образом, символ замены теперь виден только при ошибках кодирования. Некоторые программы преобразуют недопустимые байты UTF-8 в соответствующие символы в Windows-1252 (поскольку это наиболее распространенный источник этих ошибок), так что символ замены никогда не виден.
Диаграмма Юникод
[ редактировать ]Специальные предложения [1] [2] [3] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
U+FFFx | ИАА | МСФО | ИАТ |  | � | |||||||||||
Примечания |
История
[ редактировать ]Следующие документы, связанные с Unicode, описывают цель и процесс определения определенных символов в блоке Specials:
Версия | Окончательные кодовые точки [а] | Считать | UTC идентификатор | L2 Идентификатор | рабочей группы 2 Идентификатор | Документ |
---|---|---|---|---|---|---|
1.0.0 | U+FFFD | 1 | (будет определено) | |||
U+FFFE..FFFF | 2 | (будет определено) | ||||
Л2/01-295Р | Мур, Лиза (6 ноября 2001 г.), «Предложение 88-M2», протокол заседания UTC/L2 № 88. | |||||
Л2/01-355 | N2369 (html , документ ) | Дэвис, Марк (26 сентября 2001 г.), Запрос на разрешение FFFF, FFFE в UTF-8 в тексте ISO / IEC 10646. | ||||
Л2/02-154 | N2403 | Умамахесваран, В.С. (22 апреля 2002 г.), «9.3 Разрешение FFFF и FFFE в UTF-8», проект протокола заседания 41 рабочей группы 2, отель Phoenix, Сингапур, 19 октября 2001 г. | ||||
2.1 | U+FFFC | 1 | UTC/1995-056 | Сарджент, Мюррей (12 декабря 1995 г.), Рекомендация по кодированию символа WCH_EMBEDDING. | ||
UTC/1996-002 | Алипранд, Джоан; Харт, Эдвин; Гринфилд, Стив (05 марта 1996 г.), «Встроенные объекты», UTC № 67 минут. | |||||
N1365 | Сарджент, Мюррей (18 марта 1996 г.), Краткое изложение предложения - Персонаж замены объекта | |||||
N1353 | Умамахесваран, В.С.; Ксар, Майк (25 июня 1996 г.), «8.14», проект протокола заседания WG2 в Копенгагене № 30. | |||||
Л2/97-288 | N1603 | Умамахесваран, В.С. (1997-10-24), "7.3", неподтвержденный протокол заседания, заседание WG 2 № 33, Ираклион, Крит, Греция, 20 июня - 4 июля 1997 г. | ||||
Л2/98-004Р | N1681 | Текст ISO 10646 – 18 драм за регистрацию PDAM и голосование FPDAM , 22 декабря 1997 г. | ||||
Л2/98-070 | Алипранд, Джоан; Винклер, Арнольд, «Дополнительные комментарии к 2.1», Протокол совместной встречи UTC и L2 с встречи в Купертино, 25-27 февраля 1998 г. | |||||
Л2/98-318 | N1894 | Пересмотренный текст 10646-1/FPDAM 18, ПОПРАВКА 18: Символы и прочее , 22 октября 1998 г. | ||||
3.0 | U+FFF9..FFFB | 3 | Л2/97-255Р | Алипранд, Джоан (03 декабря 1997 г.), «3.D Предложение по встроенной нотации (рубин)», Утвержденный протокол - совместное заседание UTC № 73 и L2 № 170, Пало-Альто, Калифорния – 4-5 августа 1997 г. | ||
Л2/98-055 | Фрейтаг, Асмус (22 февраля 1998 г.), Поддержка реализации встроенных и подстрочных аннотаций | |||||
Л2/98-070 | Алипранд, Джоан; Винклер, Арнольд, «3.C.5. Поддержка реализации строчных и подстрочных аннотаций», Протокол совместной встречи UTC и L2 с встречи в Купертино, 25-27 февраля 1998 г. | |||||
Л2/98-099 | N1727 | Фрейтаг, Асмус (18 марта 1998 г.), Поддержка реализации подстрочных аннотаций, используемых в восточноазиатской типографике. | ||||
Л2/98-158 | Алипранд, Джоан; Винклер, Арнольд (26 мая 1998 г.), «Встроенные и подстрочные аннотации», черновой вариант протокола - совместное заседание UTC № 76 и подгруппы NCITS L2 № 173, Тредиффрин, Пенсильвания, 20–22 апреля 1998 г. | |||||
Л2/98-286 | N1703 | Умамахесваран, В.С.; Ксар, Майк (02 июля 1998 г.), «8.14», неподтвержденный протокол заседания, заседание WG 2 № 34, Редмонд, Вашингтон, США; 1998-03-16--20 | ||||
Л2/98-270 | Хиура, Хидеки; Кобаяши, Тацуо (29 июля 1998 г.), Предложение по встроенным и подстрочным аннотациям | |||||
Л2/98-281Р (pdf , html ) | Алипранд, Джоан (31 июля 1998 г.), «Построчные и подстрочные аннотации (III.C.1.c)», неподтвержденные протоколы – UTC № 77 и подгруппа NCITS L2 № 174, СОВМЕСТНОЕ ЗАСЕДАНИЕ, Редмонд, Вашингтон – июль 29-31, 1998 г. | |||||
Л2/98-363 | N1861 | Сато, ТК (1 сентября 1998 г.), рубиновые маркеры | ||||
Л2/98-372 | N1884R2 (pdf , док ) | Уистлер, Кен; и др. (1998-09-22), Дополнительные символы для UCS | ||||
Л2/98-416 | N1882.zip | Поддержка реализации подстрочных аннотаций , 23 сентября 1998 г. | ||||
Л2/98-329 | N1920 | Совместное голосование по регистрации и рассмотрению PDAM на WD по стандарту ISO/IEC 10646-1/Amd. 30, ПОПРАВКА 30: Дополнительные латинские и другие символы , 28 октября 1998 г. | ||||
Л2/98-421Р | Суиньяр, Мишель; Хиура, Хидеки (04 декабря 1998 г.), Примечания относительно символов подстрочных аннотаций PDAM 30 | |||||
Л2/99-010 | N1903 (pdf , html , doc ) | Умамахесваран, В.С. (30 декабря 1998 г.), «8.2.15», Протокол заседания 35 РГ 2, Лондон, Великобритания; 1998-09-21--25 | ||||
Л2/98-419 (pdf , doc ) | Алипранд, Джоан (05 февраля 1999 г.), «Символы подстрочных аннотаций», утвержденный протокол — совместное заседание UTC № 78 и подгруппы NCITS L2 № 175, Сан-Хосе, Калифорния, 1–4 декабря 1998 г. | |||||
UTC/1999-021 | Дюрст, Мартин; Босак, Джон (08.06.1999), Заявление W3C XML CG о символах аннотации | |||||
Л2/99-176Р | Мур, Лиза (04 ноября 1999 г.), «Заявление о взаимодействии W3C по символам аннотаций», протокол совместного собрания UTC/L2 в Сиэтле, 8–10 июня 1999 г. | |||||
Л2/01-301 | Уистлер, Кен (01 августа 2001 г.), «E. Обозначается как «настоятельно не рекомендуется» для обмена обычным текстом», Анализ устаревания символов в стандарте Unicode | |||||
|
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «База данных символов Юникода» . Стандарт Юникод . Проверено 26 июля 2023 г.
- ^ «Перечисленные версии стандарта Unicode» . Стандарт Юникод . Проверено 26 июля 2023 г.
- ^ «Исправление № 9: Разъяснение относительно неперсонажей» . Стандарт Юникод . Архивировано из оригинала 10 июня 2023 г. Проверено 7 июня 2023 г.
- ^ «3.8: Поблочные диаграммы» (PDF) . Стандарт Юникод . Версия 1.0. Консорциум Юникод . Архивировано (PDF) из оригинала 11 февраля 2021 г. Проверено 30 сентября 2020 г.
- ^ Вичари, Марцин (29 сентября 2020 г.). «Когда падают шрифты» . Фигма. Архивировано из оригинала 13 июня 2021 года . Проверено 6 июня 2021 г.
- ^ «Рекомендации по шрифтам OpenType (OpenType 1.7) — Типографика» . Microsoft Learn . Архивировано из оригинала 19 октября 2020 года . Проверено 18 октября 2020 г.