ИСО/МЭК 8859
Было предложено ISO/IEC 8859-12 объединить в эту статью. ( Обсудить ) Предлагается с декабря 2023 г. |
Стандартный | ИСО/МЭК 8859 |
---|---|
Классификация | 8-битный расширенный ASCII , ISO/IEC 4873, уровень 1 |
Расширяет | США-ASCII |
Предшественник | ИСО/МЭК 646 |
Преемник | ISO/IEC 10646 ( Юникод ) |
Другая связанная кодировка(и) | ИСО/МЭК 10367 , Windows-125x |
ISO/IEC 8859 — это совместная ISO и IEC серия стандартов для 8-битных кодировок символов . Серия стандартов состоит из пронумерованных частей, таких как ISO/IEC 8859-1 , ISO/IEC 8859-2 и т. д. Всего 15 частей, не считая устаревшего ISO/IEC 8859-12 . [1] Рабочая группа ISO, поддерживающая эту серию стандартов, была расформирована.
Части 1, 2, 3 и 4 ISO/IEC 8859 изначально были международным стандартом Ecma ECMA-94 .
Введение [ править ]
Хотя битовых комбинаций 95 печатных символов ASCII достаточно для обмена информацией на современном английском языке , большинству других языков, использующих латинский алфавит, требуются дополнительные символы, не охватываемые ASCII. ISO/IEC 8859 стремился решить эту проблему, используя восьмой бит в 8-битном байте, чтобы обеспечить позиции для еще 96 печатных символов. Ранние кодировки были ограничены 7 битами из-за ограничений некоторых протоколов передачи данных и частично по историческим причинам. Однако требовалось больше символов, чем могло поместиться в одну 8-битную кодировку символов, поэтому было разработано несколько сопоставлений, в том числе как минимум десять, подходящих для различных латинских алфавитов.
Части стандарта ISO/IEC 8859 определяют только печатные символы, хотя они явно определяют диапазоны байтов 0x00–1F и 0x7F–9F как «комбинации, которые не представляют собой графические символы» (т. е. которые зарезервированы для использования в качестве управляющих символов ) в соответствии с с ISO/IEC 4873 ; они были разработаны для использования в сочетании с отдельным стандартом, определяющим функции управления, связанные с этими байтами, например ISO 6429 или ISO 6630 . [2] С этой целью в серию кодировок, зарегистрированных в IANA, добавлен набор элементов управления C0 (управляющие символы, сопоставленные с байтами от 0 до 31) из ISO 646 и набор элементов управления C1 (управляющие символы, сопоставленные с байтами с 128 по 159) из ISO 6429, в результате чего полные 8-битные карты символов, которым назначено большинство, если не все, байты. Эти наборы имеют ISO-8859- n в качестве предпочтительного имени MIME или, в случаях, когда предпочтительное имя MIME не указано, их каноническое имя. Многие люди используют термины ISO/IEC 8859- n и ISO-8859- n как взаимозаменяемые. В ISO/IEC 8859-11 такая кодировка не была назначена, предположительно потому, что она была почти идентична TIS 620 .
Персонажи [ править ]
Стандарт ISO/IEC 8859 предназначен для надежного обмена информацией, а не типографики ; в стандарте отсутствуют символы, необходимые для высококачественной типографики, такие как необязательные лигатуры, фигурные кавычки, тире и т. д. В результате в высококачественных системах набора текста часто используются собственные или уникальные расширения поверх стандартов ASCII и ISO/IEC 8859. или вместо этого используйте Юникод .
Неточное правило, основанное на практическом опыте, гласит, что если символ или символ еще не был частью широко используемого набора символов для обработки данных, а также обычно не присутствовал на клавиатурах пишущих машинок для национального языка, он не проникал. Отсюда и направленность Были включены двойные кавычки « и », используемые для некоторых европейских языков, но не были включены направляющие двойные кавычки « и », используемые для английского и некоторых других языков.
Во французском языке не было лигатур œ и Œ, потому что их можно было напечатать как «oe». Точно так же был удален символ Ÿ , необходимый для текста, написанного заглавными буквами. [3] [4] [5] Хотя и под другими кодовыми точками, эти три символа были позже повторно введены в стандарте ISO/IEC 8859-15 в 1999 году, который также ввел новый символ знака евро €. Точно так же в голландском языке не было букв ij и IJ , потому что носители голландского языка привыкли вместо этого печатать их как две буквы.
Румынский язык изначально не получил букв ş / ş и ş / ts ( с запятой ), потому что эти буквы изначально были унифицированы с Ş / ş и Ţ / ţ ( с седилем ) Консорциумом Unicode , считая фигуры с запятой внизу варианты глифов фигур с седиллой. Однако буквы с явной запятой ниже были позже добавлены в стандарт Unicode, а также в ISO/IEC 8859-16 .
Большинство кодировок ISO/IEC 8859 содержат диакритические знаки, необходимые для различных европейских языков, использующих латинский алфавит. Другие предоставляют нелатинские алфавиты: греческий , кириллица , иврит , арабский и тайский . Большинство кодировок содержат только пробелы , хотя тайские, ивритские и арабские кодировки также содержат комбинационные символы .
Стандарт не предусматривает использования письменностей восточноазиатских языков ( CJK ), поскольку их системы идеографического письма требуют многих тысяч кодовых точек. использует символы на основе латиницы, Несмотря на то, что вьетнамский язык он также не вписывается в 96 позиций (без использования комбинированных диакритических знаков, таких как в Windows-1258 ). Каждый японский слоговой алфавит (хирагана или катакана, см. Кана ) подойдет, как в JIS X 0201 , но, как и некоторые другие алфавиты мира, они не кодируются в системе ISO/IEC 8859.
Части ISO/IEC 8859 [ править ]
ISO/IEC 8859 разделен на следующие части:
Часть | Имя | Редакции | Другие стандарты | Описание |
---|---|---|---|---|
Часть 1 | Латиница-1 Западноевропейский | 1987 , 1998 | ЭКМА-94 ( 1985 , 1986) | Вероятно, наиболее широко используемая часть ISO/IEC 8859, охватывающая большинство западноевропейских языков: датский (частично), [номер 1] голландский (частичный), [номер 2] английский , фарерский , финский (частичный), [номер 3] французский (частичный), [номер 3] Немецкий , исландский , ирландский , итальянский , норвежский , португальский , ретороманский , шотландский гэльский , испанский , каталонский и шведский . Также охвачены языки из других частей мира, в том числе: восточноевропейский албанский , юго-восточноазиатский индонезийский , а также африканские языки африкаанс и суахили . Модификация DEC MCS ; в первой (1985 г.) стандартной версии на уровне ECMA отсутствовал знак времени и знак деления , которые были добавлены в следующем году. Отсутствующий знак евро и заглавная буква Ÿ присутствуют в пересмотренной версии ISO/IEC 8859-15 (см. ниже). Соответствующий набор символов IANA — ISO-8859-1. |
Часть 2 | Латиница-2 Центральноевропейский | 1987 , 1999 | ЭКМА-94 (1986) [номер 4] | Поддерживает те языки Центральной и Восточной Европы, которые используют латинский алфавит, включая боснийский , польский , хорватский , чешский , словацкий , словенский , сербский и венгерский . Отсутствующий знак евро можно найти в версии ISO/IEC 8859-16. |
Часть 3 | Латиница-3 Южноевропейский | 1988 , 1999 | турецкий , мальтийский и эсперанто . В значительной степени заменен ISO/IEC 8859-9 для турецкого языка. | |
Часть 4 | Латиница-4 Североевропейский | 1988 , 1998 | Эстонский , латышский , литовский , гренландский и саамский . | |
Часть 5 | Латиница/Кириллица | 1988 , 1999 | ЭКМА-113 (1988, 1999) [номер 5] | Охватывает в основном славянские языки, использующие кириллицу , включая белорусский , болгарский , македонский , русский , сербский и украинский (частично). [номер 6] |
Часть 6 | Латинский/арабский | 1987 , 1999 | Охватывает наиболее распространенные символы арабского языка . Не поддерживает другие языки, использующие арабскую вязь . Для отображения необходимо обработать двунаправленное письмо и соединение курсивом . | |
Часть 7 | Латинский/Греческий | 1987 , 2003 | Охватывает современный греческий язык ( монотонная орфография ). Может также использоваться для древнегреческого письма без акцентов или с монотонной орфографией, но без диакритических знаков для политонической орфографии . Они были представлены вместе с Unicode. Обновлено в 2003 году: добавлен знак евро , знак драхмы и пробелы в ypogegrammeni . | |
Часть 8 | Латынь/иврит | 1988 , 1999 | Охватывает современный еврейский алфавит , используемый в Израиле. На практике существуют две разные кодировки: логический порядок (для отображения необходимо обрабатывать двунаправленное письмо ) и визуальный порядок (слева направо) (фактически, после обработки двунаправленного текста и разрыва строки). Обновлено 1999 г., добавлено ЛРМ и РЛМ . Обновлено на уровне национального стандарта в 2002 году, добавлены знаки евро и шекеля, а также больше эффекторов двунаправленного формата; дополнения 2002 года так и не были включены обратно в версию стандарта ISO. | |
Часть 9 | Латиница-5 турецкий | 1989 , 1999 | Во многом такой же, как ISO/IEC 8859-1, с заменой редко используемых исландских букв на турецкие . | |
Часть 10 | Латиница-6 нордический | 1992 , 1998 | ЭКМА-144 (1990, 1992, 2000) | Перестановка Latin-4. Считается более полезным для скандинавских языков. В балтийских языках больше используется латиница-4. |
Часть 11 | Латинский/тайский | 2001 | ТИС-620 (1986, 1990) | Содержит символы, необходимые для тайского языка . Первая редакция установлена в 1986 году на уровне национального стандарта как TIS 620 . В 2001 году ему присвоен статус стандарта ISO как часть ISO 8859 с добавлением неразрывного пробела . |
Латынь/деванагари | Н/Д | - | Работа по созданию части 8859 для деванагари была официально прекращена в 1997 году. ISCII и Unicode/ISO/IEC 10646 охватывают деванагари. | |
Часть 13 | Латиница-7 Балтийский регион | 1998 | - | Добавлены символы балтийских языков, отсутствующие в Latin-4 и Latin-6. Связано с ранее опубликованным [номер 7] Windows-1257 . |
Часть 14 | Латиница-8 Селтик | 1998 | - | Охватывает кельтские языки, такие как гэльский и бретонский язык . Валлийские буквы соответствуют более раннему (1994 г.) ISO-IR-182 . |
Часть 15 | Латиница-9 | 1999 | - | Версия 8859-1, в которой удалены некоторые малоиспользуемые символы, заменены знаком евро € и буквами Š , š , Ž , ž , Œ , œ и Ÿ , что завершает охват французского , финского и эстонского языков . |
Часть 16 | латиница-10 Юго-Восточная Европа | 2001 | СР 14111 (1998) | Предназначен для албанского , хорватского , венгерского , итальянского , польского , румынского и словенского языков , а также для финского, французского, немецкого и ирландского гэльского языков (новая орфография). Основное внимание уделяется буквам, а не символам. Общий знак валюты заменяется знаком евро . |
Каждая часть ISO/IEC 8859 предназначена для поддержки языков, которые часто заимствуются друг у друга, поэтому символы, необходимые для каждого языка, обычно размещаются в одной части. Однако есть некоторые символы и языковые комбинации, которые невозможно реализовать без транскрипции. Были предприняты усилия, чтобы сделать преобразования как можно более плавными. Например, в немецком языке все семь специальных символов находятся на одних и тех же позициях во всех латинских вариантах (1–4, 9, 10, 13–16), а во многих позициях символы различаются только диакритическими знаками между наборами. В частности, варианты 1–4 были разработаны совместно и обладают тем свойством, что каждый закодированный символ либо появляется в заданной позиции, либо не появляется вообще.
Таблица [ править ]
Двоичный | октябрь | декабрь | Шестигранник | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1010 0000 | 240 | 160 | А0 | Неразрывное пространство (NBSP) | |||||||||||||||
1010 0001 | 241 | 161 | А1 | ¡ | А | ЧАС | А | Или | ‘ | ¡ | А | г | ” | Ḃ | ¡ | А | |||
1010 0010 | 242 | 162 | А2 | ¢ | ˘ | ĸ | Đ | ’ | ¢ | БЫЛИ | б | ¢ | ḃ | ¢ | а | ||||
1010 0011 | 243 | 163 | А3 | £ | Л | £ | О | Ф | £ | Г | ฃ | £ | Л | ||||||
1010 0100 | 244 | 164 | A4 | ¤ | Есть | ¤ | € | ¤ | я | С | ¤ | С | € | ||||||
1010 0101 | 245 | 165 | А5 | ¥ | Ľ | Я | С | ₯ | ¥ | Я | ฅ | „ | с | ¥ | „ | ||||
1010 0110 | 246 | 166 | А6 | ¦ | С | Ч | л | я | ¦ | К | ก | ¦ | Ḋ | С | |||||
1010 0111 | 247 | 167 | A7 | § | Ей | § | д | § | |||||||||||
1010 1000 | 250 | 168 | А8 | ¨ | Дж | ¨ | л | Э | Ø | Ẁ | с | ||||||||
1010 1001 | 251 | 169 | А9 | © | С | Я | С | ЖЖ | © | Д | я | © | |||||||
1010 1010 | 252 | 170 | АА | й | Ш | БЫЛИ | Нью-Джерси | ͺ | × | й | С | М | О | Ẃ | й | И | |||
1010 1011 | 253 | 171 | АБ | « | Т | Ğ | Г | Ć | « | Ŧ | С | « | ḋ | « | |||||
1010 1100 | 254 | 172 | переменного тока | ¬ | С | Дж | Ŧ | К | ، | ¬ | Ж | ฺ | ¬ | Фу | ¬ | С | |||
1010 1101 | 255 | 173 | ОБЪЯВЛЕНИЕ | Мягкий дефис (SHY) | Да | ЗАСТЕНЧИВЫЙ | |||||||||||||
1010 1110 | 256 | 174 | НО | ® | Ж | Ж | В | ® | О | ก | ® | С | |||||||
1010 1111 | 257 | 175 | ИЗ | ¯ | З | ¯ | Дж | ― | ¯ | С | ก | Ой | Ÿ | ¯ | З | ||||
1011 0000 | 260 | 176 | Б0 | ° | А | ° | й | ° | Ḟ | ° | |||||||||
1011 0001 | 261 | 177 | Б1 | ± | а | час | а | Б | ± | а | й | ± | ḟ | ± | |||||
1011 0010 | 262 | 178 | Б2 | ² | ˛ | ² | ˛ | В | ² | были | й | ² | Г | ² | С | ||||
1011 0011 | 263 | 179 | Б3 | ³ | л | ³ | ŗ | Г | ³ | г | на | ³ | с | ³ | л | ||||
1011 0100 | 264 | 180 | Б4 | ´ | Д | ΄ | ´ | я | д | “ | Ṁ | Ж | |||||||
1011 0101 | 265 | 181 | Б5 | м | л | м | ой | Хорошо | ΅ | м | ой | Т | м | ṁ | м | ” | |||
1011 0110 | 266 | 182 | Б6 | ¶ | поздно | ч | л | Же | А | ¶ | к | че | ¶ | ||||||
1011 0111 | 267 | 183 | Б7 | · | ˇ | · | ˇ | С | · | Т | · | Ṗ | · | ||||||
1011 1000 | 270 | 184 | Б8 | ¸ | И | Э | ¸ | л | че | ø | ẁ | час | |||||||
1011 1001 | 271 | 185 | Б9 | ¹ | с | я | с | И | ИЛИ | ¹ | Д | н | ¹ | ṗ | ¹ | С | |||
1011 1010 | 272 | 186 | НЕТ | й | ш | были | К | я | ÷ | й | с | Б | ŗ | ẃ | й | И | |||
1011 1011 | 273 | 187 | ББ | » | й | г | г | л | ؛ | » | ŧ | П | » | Ṡ | » | ||||
1011 1100 | 274 | 188 | до нашей эры | ¼ | С | диджей | ŧ | М | Ό | ¼ | час | П | ¼ | Инерция | О | ||||
1011 1101 | 275 | 189 | БД | ½ | ˝ | ½ | С | Н | ½ | ― | Дождь | ½ | Ẅ | œ | |||||
1011 1110 | 276 | 190 | БЫТЬ | ¾ | час | час | О | Да | ¾ | Эм-м-м | П | ¾ | ẅ | Ÿ | |||||
1011 1111 | 277 | 191 | лучший друг | ¿ | г | ŋ | П | ؟ | О | ¿ | ŋ | Ф | ой | ṡ | ¿ | г | |||
1100 0000 | 300 | 192 | С0 | ИМЕЕТ | – | ИМЕЕТ | И | Р | я | ИМЕЕТ | И | Ph | А | ИМЕЕТ | |||||
1100 0001 | 301 | 193 | С1 | На | С | А | А | На | м | К | На | ||||||||
1100 0010 | 302 | 194 | С2 | Â | Т | ну давай же | Б | Â | Да | И | Â | ||||||||
1100 0011 | 303 | 195 | С3 | Ã | Хм | Ã | У | А | С | Ã | Р | Ć | Ã | Хм | |||||
1100 0100 | 304 | 196 | С4 | Ä | Ф | был | Д | Ä | Р | Ä | |||||||||
1100 0101 | 305 | 197 | С5 | Ой | ù | С | Ой | Х | Э | Э | Ой | л | Ой | Ć | |||||
1100 0110 | 306 | 198 | С6 | Ой | Ć | Ч | Ой | Ц | Э | Г | Ой | ฦ | Ä | Ой | |||||
1100 0111 | 307 | 199 | С7 | Что | К | Ч | А | ИЛИ | Что | К | Вт | БЫЛИ | Что | ||||||
1100 1000 | 310 | 200 | С8 | И | С | И | С | Ш | для | че | И | С | Проф. | С | И | ||||
1100 1001 | 311 | 201 | С9 | И | Щ | Э | я | И | ก | И | |||||||||
1100 1010 | 312 | 202 | ЧТО | Э | Ä | Э | Ä | Ъ | Т | К | Э | Ä | С | С | Э | ||||
1100 1011 | 313 | 203 | КБ | Э | Да | че | л | Э | ЧАС | Э | Э | ||||||||
1100 1100 | 314 | 204 | СС | Я | Э | Я | Э | Ь | С | М | Я | Э | ก | Г | Я | ||||
1100 1101 | 315 | 205 | компакт-диск | В | Э | ЧАС | Н | В | О | К | В | ||||||||
1100 1110 | 316 | 206 | ЭТОТ | вопрос | Ю | Х | Х | вопрос | ЧАС | я | вопрос | ||||||||
1100 1111 | 317 | 207 | CF | Я | Д | Я | я | Я | принадлежащий | ТО | Я | и т. д. | л | Я | |||||
Двоичный | октябрь | декабрь | Шестигранник | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
1101 0000 | 320 | 208 | Д0 | Ð | Д | Д | а | З | П | Ğ | Ð | Ой | С | ź | Ð | ||||
1101 0001 | 321 | 209 | Д1 | С | Н | С | Н | б | Р | Р | С | Н | ก | Н | С | Н | |||
1101 0010 | 322 | 210 | Д2 | Ò | Н | Ò | Ой | в | З | Ò | Ой | ก | Н | Ò | |||||
1101 0011 | 323 | 211 | Д3 | Ой | К | г | вопрос | С | Ой | ก | Ой | ||||||||
1101 0100 | 324 | 212 | Д4 | ЗОНТИК | д | Ш | Т | ЗОНТИК | Это | Ой | ЗОНТИК | ||||||||
1101 0101 | 325 | 213 | Д5 | ОН | ОН | Г | ОН | является | п | Да | ОН | Да | ОН | ОН | |||||
1101 0110 | 326 | 214 | Д6 | ОН | же | З | Ф | ОН | Эм-м-м | ОН | |||||||||
1101 0111 | 327 | 215 | D7 | × | с | я | Х | × | Ũ | ฺ | × | Ṫ | × | С | |||||
1101 1000 | 330 | 216 | Д8 | Ø | Р | Дж | Ø | и | З | пс | Ø | ты | Ø | Ø | Ű | ||||
1101 1001 | 331 | 217 | Д9 | Ù | В | Ù | Ø | и | А | Ой | Ù | Ø | ты | Л | Ù | ||||
1101 1010 | 332 | 218 | И | О | к | г | Да | О | ฺ | С | О | ||||||||
1101 1011 | 333 | 219 | БД | И | Ű | И | л | Да | И | О | И | ||||||||
1101 1100 | 334 | 220 | округ Колумбия | О | м | а | О | О | |||||||||||
1101 1101 | 335 | 221 | ДД | ИДЕЯ | Вт | Ũ | н | е | Я | ИДЕЯ | З | ИДЕЯ | Ä | ||||||
1101 1110 | 336 | 222 | ИЗ | че | Þ | Ш | О | о | или | Ш | че | Ж | Ŷ | че | Þ | ||||
1101 1111 | 337 | 223 | ДФ | SS | п | я | ‗ | SS | ฿ | SS | |||||||||
1110 0000 | 340 | 224 | Е0 | имеет | к | имеет | и | р | ـ | ЧАС | А | имеет | и | т | а | имеет | |||
1110 0001 | 341 | 225 | Е1 | на | с | Ф | а | на | на | И | к | на | |||||||
1110 0010 | 342 | 226 | Е2 | â | т | вопрос | б | третий | â | Ой | и | â | |||||||
1110 0011 | 343 | 227 | Е3 | ã | Хм | ã | у | твой | с | д | ã | В | Ч | ã | Хм | ||||
1110 0100 | 344 | 228 | Е4 | ä | ф | к | д | тот | ä | Что? | ä | ||||||||
1110 0101 | 345 | 229 | Е5 | к | ĺ | с | к | х | М | е | и | к | ๅ | к | Ч | ||||
1110 0110 | 346 | 230 | Е6 | ой | Ч | с | ой | час | Н | г | Г | ой | Любой другой | ę | ой | ||||
1110 0111 | 347 | 231 | E7 | Что | к | час | е | или | ЧАС | Что | к | ก | были | Что | |||||
1110 1000 | 350 | 232 | Е8 | И | С | И | С | ш | и | я | девятый | И | С | ฺ | С | И | |||
1110 1001 | 351 | 233 | Е9 | и | щ | ى | я | Дж | и | Этот | и | ||||||||
1110 1010 | 352 | 234 | советник | ага | ę | ага | ę | ъ | Да | Мистер | с | ага | ę | Ой | С | ага | |||
1110 1011 | 353 | 235 | ЭБ | ага | й | ً | л | о | ага | Ой | Эм-м-м | ага | |||||||
1110 1100 | 354 | 236 | ЕС | я | Э | я | Эм-м-м | ь | ٌ | м | к | я | Эм-м-м | ก | г | я | |||
1110 1101 | 355 | 237 | ЭД | в | э | ٍ | н | М | в | � | к | в | |||||||
1110 1110 | 356 | 238 | ЭЭ | вопрос | ю | َ | х | от | вопрос | ๎ | я | вопрос | |||||||
1110 1111 | 357 | 239 | ЕСЛИ | я | д | я | я | я | ُ | тот | Н | я | ๏ | л | я | ||||
1111 0000 | 360 | 240 | Ф0 | д | Д | Д | № | ِ | п | Н | г | д | ๐ | с | ой | д | Д | ||
1111 0001 | 361 | 241 | Ф1 | н | является | н | нет | или | ّ | р | С | н | нет | ๑ | является | н | является | ||
1111 0010 | 362 | 242 | Ф2 | ò | нет | ò | ой | д | ْ | с | П | ò | ой | ๒ | нет | ò | |||
1111 0011 | 363 | 243 | F3 | от | к | ж | п | ж | от | ๓ | от | ||||||||
1111 0100 | 364 | 244 | F4 | Зонтик | есть | т | П | Зонтик | ๔ | ой | Зонтик | ||||||||
1111 0101 | 365 | 245 | F5 | он | он | с | он | дж | ты | С | он | ๕ | он | он | |||||
1111 0110 | 366 | 246 | F6 | он | и | ж | С | он | ๖ | он | |||||||||
1111 0111 | 367 | 247 | F7 | ÷ | е | час | К | ÷ | фу | ๗ | ÷ | ṫ | ÷ | поздно | |||||
1111 1000 | 370 | 248 | F8 | ø | р | дж | ø | дж | п | Р | ø | ๘ | Эм-м-м | ø | фу | ||||
1111 1001 | 371 | 249 | F9 | ты | в | ты | Эм-м-м | жж | ой | что | ты | Эм-м-м | ๙ | л | ты | ||||
1111 1010 | 372 | 250 | НО | ты | Нью-Джерси | я | А | ты | ๚ | поздно | ты | ||||||||
1111 1011 | 373 | 251 | ФБ | и | фу | и | час | Д | и | ๛ | Эм-м-м | и | |||||||
1111 1100 | 374 | 252 | ФК | ты | д | тот | ты | ты | |||||||||||
1111 1101 | 375 | 253 | ФД | идея | ш | фу | § | й | ЛРМ | я | идея | г | идея | ę | |||||
1111 1110 | 376 | 254 | ИП | то есть | Þ | ш | Эм-м-м | в | ой | РЛМ | ш | то есть | час | дом | то есть | Þ | |||
1111 1111 | 377 | 255 | ФФ | ÿ | ˙ | дж | ÿ | ĸ | ’ | ÿ | |||||||||
Двоичный | октябрь | декабрь | Шестигранник | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 |
неназначенные кодовые точки.
новые дополнения в ISO/IEC 8859-7:2003 и ISO/IEC 8859-8:1999 версиях , ранее не назначенные.
Связь с Unicode и UCS [ править ]
С 1991 года Консорциум Unicode работает с ISO и IEC над разработкой стандарта Unicode и ISO/IEC 10646: Универсальный набор символов совместной (UCS). В новых редакциях ISO/IEC 8859 символы выражаются через имена Unicode/UCS и обозначение U+nnnn , в результате чего каждая часть ISO/IEC 8859 представляет собой схему кодирования символов Unicode/UCS, которая отображает очень небольшое подмножество символов. UCS в отдельные 8-битные байты. Первые 256 символов в Юникоде и UCS идентичны символам в ISO/IEC-8859-1 ( Latin-1 ).
Однобайтовые наборы символов, включая части ISO/IEC 8859 и их производные, пользовались предпочтением на протяжении 1990-х годов, поскольку имели преимущества, заключающиеся в том, что они хорошо зарекомендовали себя и их легче реализовать в программном обеспечении: уравнение одного байта к одному символу является простым и адекватным. для большинства одноязычных приложений, и здесь нет сочетающихся символов или вариантов форм. По мере того как операционные системы с поддержкой Unicode стали более распространенными, ISO/IEC 8859 и другие устаревшие кодировки стали менее популярными. Хотя остатки ISO 8859 и модели однобайтовых символов остаются укоренившимися во многих операционных системах, языках программирования, системах хранения данных, сетевых приложениях, устройствах отображения и прикладном программном обеспечении для конечных пользователей, большинство современных компьютерных приложений используют Unicode внутри себя и полагаются на преобразование. таблицы для сопоставления с другими кодировками и обратно, когда это необходимо.
Текущий статус [ править ]
Стандарт ISO/IEC 8859 поддерживался Объединенным техническим комитетом ISO/IEC 1, подкомитетом 2, рабочей группой 3 (ISO/IEC JTC 1/SC 2/WG 3). В июне 2004 года WG 3 была расформирована, а обязанности по техническому обслуживанию были переданы SC 2 . Подкомитета Стандарт в настоящее время не обновляется, поскольку единственная оставшаяся рабочая группа , WG 2, концентрируется на разработке универсального набора кодированных символов Unicode .
Стандарт кодирования WHATWG , определяющий кодировки символов, разрешенные в HTML5 , которые должны поддерживать совместимые браузеры. [7] включает большую часть ISO/IEC 8859, [8] за исключением частей 1, 9 и 11, которые вместо этого интерпретируются как Windows-1252 , Windows-1254 и Windows-874 соответственно. [9] Авторам новых страниц и разработчикам новых протоколов рекомендуется использовать вместо этого UTF-8 . [9]
См. также [ править ]
- Список наборов компьютерных символов
- Числовые формы
- Набор символов RPL (расширенный набор символов ISO/IEC 8859-1 на калькуляторах HP, также называемый «ECMA-94»)
- Многонациональный набор символов DEC (MCS)
- Национальный набор заменяющих символов DEC (NRCS)
Примечания [ править ]
- ^ Отсутствуют несколько ударных гласных, включая ε и ٿ . Их можно заменить гласными без ударения ценой увеличения двусмысленности.
- ^ только буква IJ/ij (буква IJ) , которая обычно обозначается как IJ. Отсутствует
- ^ Jump up to: Перейти обратно: а б Недостающие символы указаны в ISO/IEC 8859-15.
- ^ Издание 1985 года включает только версию ISO-8859-1.
- ^ В издании 1986 года определяется KOI8-E , что представляет собой совершенно другую кодировку.
- ^ 8859-5 отсутствует буква Ґ/ґ , которая была вновь введена в украинский алфавит в 1990 году.
- ^ Опубликовано в 1995 г., зарегистрировано в 1996 г. [6]
Ссылки [ править ]
- ^ Чаудхури, Ариндам; Мандавия, Крупа; Баделия, Пратикса; Гош, Сумья К. (24 декабря 2016 г.), «Системы оптического распознавания символов для французского языка» , Системы оптического распознавания символов для разных языков с помощью мягких вычислений , Cham: Springer International Publishing, стр. 109–136, doi : 10.1007/ 978-3-319-50252-6_5 , ISBN 978-3-319-50251-9 , получено 4 декабря 2023 г.
- ^ ISO/IEC JTC 1/SC 2/WG 3 (12 февраля 1998 г.). Окончательный текст DIS 8859-1, 8-битные однобайтовые наборы графических символов. Часть 1: Латинский алфавит № 1 (PDF) . ИСО / МЭК ФДИС 8859-1:1998; ДТК1/СК2/Н2988; РГ3/N411.
Этот набор закодированных графических символов можно рассматривать как версию 8-битного кода согласно ISO/IEC 2022 или ISO/IEC 4873 на уровне 1. [...] Заштрихованные позиции в кодовой таблице соответствуют битовым комбинациям, которые не представляют собой графические символы. Их использование выходит за рамки ISO/IEC 8859; это указано в других международных стандартах, например ISO/IEC 6429.
{{citation}}
: CS1 maint: числовые имена: список авторов ( ссылка ) - ^ Хараламбус, Яннис (сентябрь 2007 г.). Шрифты и кодировки . Перевод Хорна, П. Скотта (1-е изд.). Севастополь, Калифорния, США: O'Reilly Media, Inc., стр. 37–38 . ISBN 978-0-596-10242-5 .
Согласно городской легенде, французский делегат заболел в тот день, когда стандарт был вынесен на голосование, и ему пришлось поручить своему бельгийскому коллеге выступить в качестве его доверенного лица. На самом деле французский делегат был инженером, который был убежден, что эта лигатура бесполезна, а представители Швейцарии и Германии настойчиво настаивали на том, чтобы математические символы × и ÷ были включены в те позиции, где Œ и œ . логически стояли бы
- ^ Андре, Жак (15 октября 2003 г.) [02 октября 2003 г.]. Эндрю, Бернард; барон Жорж-Луи; Брюйар, Эрик (ред.). «История О, история типографских слухов и их уроки» . Обработка текста и производство документов INRP/GEDIAPS (на французском языке): 19–34. Архивировано из оригинала 8 декабря 2016 г. Проверено 9 декабря 2016 г.
- ^ Андре, Жак (ноябрь 1996 г.). «ISO Latin-1, европейский стандарт кодирования символов? Не хватает трех французских символов!» (PDF) . Cahiers GUTenberg (на французском языке) (25): 65–77. Архивировано из оригинала (PDF) 30 ноября 2008 г.
- ^ Лажинцева, Катя (3 мая 1996 г.). «Регистрация новой кодировки MIME: Windows-1257» . ИАНА.
- ^ «8.2.2.3. Кодировки символов» . HTML 5.1, 2-е издание . W3C .
Пользовательские агенты должны поддерживать кодировки, определенные в стандарте кодирования WHATWG, включая, помимо прочего, [...]
- ^ ван Кестерен, Энн . «Устаревшие однобайтовые кодировки» . Стандарт кодирования . ЧТОРГ .
- ^ Jump up to: Перейти обратно: а б ван Кестерен, Энн . «Имена и ярлыки» . Стандарт кодирования . ЧТОРГ .
- Опубликованные версии каждой части ISO/IEC 8859 доступны за отдельную плату на сайте каталога ISO и в интернет-магазине IEC .
- PDF-версии окончательных проектов некоторых частей ISO/IEC 8859, представленных в ISO/IEC JTC 1/SC 2/WG 3 для рассмотрения и публикации, доступны на веб-сайте WG 3 :
- ISO/IEC 8859-1:1998 - 8-битные однобайтовые наборы графических символов, Часть 1: Латинский алфавит № 1 (проект от 12 февраля 1998 г., опубликован 15 апреля 1998 г.)
- ISO/IEC 8859-4:1998 - 8-битные однобайтовые наборы графических символов, Часть 4: Латинский алфавит № 4 (проект от 12 февраля 1998 г., опубликован 1 июля 1998 г.)
- ISO/IEC 8859-7:1999 - 8-битные однобайтовые наборы графических символов, Часть 7: Латинский/греческий алфавит (проект от 10 июня 1999 г.; заменен ISO/IEC 8859-7:2003, опубликован 10 октября, 2003)
- ISO/IEC 8859-10:1998 - Наборы 8-битных однобайтовых графических символов, Часть 10: Латинский алфавит № 6 (проект от 12 февраля 1998 г., опубликован 15 июля 1998 г.)
- ISO/IEC 8859-11:1999 - Наборы 8-битных однобайтовых графических символов, Часть 11: Набор латинских/тайских символов (проект от 22 июня 1999 г.; заменен ISO/IEC 8859-11:2001, опубликован 15 декабря). 2001)
- ISO/IEC 8859-13:1998 - Наборы 8-битных однобайтовых графических символов, Часть 13: Латинский алфавит № 7 (проект от 15 апреля 1998 г., опубликован 15 октября 1998 г.)
- ISO/IEC 8859-15:1998 - 8-битные однобайтовые наборы графических символов, Часть 15: Латинский алфавит № 9 (проект от 1 августа 1997 г.; заменен ISO/IEC 8859-15:1999, опубликован 15 марта). , 1999)
- ISO/IEC 8859-16:2000 - 8-битные однобайтовые наборы графических символов, Часть 16: Латинский алфавит № 10 (проект от 15 ноября 1999 г.; заменен ISO/IEC 8859-16:2001, опубликован 15 июля). , 2001)
- Стандарты ECMA , которые по своей сути точно соответствуют стандартам набора символов ISO/IEC 8859, можно найти по адресу:
- Стандарт ECMA-94 : наборы 8-битных однобайтовых графических символов - латинские алфавиты с № 1 по № 4, 2-е издание (июнь 1986 г.)
- Стандарт ECMA-113 : наборы 8-битных однобайтовых графических символов - латиница/кириллица, 3-е издание (декабрь 1999 г.)
- Стандарт ECMA-114 : наборы 8-битных однобайтовых графических символов - латинский/арабский алфавит, 2-е издание (декабрь 2000 г.)
- Стандарт ECMA-118 : наборы 8-битных однобайтовых графических символов - латинский/греческий алфавит (декабрь 1986 г.)
- Стандарт ECMA-121 : наборы 8-битных однобайтовых графических символов - латинский/ивритский алфавит, 2-е издание (декабрь 2000 г.)
- Стандарт ECMA-128 : наборы 8-битных однобайтовых графических символов - латинский алфавит № 5, 2-е издание (декабрь 1999 г.)
- Стандарт ECMA-144 : наборы 8-битных однобайтовых символов - латинский алфавит № 6, 3-е издание (декабрь 2000 г.)
- ISO/IEC 8859-1 в Unicode Таблицы преобразования в виде простых текстовых файлов находятся на FTP-сайте Unicode.
- Неофициальные описания и таблицы кодов для большинства стандартов ISO/IEC 8859 доступны в документе ISO/IEC 8859 Alphabet Soup (Mirror).