ИСО/МЭК 8859-15
МИМ / IANA | ИСО-8859-15 |
---|---|
Псевдоним(а) | латиница-9, латиница-0, латиница-6 |
Стандартный | ИСО/МЭК 8859 |
На основе | ИСО-8859-1 |
Предшественник | ИСО-8859-1 |
Преемник | UTF-8 |
ISO/IEC 8859-15:1999 , Информационные технологии. 8-битные однобайтовые наборы графических символов. Часть 15. Латинский алфавит № 9 , является частью серии ISO/IEC 8859 на основе ASCII стандартных кодировок символов , сначала издание, опубликованное в 1999 году. Неофициально оно называется Latin-9 (и некоторое время Latin-0 ). Он аналогичен ISO 8859-1 и, следовательно, также предназначен для «западноевропейских» языков, но заменяет некоторые менее распространенные символы знаком евро и некоторыми буквами, которые были сочтены необходимыми. [1]
A4 | А6 | А8 | Б4 | Б8 | до нашей эры | БД | БЫТЬ | |
---|---|---|---|---|---|---|---|---|
8859-1 | ¤ | ¦ | ¨ | ´ | ¸ | ¼ | ½ | ¾ |
8859-15 | € | С | с | Ж | час | О | œ | Ÿ |
ISO-8859-15 — это предпочтительное имя кодировки IANA для этого стандарта, дополненное управляющими кодами C0 и C1 из ISO/IEC 6429 .
Microsoft присвоила кодовую страницу 28605, также известную как Windows-28605 ISO-8859-15 . IBM присвоила кодовую страницу 923 ( CCSID 923) стандарту ISO 8859-15. [2] [3]
Все печатные символы из ISO/IEC 8859-1 и ISO/IEC 8859-15 также присутствуют в Windows-1252 . С октября 2016 года менее 0,1% (фактически в настоящее время менее 0,02%) всех веб-сайтов используют ISO-8859-15. [4] [5]
История
[ редактировать ]Идентификатор ISO 8859-15 был предложен для саамских языков в 1996 году, который в конечном итоге был отклонен, но был принят как ISO-IR 197 . [6] [7] [8]
ISO 8859-16 был предложен как кодировка, аналогичная сегодняшнему ISO 8859-15, для замены 11 неиспользуемых или редко используемых символов ISO 8859-1 недостающими французскими символами Œ œ (в том же месте, что и DEC-MCS и Lotus International). Набор символов ) и Ÿ (который находился не в том же месте, что и эти наборы, поскольку Ý находился в этом месте для исландского языка), голландский IJ ij и турецкий Ğ ğ İ ı Ş ş. Знака евро в то время не существовало. [9]
Проект был следующим:
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
Топор | НБСП | ¡ | ¢ | £ | ¤ | IJ 0132 | ¦ | § | ij 0133 | © | й | « | ¬ | ЗАСТЕНЧИВЫЙ | ® | ¯ |
Бх | ° | ± | Ğ 011E | г 011F | Я 0130 | м | ¶ | · | я 0131 | Ш 015E | й | » | ш 015F | ½ | Ÿ 0178 | ¿ |
Сх | ИМЕЕТ | На | Â | Ã | Ä | Ой | Ой | Что | И | И | Э | Э | Я | В | вопрос | Я |
Дх | Ð | С | Ò | Ой | ЗОНТИК | ОН | ОН | О 0152 | Ø | Ù | О | И | О | ИДЕЯ | че | SS |
Бывший | имеет | на | â | ã | ä | к | ой | Что | И | и | ага | ага | я | в | вопрос | я |
Форекс | д | н | ò | от | Зонтик | он | он | œ 0153 | ø | ты | ты | и | ты | идея | то есть | ÿ |
Позже название было изменено на ISO-8859-0 и было реструктурировано к 1997 году. Турецкие символы были удалены, поскольку считалось, что они потенциально могут нанести больший вред существующей на тот момент турецкой практике, в то время как внедрение UCS (Unicode) было не так уж и далеко. , а голландская лигатура IJ была удалена, поскольку существующий орграф ij оказался адекватным. Также рассматривалась возможность добавления валлийских Ŵ ŵ и Ŷ ŷ, но это было отложено до дальнейшего расследования. 4 неиспользуемых или редко используемых ISO 8859-1 символа ( ¤ , ¨ , ´ и ¸ ) были заменены на € , Ÿ , Œ и œ соответственно. [10] Евро стало необходимым, когда было введено евро . Ÿ необходим для того, чтобы французский текст можно было преобразовать из нижнего регистра в прописные и обратно без потерь, а Œ и œ являются французскими лигатурами. По иронии судьбы, последние три уже присутствовали в (MCS) DEC многонациональном наборе символов в 1983 году, наборе символов, на основе которого были созданы ECMA-94 (1985) и ISO-8859-1 (1987). Поскольку их исходные кодовые точки теперь были заняты другими персонажами, для их повторного введения пришлось выбирать менее логичные кодовые точки.
В том же предложении также рекомендовалось заменить еще 6 символов ( ¢ , ¦ , ± , ¼ , ½ , ¾ ) на «некоторые другие символы, чтобы охватить максимальное количество языков». Причины выбора именно этих персонажей были указаны в предложении. [10] Что касается знака евро, некоторые хотели заменить знак плюс-минус вместо знака валюты. Знак валюты используется в некоторых приложениях в качестве разделителя полей , а в некоторых других — для обозначения промежуточного итога . Этому было сильное противодействие. Один человек сказал: «Предложенное «+-» не является адекватным запасным вариантом, поскольку эта последовательность, хотя и редко используется, уже имеет фиксированное математическое значение, совершенно отличное от «±»; и даже если читатель сможет сделать вывод о предполагаемом то есть «±», из контекста, «+-» вместо «±» ранит эстетические чувства физика, по крайней мере, так же, как «oe» вместо лигатуры oe у франкоязычного». [11] В итоге ± сохранили, а ¤ удалили (как и планировалось изначально).
Примерно в 1997/1998 году (когда была обновлена Windows-1252 ) были выбраны четыре символа: Š , š , Ž и ž , которые используются в финском и эстонском языках заимствованных слов и для транслитерации русских имен. В то же время это предложение было переименовано в ISO 8859-15. В конце концов символы ¦ , ¼ , ½ и ¾ были удалены, а символ ¢ остался, поскольку он встречается чаще, чем остальные четыре.
Были попытки сделать ISO 8859-15 набором символов по умолчанию для 8-битной связи, но он так и не смог заменить популярный ISO 8859-1. Он действительно использовался в качестве набора символов по умолчанию для текстовой консоли и терминальных программ в Linux, когда был необходим знак евро, но использование полного Unicode было непрактично, но с тех пор оно было заменено на UTF-8 .
Покрытие
[ редактировать ]ISO 8859-15 кодирует то, что он называет « латинским алфавитом № 9». Этот набор символов используется в Северной и Южной Америке , Западной Европе , Океании и большей части Африки . Он также широко используется в большинстве стандартных латинизаций восточноазиатских языков.
Каждый символ кодируется как одно восьмибитное кодовое значение. Эти кодовые значения можно использовать практически в любой системе обмена данными для общения на следующих языках:
- Современные языки с полным охватом своего алфавита
|
- Примечания
- ^ Полная поддержка, за исключением отсутствующих ƾ/Ͽ. Ͼ/Ͽ можно заменить на Ø/ø ценой увеличения двусмысленности.
- ^ Обычно поддерживается почти полным охватом голландского алфавита, поскольку отсутствующие IJ , ij всегда должны быть представлены как двухсимвольные IJ или ij в электронной форме.
- ^ США и современные британцы
- ^ В 2017 году Совет немецкой орфографии официально принял заглавную букву ⟨ẞ⟩ до того, как поддержка немецкого языка была завершена.
- ^ Новая орфография
- ^ Jump up to: а б Базовая классическая орфография
- ^ Сценарий Руми
- ^ Бокмол и Нюнорск
- ^ Европейский и бразильский
Покрытие знаков препинания и апострофов
[ редактировать ]Для некоторых языков, перечисленных выше, правильные типографские кавычки отсутствуют, поскольку включены только «, », «и '.
Кроме того, эта кодировка не обеспечивает правильный символ апострофа и ориентированные одинарные высокие кавычки, хотя в некоторых текстах вместо 6-образного знака используются пробельный серьёзный ударение и пробельный острый ударение, которые оба являются частью ISO 8859-1. кавычки или апострофы в форме /9 (и это надежно работает с некоторыми стилями шрифтов, где все эти символы отображаются в виде наклонных клиновидных глифов).
Макет кодовой страницы
[ редактировать ]В отличие от ISO-8859-1 кодовая точка Юникода отображается под символом.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0x | ||||||||||||||||
1x | ||||||||||||||||
2x | СП | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | А | Б | С | Д | И | Ф | Г | ЧАС | я | Дж | К | л | М | Н | ТО |
5x | П | вопрос | Р | С | Т | В | V | В | Х | И | С | [ | \ | ] | ^ | _ |
6x | ` | а | б | с | д | и | ж | г | час | я | дж | к | л | м | н | тот |
7x | п | д | р | с | т | в | v | В | х | и | С | { | | | } | ~ | |
8x | ||||||||||||||||
9x | ||||||||||||||||
Топор | НБСП | ¡ | ¢ | £ | € 20AC | ¥ | С 0160 | § | с 0161 | © | й | « | ¬ | ЗАСТЕНЧИВЫЙ | ® | ¯ |
Бх | ° | ± | ² | ³ | Ж 017D | м | ¶ | · | час 017E | ¹ | й | » | О 0152 | œ 0153 | Ÿ 0178 | ¿ |
Сх | ИМЕЕТ | На | Â | Ã | Ä | Ой | Ой | Что | И | И | Э | Э | Я | В | вопрос | Я |
Дх | Ð | С | Ò | Ой | ЗОНТИК | ОН | ОН | × | Ø | Ù | О | И | О | ИДЕЯ | че | SS |
Бывший | имеет | на | â | ã | ä | к | ой | Что | И | и | ага | ага | я | в | вопрос | я |
Форекс | д | н | ò | от | Зонтик | он | он | ÷ | ø | ты | ты | и | ты | идея | то есть | ÿ |
Псевдонимы
[ редактировать ]ISO 8859-15 также имеет следующие псевдонимы, зависящие от поставщика:
- WE8ISO8859P15 ( база данных Oracle ) [15]
См. также
[ редактировать ]- Наборы символов западной латиницы (вычисления)
- DIN 91379 Подмножество Unicode для Европы
Ссылки
[ редактировать ]- ^ «ИСО-8859-15» . ИАНА . Проверено 8 марта 2016 г.
- ^ «Информационный документ с кодовой страницей 923» . Архивировано из оригинала 28 февраля 2013 г.
- ^ «Информационный документ CCSID 923» . Архивировано из оригинала 1 декабря 2014 г.
- ^ «Исторические тенденции использования кодировок символов, ноябрь 2018 г.» . w3techs.com .
- ^ «Часто задаваемые вопросы» . w3techs.com .
- ^ TIEKE представлял Финскую ассоциацию по стандартизации SFS (07.12.1999). Саамский дополнительный латинский набор № 2 (PDF) . ITSCJ/ IPSJ . ИСО-ИР -209.
- ^ Эверсон, Майкл. «Предлагаемый стандарт ISO 8859-15» . Проверено 26 февраля 2017 г.
- ^ Эверсон, Майкл. «Предлагаемый стандарт ISO 8859-14 (позже 15)» . Проверено 26 февраля 2017 г.
- ^ Эверсон, Майкл. «Предлагаемый стандарт ISO 8859-16» . Проверено 26 февраля 2017 г.
- ^ Jump up to: а б Эверсон, Майкл. «Предлагаемый стандарт ISO 8859-0 (позже 15)» . Проверено 26 февраля 2017 г.
- ^ Штольц, Отто (11 июля 1997 г.). «Касательно: Новый проект ISO 8859-0» . Список рассылки Unicode (список рассылки).
- ^ Кодовая страница CPGID 00923 (pdf) (PDF) , IBM
- ^ Кодовая страница CPGID 00923 (txt) , IBM
- ^ Международные компоненты для Unicode (ICU), ibm-923_P100-1998.ucm , 3 декабря 2002 г.
- ^ Бэрд, Кэти; Чиба, Дэн; Чу, Уинсон; Фан, Джессика; Хо, Клэр; Закон, Саймон; Ли, Джефф; Линсли, Питер; Мацуда, Кени; Оскрофт, Тэмзин; Такеда, Сиге; Танака, Лайнус; Тозава, Макото; Это правда, Барри; Цудзимото, Маюми; Ву, Ин; Яу, Майкл; Ю, Тим; Ван, Чао; Вонг, Саймон; Чжан, Вейран; Чжэн, Лэй; Чжу, Ян; Мур, Валари (2002) [1996]. «Приложение A: Региональные данные». Руководство по поддержке глобализации баз данных Oracle9i (PDF) (выпуск 2 (9.2) ред.). Корпорация Оракл . Оракул A96529-01. Архивировано (PDF) из оригинала 14 февраля 2017 г. Проверено 14 февраля 2017 г.
Внешние ссылки
[ редактировать ]- ISO/IEC 8859-15:1999 - Наборы 8-битных однобайтовых графических символов, Часть 15: Латинский алфавит № 9 (опубликован 15 марта 1999 г.)
- ISO/IEC 8859-15 (окончательный проект комитета от 1 августа 1997 г.)
- ISO Latin 9 по сравнению с ISO Latin 1
- ISO-IR 203 Европейский дополнительный набор латинских букв (16 сентября 1998 г.)