ИСО/МЭК 8859-1
МИМ / IANA | ИСО-8859-1 |
---|---|
Псевдоним(а) | iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819 |
Язык(и) | английский , разные другие |
Стандартный | ИСО/МЭК 8859 |
Классификация | Расширенный ASCII , ISO/IEC 8859 |
Расширяет | США-ASCII |
На основе | ДЕК МКС |
Преемник |
|
Другая связанная кодировка(и) | БраSCII |
ISO/IEC 8859-1:1998 , Информационные технологии. битные однобайтовые 8 - наборы графических символов . Часть 1. Латинский алфавит № 1 , является частью ISO/IEC 8859 серии на основе ASCII стандартных кодировок символов , сначала издание, опубликованное в 1987 году. ISO/IEC 8859-1 кодирует так называемый «латинский алфавит № 1», состоящий из 191 символа латинского алфавита . Эта схема кодирования символов используется в Северной и Южной Америке , Западной Европе , Океании и большей части Африки . Он является основой некоторых популярных 8-битных наборов символов и первых двух блоков символов Юникода .
ISO-8859-1 был (по крайней мере, согласно стандарту) кодировкой по умолчанию для документов, доставляемых через HTTP , с типом MIME, начинающимся с text/
. По состоянию на апрель 2024 г. [update], 1,2% всех (и 15 из 1000 крупнейших [1] ) веб-сайты используют ISO/IEC 8859-1 . [2] [3] Это наиболее заявленная однобайтовая кодировка символов, но, как и веб-браузеры и HTML5, стандарт [4] интерпретируйте их как надмножество Windows-1252 , эти документы могут включать символы из этого набора.
В зависимости от страны или языка использование (по крайней мере, на веб-сайтах) может быть намного выше, чем в среднем по миру, например (включая Windows-1252), для Бразилии, согласно использованию веб-сайта, использование составляет 3,8%, [5] и в Германии - 2,8%. [6] [7]
ISO-8859-1 был кодировкой по умолчанию для значений некоторых описательных заголовков HTTP и определял набор символов, разрешенных в документах HTML 3.2, а также определялся многими другими стандартами. будет использоваться расширенная кодировка Windows-1252, Редко предполагается, что это кодировка текста в операционных системах (хотя в прошлом она была очень распространена), хотя, если используется 8-битная кодировка, то, скорее всего, в Microsoft Windows если отсутствует метка порядка байтов (BOM); [8] это только постепенно меняется на UTF-8 .
ISO-8859-1 является предпочтительным названием IANA для этого стандарта, дополненным управляющими кодами C0 и C1 из ISO/IEC 6429 . Зарегистрированы следующие другие псевдонимы: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 . кодовая страница 28591, также известная как Windows-28591 . В Windows для этого используется [9] IBM называет ее кодовой страницей 819 или CP819 ( CCSID 819). [10] [11] [12] [13] Oracle называет его WE8ISO8859P1 . [14]
Охват [ править ]
Каждый символ кодируется как одно восьмибитное кодовое значение. Эти кодовые значения могут использоваться практически в любой системе обмена данными для общения на следующих языках (хотя при этом могут быть исключены правильные кавычки , например, для многих языков, включая немецкий и исландский):
языки с охватом полным Современные
- Африканский
- албанский
- Баскский
- бретонский
- корсиканец
- Английский
- фарерский
- галисийский
- исландский
- Глаз
- ирландский
- индонезийский
- итальянский
- леонезский
- в Лохе
- Люксембургский [а]
- малайский [б]
- Мэнкс
- норвежский [с]
- окситанский
- португальский [д]
- Ретороманский
- Ротокас
- Шотландский гэльский
- шотландцы
- Южные саамы
- испанский
- суахили
- Шведский
- Тагальский
- Ноутбук Топор
- валлонский
- Примечания
- ^ Основная классическая орфография
- ^ Сценарий Руми
- ^ Бокмол и Нюнорск
- ^ Европейский и бразильский
Языки с неполным охватом [ править ]
Обычно использовался ISO-8859-1. [ нужна ссылка ] для некоторых языков, хотя в нем отсутствуют символы, используемые в этих языках. В большинстве случаев отсутствуют лишь несколько букв или они используются редко, и их можно заменить символами ISO-8859-1, используя ту или иную типографскую аппроксимацию . В следующей таблице перечислены такие языки.
Язык | Отсутствующие символы | Типичный обходной путь | При поддержке |
---|---|---|---|
каталонский | Ŀ , ŀ (устарело) | Л·, л· | |
датский | ƾ , ٿ (ударение необязательно, ٿ встречается очень редко) | Ø, ø или øe | |
Голландский | IJ , ij (спорно); j́ в подчеркнутых словах типа «blíj́f» | орграфы IJ, ij или ÿ; Ближф | |
эстонский , финский | Š , š, Ž , ž (присутствует только в заимствованных словах) | Sh, sh, Zh, zh | ИСО-8859-15 , Windows-1252 |
Французский | Œ , œ и очень редкий Ÿ | диграфы OE, oe; Y или Ý | ИСО-8859-15 , Windows-1252 |
немецкий | ẞ (заглавная ß, используется только во всех заглавных буквах) | диграф SS или SZ | |
венгерский | Он , он, Ű , Ű | Ö, ö, Ü, Ü Õ , õ, Û и (символы заменены в 8859-2 ) | ИСО-8859-2 , Windows-1250 |
Ирландский ( традиционная орфография ) | Ḃ, ḃ, C, c, Ḋ, ḋ, Ḟ, ḟ, Ġ, г, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫ | Ч, ч, Ч, ч, Дч, дх, Фч, фч, Гх, гх, Мч, мч, Пх, ф, Ш, ш, Чт, чт | ИСО-8859-14 |
валлийский | Ẁ , ẁ, Ẃ , ẃ, Ŵ , ŵ, Ẅ , ẅ, Ỳ , ỳ, Ŷ , ŷ, Ÿ | W, w, Y, y, Ý, ý | ИСО-8859-14 |
Буква ÿ , которая встречается во французском языке очень редко, в основном в названиях городов, таких как L'Haÿ-les-Roses , и никогда в начале слов, включается только в строчной форме. Слот, соответствующий его прописной форме, занимает строчная буква ß из немецкого языка, не имевшая прописной формы на момент создания стандарта.
Кавычки [ править ]
Для некоторых языков, перечисленных выше, правильные типографские кавычки отсутствуют, поскольку только « »
, " "
, и ' '
включены. Также в этой схеме не предусмотрены ориентированные (6- или 9-образные) одинарные или двойные кавычки. В некоторых шрифтах пробельный знак (0x60) и апостроф (0x27) отображаются как совпадающая пара ориентированных одинарных кавычек (см. Кавычка § Пишущие машинки и ранние компьютеры ), но это не считается частью современного стандарта.
История [ править ]
ISO 8859-1 был основан на многонациональном наборе символов (MCS), используемом Digital Equipment Corporation (DEC) в популярном терминале VT220 в 1983 году. Он был разработан Европейской ассоциацией производителей компьютеров (ECMA) и опубликован в марте 1985 года как ECMA. -94 , [15] под каким именем он до сих пор иногда известен. Второе издание ECMA-94 (июнь 1986 г.) [16] также включены ISO 8859-2 , ISO 8859-3 и ISO 8859-4 как часть спецификации.
В первоначальном проекте ISO 8859-1 французские буквы Œ и œ размещались в кодовых точках 215 (0xD7) и 247 (0xF7), как и в MCS. Однако делегат из Франции, не будучи ни лингвистом, ни типографом, ложно заявил, что это не самостоятельные французские буквы сами по себе, а простые лигатуры (вроде fi или f ), поддержанные командой делегатов из Bull Publishing Company , которая регулярно они не печатали по-французски с Œ/œ В то время в своем фирменном стиле. Англоязычный делегат из Канады настаивал на сохранении Œ/œ, но получил отказ со стороны французского делегата и команды из Bull. Эти кодовые позиции вскоре были заполнены знаками × и ÷ по предложению немецкой делегации. Поддержка французского языка еще больше сократилась, когда снова было ошибочно заявлено, что буква ÿ «не французская», что привело к отсутствию заглавной буквы Ÿ . Фактически, буква ÿ встречается во многих французских именах собственных, а заглавная буква использовалась в словарях и энциклопедиях. [17] Эти символы были добавлены в ISO/IEC 8859-15:1999 . BraSCII соответствует исходному проекту.
В 1985 году Commodore приняла ECMA-94 для своей новой операционной системы AmigaOS . [18] Ударный матричный принтер Seikosha MP-1300AI, используемый с Amiga 1000, включал эту кодировку. [ нужна ссылка ]
В 1990 году первая версия Unicode использовала кодовые точки ISO-8859-1 в качестве первых 256 кодовых точек Unicode.
В 1992 году IANA зарегистрировало карту символов ISO_8859-1:1987 , более известную под предпочтительным MIME- именем ISO-8859-1 (обратите внимание на дополнительный дефис вместо ISO 8859-1), надмножеством ISO 8859-1, для использовать в Интернете . Эта карта присваивает управляющие коды C0 и C1 неназначенным значениям кода, таким образом, обеспечивая 256 символов для каждого возможного 8-битного значения.
Макет кодовой страницы [ править ]
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0x | ||||||||||||||||
1x | ||||||||||||||||
2x | СП | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | А | Б | С | Д | И | Ф | Г | ЧАС | я | Дж | К | л | М | Н | ТО |
5x | П | вопрос | Р | С | Т | В | V | В | Х | И | С | [ | \ | ] | ^ | _ |
6x | ` | а | б | с | д | и | ж | г | час | я | дж | к | л | м | н | тот |
7x | п | д | р | с | т | в | v | В | х | и | С | { | | | } | ~ | |
8x | ||||||||||||||||
9x | ||||||||||||||||
Топор | НБСП | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | й | « | ¬ | ЗАСТЕНЧИВЫЙ | ® | ¯ |
Бх | ° | ± | ² | ³ | ´ | м | ¶ | · | ¸ | ¹ | й | » | ¼ | ½ | ¾ | ¿ |
Сх | ИМЕЕТ | На | Â | Ã | Ä | Ой | Ой | Что | И | И | Э | Э | Я | В | вопрос | Я |
Дх | Ð | С | Ò | Ой | ЗОНТИК | ОН | ОН | × | Ø | Ù | О | И | О | ИДЕЯ | че | SS |
Бывший | имеет | на | â | ã | ä | к | ой | Что | И | и | ага | ага | я | в | вопрос | я |
Форекс | д | н | ò | от | Зонтик | он | он | ÷ | ø | ты | ты | и | ты | идея | то есть | ÿ |
Неопределенный Символы и пунктуация Не определено в первом выпуске ECMA-94 (1985 г.). [15] В исходном проекте Œ находился по адресу 0xD7, а œ — по адресу 0xF7. |
Похожие наборы символов [ править ]
ИСО/МЭК 8859-15 [ править ]
ISO/IEC 8859-15 был разработан в 1999 году как обновление ISO/IEC 8859-1. Он предоставляет некоторые символы для французского и финского текста, а также знак евро , которые отсутствуют в ISO/IEC 8859-1. Это потребовало удаления некоторых редко используемых символов из ISO/IEC 8859-1, включая символы дробей и безбуквенные диакритические знаки: ¤
, ¦
, ¨
, ´
, ¸
, ¼
, ½
, и ¾
. По иронии судьбы, трое из недавно добавленных персонажей ( Œ
, œ
, и Ÿ
) уже присутствовал в (MCS) DEC 1983 года наборе многонациональных символов , предшественнике ISO/IEC 8859-1 (1987). Поскольку их исходные кодовые точки теперь повторно использовались для других целей, символы пришлось повторно вводить под другими, менее логичными кодовыми точками.
ISO-IR-204, более незначительная модификация ( кодовая страница 61235 в FreeDOS), [19] был зарегистрирован в 1998 году с изменением ISO-8859-1 путем замены универсального знака валюты (¤) на знак евро. [20] (та же замена, сделанная в ISO-8859-15).
Windows-1252 [ править ]
Популярный набор символов Windows-1252 добавляет все недостающие символы, предусмотренные ISO/IEC 8859-15 , а также ряд типографских символов, заменяя редко используемые элементы управления C1 в диапазоне от 128 до 159 ( шестнадцатеричные от 80 до 9F). Очень часто текст Windows-1252 ошибочно помечают как текст ISO-8859-1. Общим результатом было то, что все кавычки и апострофы (созданные «умными кавычками» в текстовом редакторе) были заменены вопросительными знаками или прямоугольниками в операционных системах, отличных от Windows, что затрудняло чтение текста. Многие веб-браузеры и клиенты электронной почты интерпретируют управляющие коды ISO-8859-1 как символы Windows-1252, и это поведение позже было стандартизировано в HTML5 . [21]
Мак Роман [ править ]
В 1984 году на компьютере Apple Macintosh появилась кодировка символов Mac Roman. Она должна была подходить для настольных издательских систем Западной Европы . Это расширенный набор ASCII, в котором содержится большинство символов ISO-8859-1 и все дополнительные символы из Windows-1252, но в совершенно другом расположении. Несколько печатных символов, которые есть в ISO/IEC 8859-1, но не входят в этот набор, часто являются источником проблем при редактировании текста на веб-сайтах с использованием старых браузеров Macintosh, включая последнюю версию Internet Explorer для Mac .
Другое [ править ]
DOS имеет кодовую страницу 850 , в которой есть все печатные символы, которые есть в ISO-8859-1, хотя и в совершенно другом расположении, а также наиболее широко используемые графические символы из кодовой страницы 437 .
Между 1989 годом [22] а в 2015 году Hewlett-Packard использовала еще один расширенный набор ISO-8859-1 во многих своих калькуляторах. Этот собственный набор символов иногда также назывался просто «ECMA-94». [22] У HP также есть кодовая страница 1053 , которая добавляет средний оттенок (▒, U+2592) к 0x7F. [23]
Несколько кодовых страниц EBCDIC были специально разработаны так, чтобы иметь тот же набор символов, что и ISO-8859-1, чтобы обеспечить легкое преобразование между ними.
См. также [ править ]
- Латиница в Юникоде
- Юникод
- Универсальный набор кодированных символов
- UTF-8
- Кодовые страницы Windows
- ИСО/МЭК ОТК 1/ПК 2
Ссылки [ править ]
- ^ «Обзор использования кодировок символов с разбивкой по рейтингу» . W3Techs . Архивировано из оригинала 4 апреля 2024 года . Проверено 29 апреля 2024 г.
- ^ «Исторические тенденции статистики использования кодировок символов для веб-сайтов, декабрь 2023 г.» . W3Techs . Архивировано из оригинала 4 апреля 2024 года . Проверено 1 декабря 2023 г.
- ^ Коуэн, Джон; Солтано, Сэм (август 2014 г.). «Источник статистики кодировки символов?» . W3Techs . Архивировано из оригинала 4 апреля 2024 года.
- ^ «Кодировка» . ЧТОРГ . 27 января 2015 г. сек. 5.2 Имена и метки. Архивировано из оригинала 4 февраля 2015 года . Проверено 4 февраля 2015 г.
- ^ «Распространение кодировок символов между веб-сайтами, использующими Бразилию» . W3Techs . Архивировано из оригинала 4 апреля 2024 года . Проверено 29 апреля 2024 г.
- ^ «Распространение кодировок символов между веб-сайтами, использующими .de» . W3Techs . Архивировано из оригинала 4 апреля 2024 года . Проверено 29 апреля 2024 г.
- ^ «Распространение кодировок символов среди веб-сайтов, использующих немецкий язык» . W3Techs . Архивировано из оригинала 4 апреля 2024 года . Проверено 16 января 2023 г.
- ^ «С++ — Какова собственная кодировка узкой строки в Windows?» . Переполнение стека . Январь 2011 года . Проверено 16 февраля 2023 г.
- ^ «Идентификаторы кодовых страниц» . Корпорация Майкрософт . Проверено 19 декабря 2010 г.
- ^ «Информационный документ с кодовой страницей 819» . Архивировано из оригинала 16 января 2017 г.
- ^ «Информационный документ CCSID 819» . Архивировано из оригинала 27 марта 2016 г.
- ^ Кодовая страница CPGID 00819 (pdf) (PDF) , IBM
- ^ Кодовая страница CPGID 00819 (txt) , IBM
- ^ Бэрд, Кэти; Чиба, Дэн; Чу, Уинсон; Фан, Джессика; Хо, Клэр; Закон, Саймон; Ли, Джефф; Линсли, Питер; Мацуда, Кени; Оскрофт, Тэмзин; Такеда, Сиге; Танака, Лайнус; Тозава, Макото; Это правда, Барри; Цудзимото, Маюми; Ву, Ин; Яу, Майкл; Ю, Тим; Ван, Чао; Вонг, Саймон; Чжан, Вейран; Чжэн, Лэй; Чжу, Ян; Мур, Валари (2002) [1996]. «Приложение A: Региональные данные». Руководство по поддержке глобализации баз данных Oracle9i (PDF) (выпуск 2 (9.2) ред.). Корпорация Оракл . Оракул A96529-01. Архивировано (PDF) из оригинала 14 февраля 2017 г. Проверено 14 февраля 2017 г.
- ↑ Перейти обратно: Перейти обратно: а б Стандарт ECMA-94: 8-битный набор однобайтовых графических символов (PDF) (1-е изд.). Европейская ассоциация производителей компьютеров (ECMA). Март 1985 г. [14 декабря 1984 г.]. Архивировано (PDF) из оригинала 2 декабря 2016 г. Проверено 1 декабря 2016 г.
[…] С 1982 года острая необходимость в 8-битном однобайтовом кодированном наборе символов была признана в ECMA, а также в ANSI/X3L2, и между двумя группами произошел обмен многочисленными рабочими документами. В феврале 1984 года ECMA TC1 представил ISO/TC97/SC2 предложение по такому кодированному набору символов. На своем заседании в апреле 1984 г. КС решил представить ТК97 предложение о новом пункте работы по этой теме. Технические обсуждения во время и после этой встречи привели к тому, что TC1 принял схему кодирования, предложенную X3L2. Часть 1 проекта международного стандарта DTS 8859 основана на этом совместном предложении ANSI/ECMA. […] Принят в качестве стандарта ECMA Генеральной Ассамблеей 13–14 декабря 1984 г. […]
- ^ «Второе издание ECMA-94 (июнь 1986 г.)» (PDF) .
- ^ Андре, Жак (1996). «ISO Latin-1, европейский стандарт кодирования символов? Не хватает трех французских символов!» (PDF) . Cahiers GUTenberg (на французском языке) (25): 65–77.
- ^ Малышев, Михаил (10 января 2003 г.). «Регистрация новой кодировки [Amiga-1251]» . АТО-РУ (Организация переводов Амига - Русское отделение). Архивировано из оригинала 5 декабря 2016 г. Проверено 5 декабря 2016 г.
- ^ «Cpi/CPIISO/Codepage.TXT на ведущем устройстве · FDOS/Cpi» . Гитхаб .
- ^ Стандартизация информационных технологий ИТС (16 сентября 1998 г.). Дополнительный комплект для альтернативы Latin-1 со ЗНАКОМ ЕВРО (PDF) . ITSCJ/ IPSJ . ИСО-ИР -204.
- ^ ван Кестерен, Энн (27 января 2015 г.). «5.2 Названия и метки» . Стандарт кодирования . ЧТОРГ . Архивировано из оригинала 4 февраля 2015 года . Проверено 4 февраля 2015 г.
- ↑ Перейти обратно: Перейти обратно: а б Инфракрасный принтер HP 82240B (1-е изд.). Корваллис, Орегон, США: Hewlett-Packard . Август 1989 г. Номер повторного заказа HP 82240-90014 . Проверено 1 августа 2016 г.
- ^ «Кодовая страница 1053» (PDF) . Архивировано из оригинала (PDF) 21 января 2013 г.
Внешние ссылки [ править ]
- ИСО/МЭК 8859-1:1998
- ISO/IEC FDIS 8859-1:1998 — 8-битные однобайтовые наборы графических символов, Часть 1: Латинский алфавит № 1 (проект от 12 февраля 1998 г., опубликован 15 апреля 1998 г.)
- Стандарт ECMA-94: наборы 8-битных однобайтовых графических символов — латинские алфавиты с № 1 по № 4, 2-е издание (июнь 1986 г.)
- ISO-IR 100 Правая часть латинского алфавита № 1 (1 февраля 1986 г.)
- База данных писем
- Чиборра, Роман (1 декабря 1998 г.). «Алфавитный суп ISO 8859» . Архивировано из оригинала 1 декабря 2016 г. Проверено 1 декабря 2016 г. [1] [2]