Jump to content

ИСО/МЭК 8859-1

ИСО/МЭК 8859-1:1998
Макет кодовой страницы ISO/IEC 8859-1
МИМ / IANA ИСО-8859-1
Псевдоним(а) iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819
Язык(и) английский , разные другие
Стандартный ИСО/МЭК 8859
Классификация Расширенный ASCII , ISO/IEC 8859
Расширяет США-ASCII
На основе ДЕК МКС
Преемник
Другая связанная кодировка(и) БраSCII

ISO/IEC 8859-1:1998 , Информационные технологии. битные однобайтовые 8 - наборы графических символов . Часть 1. Латинский алфавит № 1 , является частью ISO/IEC 8859 серии на основе ASCII стандартных кодировок символов , сначала издание, опубликованное в 1987 году. ISO/IEC 8859-1 кодирует так называемый «латинский алфавит № 1», состоящий из 191 символа латинского алфавита . Эта схема кодирования символов используется в Северной и Южной Америке , Западной Европе , Океании и большей части Африки . Он является основой некоторых популярных 8-битных наборов символов и первых двух блоков символов Юникода .

ISO-8859-1 был (по крайней мере, согласно стандарту) кодировкой по умолчанию для документов, доставляемых через HTTP , с типом MIME, начинающимся с text/. По состоянию на апрель 2024 г. , 1,2% всех (и 15 из 1000 крупнейших [1] ) веб-сайты используют ISO/IEC 8859-1 . [2] [3] Это наиболее заявленная однобайтовая кодировка символов, но, как и веб-браузеры и HTML5, стандарт [4] интерпретируйте их как надмножество Windows-1252 , эти документы могут включать символы из этого набора.

В зависимости от страны или языка использование (по крайней мере, на веб-сайтах) может быть намного выше, чем в среднем по миру, например (включая Windows-1252), для Бразилии, согласно использованию веб-сайта, использование составляет 3,8%, [5] и в Германии - 2,8%. [6] [7]

ISO-8859-1 был кодировкой по умолчанию для значений некоторых описательных заголовков HTTP и определял набор символов, разрешенных в документах HTML 3.2, а также определялся многими другими стандартами. будет использоваться расширенная кодировка Windows-1252, Редко предполагается, что это кодировка текста в операционных системах (хотя в прошлом она была очень распространена), хотя, если используется 8-битная кодировка, то, скорее всего, в Microsoft Windows если отсутствует метка порядка байтов (BOM); [8] это только постепенно меняется на UTF-8 .

ISO-8859-1 является предпочтительным названием IANA для этого стандарта, дополненным управляющими кодами C0 и C1 из ISO/IEC 6429 . Зарегистрированы следующие другие псевдонимы: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 . кодовая страница 28591, также известная как Windows-28591 . В Windows для этого используется [9] IBM называет ее кодовой страницей 819 или CP819 ( CCSID 819). [10] [11] [12] [13] Oracle называет его WE8ISO8859P1 . [14]

Охват [ править ]

Каждый символ кодируется как одно восьмибитное кодовое значение. Эти кодовые значения могут использоваться практически в любой системе обмена данными для общения на следующих языках (хотя при этом могут быть исключены правильные кавычки , например, для многих языков, включая немецкий и исландский):

языки с охватом полным Современные

Примечания
  1. ^ Основная классическая орфография
  2. ^ Сценарий Руми
  3. ^ Бокмол и Нюнорск
  4. ^ Европейский и бразильский

Языки с неполным охватом [ править ]

Обычно использовался ISO-8859-1. [ нужна ссылка ] для некоторых языков, хотя в нем отсутствуют символы, используемые в этих языках. В большинстве случаев отсутствуют лишь несколько букв или они используются редко, и их можно заменить символами ISO-8859-1, используя ту или иную типографскую аппроксимацию . В следующей таблице перечислены такие языки.

Язык Отсутствующие символы Типичный обходной путь При поддержке
каталонский Ŀ , ŀ (устарело) Л·, л·
датский ƾ , ٿ (ударение необязательно, ٿ встречается очень редко) Ø, ø или øe
Голландский IJ , ij (спорно); в подчеркнутых словах типа «blíj́f» орграфы IJ, ij или ÿ; Ближф
эстонский , финский Š , š, Ž , ž (присутствует только в заимствованных словах) Sh, sh, Zh, zh ИСО-8859-15 , Windows-1252
Французский Œ , œ и очень редкий Ÿ диграфы OE, oe; Y или Ý ИСО-8859-15 , Windows-1252
немецкий (заглавная ß, используется только во всех заглавных буквах) диграф SS или SZ
венгерский Он , он, Ű , Ű Ö, ö, Ü, Ü
Õ , õ, Û и (символы заменены в 8859-2 )
ИСО-8859-2 , Windows-1250
Ирландский ( традиционная орфография ) Ḃ, ḃ, C, c, Ḋ, ḋ, Ḟ, ḟ, Ġ, г, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫ Ч, ч, Ч, ч, Дч, дх, Фч, фч, Гх, гх, Мч, мч, Пх, ф, Ш, ш, Чт, чт ИСО-8859-14
валлийский , ẁ, , ẃ, Ŵ , ŵ, , ẅ, , ỳ, Ŷ , ŷ, Ÿ W, w, Y, y, Ý, ý ИСО-8859-14

Буква ÿ , которая встречается во французском языке очень редко, в основном в названиях городов, таких как L'Haÿ-les-Roses , и никогда в начале слов, включается только в строчной форме. Слот, соответствующий его прописной форме, занимает строчная буква ß из немецкого языка, не имевшая прописной формы на момент создания стандарта.

Кавычки [ править ]

Для некоторых языков, перечисленных выше, правильные типографские кавычки отсутствуют, поскольку только « », " ", и ' ' включены. Также в этой схеме не предусмотрены ориентированные (6- или 9-образные) одинарные или двойные кавычки. В некоторых шрифтах пробельный знак (0x60) и апостроф (0x27) отображаются как совпадающая пара ориентированных одинарных кавычек (см. Кавычка § Пишущие машинки и ранние компьютеры ), но это не считается частью современного стандарта.

История [ править ]

ISO 8859-1 был основан на многонациональном наборе символов (MCS), используемом Digital Equipment Corporation (DEC) в популярном терминале VT220 в 1983 году. Он был разработан Европейской ассоциацией производителей компьютеров (ECMA) и опубликован в марте 1985 года как ECMA. -94 , [15] под каким именем он до сих пор иногда известен. Второе издание ECMA-94 (июнь 1986 г.) [16] также включены ISO 8859-2 , ISO 8859-3 и ISO 8859-4 как часть спецификации.

В первоначальном проекте ISO 8859-1 французские буквы Œ и œ размещались в кодовых точках 215 (0xD7) и 247 (0xF7), как и в MCS. Однако делегат из Франции, не будучи ни лингвистом, ни типографом, ложно заявил, что это не самостоятельные французские буквы сами по себе, а простые лигатуры (вроде fi или f ), поддержанные командой делегатов из Bull Publishing Company , которая регулярно они не печатали по-французски с Œ/œ В то время в своем фирменном стиле. Англоязычный делегат из Канады настаивал на сохранении Œ/œ, но получил отказ со стороны французского делегата и команды из Bull. Эти кодовые позиции вскоре были заполнены знаками × и ÷ по предложению немецкой делегации. Поддержка французского языка еще больше сократилась, когда снова было ошибочно заявлено, что буква ÿ «не французская», что привело к отсутствию заглавной буквы Ÿ . Фактически, буква ÿ встречается во многих французских именах собственных, а заглавная буква использовалась в словарях и энциклопедиях. [17] Эти символы были добавлены в ISO/IEC 8859-15:1999 . BraSCII соответствует исходному проекту.

В 1985 году Commodore приняла ECMA-94 для своей новой операционной системы AmigaOS . [18] Ударный матричный принтер Seikosha MP-1300AI, используемый с Amiga 1000, включал эту кодировку. [ нужна ссылка ]

В 1990 году первая версия Unicode использовала кодовые точки ISO-8859-1 в качестве первых 256 кодовых точек Unicode.

В 1992 году IANA зарегистрировало карту символов ISO_8859-1:1987 , более известную под предпочтительным MIME- именем ISO-8859-1 (обратите внимание на дополнительный дефис вместо ISO 8859-1), надмножеством ISO 8859-1, для использовать в Интернете . Эта карта присваивает управляющие коды C0 и C1 неназначенным значениям кода, таким образом, обеспечивая 256 символов для каждого возможного 8-битного значения.

Макет кодовой страницы [ править ]

ИСО/МЭК 8859-1
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
0x
1x
2x СП ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ А Б С Д И Ф Г ЧАС я Дж К л М Н ТО
5x П вопрос Р С Т В V В Х И С [ \ ] ^ _
6x ` а б с д и ж г час я дж к л м н тот
7x п д р с т в v В х и С { | } ~
8x
9x
Топор НБСП ¡ ¢ £ ¤ ¥ ¦ § ¨ © й « ¬ ЗАСТЕНЧИВЫЙ ® ¯
Бх ° ± ² ³ ´ м · ¸ ¹ й » ¼ ½ ¾ ¿
Сх ИМЕЕТ На Â Ã Ä Ой Ой Что И И Э Э Я В вопрос Я
Дх Ð С Ò Ой ЗОНТИК ОН ОН × Ø Ù О И О ИДЕЯ че SS
Бывший имеет на â ã ä к ой Что И и ага ага я в вопрос я
Форекс д н ò от Зонтик он он ÷ ø ты ты и ты идея то есть ÿ
  Неопределенный
  Символы и пунктуация
  Не определено в первом выпуске ECMA-94 (1985 г.). [15] В исходном проекте Œ находился по адресу 0xD7, а œ — по адресу 0xF7.

Похожие наборы символов [ править ]

ИСО/МЭК 8859-15 [ править ]

ISO/IEC 8859-15 был разработан в 1999 году как обновление ISO/IEC 8859-1. Он предоставляет некоторые символы для французского и финского текста, а также знак евро , которые отсутствуют в ISO/IEC 8859-1. Это потребовало удаления некоторых редко используемых символов из ISO/IEC 8859-1, включая символы дробей и безбуквенные диакритические знаки: ¤, ¦, ¨, ´, ¸, ¼, ½, и ¾. По иронии судьбы, трое из недавно добавленных персонажей ( Œ, œ, и Ÿ) уже присутствовал в (MCS) DEC 1983 года наборе многонациональных символов , предшественнике ISO/IEC 8859-1 (1987). Поскольку их исходные кодовые точки теперь повторно использовались для других целей, символы пришлось повторно вводить под другими, менее логичными кодовыми точками.

ISO-IR-204, более незначительная модификация ( кодовая страница 61235 в FreeDOS), [19] был зарегистрирован в 1998 году с изменением ISO-8859-1 путем замены универсального знака валюты (¤) на знак евро. [20] (та же замена, сделанная в ISO-8859-15).

Windows-1252 [ править ]

Популярный набор символов Windows-1252 добавляет все недостающие символы, предусмотренные ISO/IEC 8859-15 , а также ряд типографских символов, заменяя редко используемые элементы управления C1 в диапазоне от 128 до 159 ( шестнадцатеричные от 80 до 9F). Очень часто текст Windows-1252 ошибочно помечают как текст ISO-8859-1. Общим результатом было то, что все кавычки и апострофы (созданные «умными кавычками» в текстовом редакторе) были заменены вопросительными знаками или прямоугольниками в операционных системах, отличных от Windows, что затрудняло чтение текста. Многие веб-браузеры и клиенты электронной почты интерпретируют управляющие коды ISO-8859-1 как символы Windows-1252, и это поведение позже было стандартизировано в HTML5 . [21]

Мак Роман [ править ]

В 1984 году на компьютере Apple Macintosh появилась кодировка символов Mac Roman. Она должна была подходить для настольных издательских систем Западной Европы . Это расширенный набор ASCII, в котором содержится большинство символов ISO-8859-1 и все дополнительные символы из Windows-1252, но в совершенно другом расположении. Несколько печатных символов, которые есть в ISO/IEC 8859-1, но не входят в этот набор, часто являются источником проблем при редактировании текста на веб-сайтах с использованием старых браузеров Macintosh, включая последнюю версию Internet Explorer для Mac .

Другое [ править ]

DOS имеет кодовую страницу 850 , в которой есть все печатные символы, которые есть в ISO-8859-1, хотя и в совершенно другом расположении, а также наиболее широко используемые графические символы из кодовой страницы 437 .

Между 1989 годом [22] а в 2015 году Hewlett-Packard использовала еще один расширенный набор ISO-8859-1 во многих своих калькуляторах. Этот собственный набор символов иногда также назывался просто «ECMA-94». [22] У HP также есть кодовая страница 1053 , которая добавляет средний оттенок (▒, U+2592) к 0x7F. [23]

Несколько кодовых страниц EBCDIC были специально разработаны так, чтобы иметь тот же набор символов, что и ISO-8859-1, чтобы обеспечить легкое преобразование между ними.

См. также [ править ]

Ссылки [ править ]

  1. ^ «Обзор использования кодировок символов с разбивкой по рейтингу» . W3Techs . Архивировано из оригинала 4 апреля 2024 года . Проверено 29 апреля 2024 г.
  2. ^ «Исторические тенденции статистики использования кодировок символов для веб-сайтов, декабрь 2023 г.» . W3Techs . Архивировано из оригинала 4 апреля 2024 года . Проверено 1 декабря 2023 г.
  3. ^ Коуэн, Джон; Солтано, Сэм (август 2014 г.). «Источник статистики кодировки символов?» . W3Techs . Архивировано из оригинала 4 апреля 2024 года.
  4. ^ «Кодировка» . ЧТОРГ . 27 января 2015 г. сек. 5.2 Имена и метки. Архивировано из оригинала 4 февраля 2015 года . Проверено 4 февраля 2015 г.
  5. ^ «Распространение кодировок символов между веб-сайтами, использующими Бразилию» . W3Techs . Архивировано из оригинала 4 апреля 2024 года . Проверено 29 апреля 2024 г.
  6. ^ «Распространение кодировок символов между веб-сайтами, использующими .de» . W3Techs . Архивировано из оригинала 4 апреля 2024 года . Проверено 29 апреля 2024 г.
  7. ^ «Распространение кодировок символов среди веб-сайтов, использующих немецкий язык» . W3Techs . Архивировано из оригинала 4 апреля 2024 года . Проверено 16 января 2023 г.
  8. ^ «С++ — Какова собственная кодировка узкой строки в Windows?» . Переполнение стека . Январь 2011 года . Проверено 16 февраля 2023 г.
  9. ^ «Идентификаторы кодовых страниц» . Корпорация Майкрософт . Проверено 19 декабря 2010 г.
  10. ^ «Информационный документ с кодовой страницей 819» . Архивировано из оригинала 16 января 2017 г.
  11. ^ «Информационный документ CCSID 819» . Архивировано из оригинала 27 марта 2016 г.
  12. ^ Кодовая страница CPGID 00819 (pdf) (PDF) , IBM
  13. ^ Кодовая страница CPGID 00819 (txt) , IBM
  14. ^ Бэрд, Кэти; Чиба, Дэн; Чу, Уинсон; Фан, Джессика; Хо, Клэр; Закон, Саймон; Ли, Джефф; Линсли, Питер; Мацуда, Кени; Оскрофт, Тэмзин; Такеда, Сиге; Танака, Лайнус; Тозава, Макото; Это правда, Барри; Цудзимото, Маюми; Ву, Ин; Яу, Майкл; Ю, Тим; Ван, Чао; Вонг, Саймон; Чжан, Вейран; Чжэн, Лэй; Чжу, Ян; Мур, Валари (2002) [1996]. «Приложение A: Региональные данные». Руководство по поддержке глобализации баз данных Oracle9i (PDF) (выпуск 2 (9.2) ред.). Корпорация Оракл . Оракул A96529-01. Архивировано (PDF) из оригинала 14 февраля 2017 г. Проверено 14 февраля 2017 г.
  15. Перейти обратно: Перейти обратно: а б Стандарт ECMA-94: 8-битный набор однобайтовых графических символов (PDF) (1-е изд.). Европейская ассоциация производителей компьютеров (ECMA). Март 1985 г. [14 декабря 1984 г.]. Архивировано (PDF) из оригинала 2 декабря 2016 г. Проверено 1 декабря 2016 г. […] С 1982 года острая необходимость в 8-битном однобайтовом кодированном наборе символов была признана в ECMA, а также в ANSI/X3L2, и между двумя группами произошел обмен многочисленными рабочими документами. В феврале 1984 года ECMA TC1 представил ISO/TC97/SC2 предложение по такому кодированному набору символов. На своем заседании в апреле 1984 г. КС решил представить ТК97 предложение о новом пункте работы по этой теме. Технические обсуждения во время и после этой встречи привели к тому, что TC1 принял схему кодирования, предложенную X3L2. Часть 1 проекта международного стандарта DTS 8859 основана на этом совместном предложении ANSI/ECMA. […] Принят в качестве стандарта ECMA Генеральной Ассамблеей 13–14 декабря 1984 г. […]
  16. ^ «Второе издание ECMA-94 (июнь 1986 г.)» (PDF) .
  17. ^ Андре, Жак (1996). «ISO Latin-1, европейский стандарт кодирования символов? Не хватает трех французских символов!» (PDF) . Cahiers GUTenberg (на французском языке) (25): 65–77.
  18. ^ Малышев, Михаил (10 января 2003 г.). «Регистрация новой кодировки [Amiga-1251]» . АТО-РУ (Организация переводов Амига - Русское отделение). Архивировано из оригинала 5 декабря 2016 г. Проверено 5 декабря 2016 г.
  19. ^ «Cpi/CPIISO/Codepage.TXT на ведущем устройстве · FDOS/Cpi» . Гитхаб .
  20. ^ Стандартизация информационных технологий ИТС (16 сентября 1998 г.). Дополнительный комплект для альтернативы Latin-1 со ЗНАКОМ ЕВРО (PDF) . ITSCJ/ IPSJ . ИСО-ИР -204.
  21. ^ ван Кестерен, Энн (27 января 2015 г.). «5.2 Названия и метки» . Стандарт кодирования . ЧТОРГ . Архивировано из оригинала 4 февраля 2015 года . Проверено 4 февраля 2015 г.
  22. Перейти обратно: Перейти обратно: а б Инфракрасный принтер HP 82240B (1-е изд.). Корваллис, Орегон, США: Hewlett-Packard . Август 1989 г. Номер повторного заказа HP 82240-90014 . Проверено 1 августа 2016 г.
  23. ^ «Кодовая страница 1053» (PDF) . Архивировано из оригинала (PDF) 21 января 2013 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: fcbdd4506268cf024f37eeb459fcae03__1718133540
URL1:https://arc.ask3.ru/arc/aa/fc/03/fcbdd4506268cf024f37eeb459fcae03.html
Заголовок, (Title) документа по адресу, URL1:
ISO/IEC 8859-1 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)