Windows-1252
МИМ / IANA | окна-1252 [1] |
---|---|
Псевдоним(а) | cp1252 ( кодовая страница 1252) |
Язык(и) | Все поддерживается стандартом ISO/IEC 8859-1, а также полная поддержка французского и финского языков, а также лигатурных форм для английского языка ; например, датский (за исключением редкой исключительной буквы ) , ирландский, итальянский, норвежский, португальский, испанский, шведский, немецкий (отсутствует заглавная буква ẞ ), исландский, фарерский, люксембургский, албанский, эстонский, суахили, тсвана, каталанский, баскский, окситанский, Ротокас , Токи Пона, Ложбан, ретороманский, голландский (кроме символа IJ/ij, замененного на IJ / ij или ÿ ) и словенский (кроме символа č , замененного на ç ). |
Создано | Майкрософт |
Стандартный | WHATWG Стандарт кодирования |
Классификация | расширенный ASCII , Windows-125x |
Расширяет | ISO 8859-1 (за исключением элементов управления C1) |
Преобразует/кодирует | ИСО 8859-15 |
Преемник | Юникод ( UTF-8 , UTF-16 ) |
Windows-1252 или CP-1252 ( кодовая страница Windows 1252) — это устаревшая однобайтовая кодировка символов. [2] который используется по умолчанию (как «кодовая страница ANSI») в Microsoft Windows в Северной и Южной Америке , Западной Европе , Океании и большей части Африки . [ нужна ссылка ]
Первоначально такой же, как ISO 8859-1 , он начал расходиться, начиная с Windows 2.0, путем добавления дополнительных символов в диапазоне от 0x80 до 0x9F ( шестнадцатеричный ) (стандарты ISO резервируют этот диапазон для управляющих кодов C1 ). В число примечательных дополнительных символов входят фигурные кавычки и все печатные символы из ISO 8859-15 .
Это наиболее часто используемая кодировка однобайтовых символов в мире. Хотя почти все веб-сайты сейчас используют кодировку многобайтовых символов UTF-8 , по состоянию на июль 2024 г. 1,2%. [3] веб-сайтов объявлены в соответствии со стандартом ISO 8859-1 , который всеми современными браузерами воспринимается как Windows-1252 (согласно требованиям HTML5) . стандарта [4] ), плюс 0,3% заявленных напрямую Windows-1252, [3] [5] в общей сложности 1,5%. В некоторых странах или языках наблюдается более высокий уровень использования, чем в среднем по миру. В 2024 году в Бразилии, согласно использованию веб-сайтов, использование составляет 3,4%, [6] и в Германии - 2,7%. [7] [8] (это суммы деклараций ISO-8859-1 и CP-1252).
Имя
[ редактировать ]В Windows он известен под номером кодовой страницы 1252 и одобренным IANA именем «windows-1252».
Исторически фраза «Кодовая страница ANSI» использовалась в Windows для обозначения кодировок, отличных от DOS; предполагалось, что большинство из них будут стандартами ANSI , такими как ISO-8859-1 . Несмотря на то, что Windows-1252 была первой и, безусловно, самой популярной кодовой страницей, названной так на языке Microsoft Windows, эта кодовая страница никогда не была стандартом ANSI. Microsoft объясняет: «Термин ANSI, используемый для обозначения кодовых страниц Windows, является исторической справкой, но в настоящее время это неправильное употребление, которое продолжает сохраняться в сообществе Windows». [9]
LateX может вводить Windows-1252, используя inputenc.sty с параметром ansinew (а в последнее время cp1252 ). [10] [11]
IBM использует кодовую страницу 1252 ( CCSID 1252 и расширенный CCSID 5348 со знаком евро ) для Windows-1252. [12] [13] [14]
он называется «WE8MSWIN1252» В базе данных Oracle . [15]
История
[ редактировать ]- Первая версия кодовой страницы использовалась в Microsoft Windows 1.0 . Он соответствовал стандарту ISO-8859-1 (включая оставление кодовых точек 0xD7 и 0xF7 неопределенными, поскольку в то время их не было в стандарте).
- Вторая версия кодовой страницы была представлена в Microsoft Windows 2.0 . В этой версии определены кодовые точки 0xD7, 0xF7, 0x91 и 0x92.
- Третья версия кодовой страницы была представлена в Microsoft Windows 3.1 . Он определил все кодовые точки, использованные в окончательной версии, за исключением знака евро и пары символов Z с кароном .
- Окончательная версия (показанная ниже) была представлена в Microsoft Windows 98 .
Начиная с 1990-х годов, многие продукты Microsoft , которые могли создавать HTML, включали эксклюзивные символы Windows-1252, но имели кодировку ISO -8859-1, ASCII или необъявленную. [ нужна ссылка ] Символы, эксклюзивные для Windows-1252, неправильно отображались в операционных системах, отличных от Windows (часто в виде вопросительных знаков). [16] [17] В частности, типографские кавычки — фигурные варианты стандартных прямых апострофов и кавычек в US-ASCII — обычно использовались в файлах, созданных в приложениях Windows, таких как Microsoft Word, благодаря функции интеллектуальных кавычек , которая может автоматически преобразовывать прямые апострофы и кавычки. знаки фигурным вариантам. [18] Чтобы исправить это, к 2000 году большинство веб-браузеров и клиентов электронной почты интерпретировали кодировки ISO-8859-1 и US-ASCII как Windows-1252. [ нужна ссылка ] — такое поведение теперь требуется спецификацией HTML5. [4] Необъявленные кодировки в HTML также считаются Windows-1252. [19] [20]
Хотя Windows NT поддерживала Unicode и пыталась поощрять программы к его использованию, она предоставляла только 16-битные кодовые единицы UCS-2 / UTF-16 , несмотря на существующую поддержку других многобайтовых кодировок символов. Поскольку многие приложения предпочитали использовать 8-битные строки, Windows-1252 оставалась самой популярной кодировкой в Windows даже после того, как в нее была добавлена поддержка UTF-16. Поддержка Unicode в Windows со временем улучшилась: поддержка UTF-8 доступна начиная с Windows 10 .
Макет кодовой страницы
[ редактировать ]В следующей таблице показана Windows-1252. Отличия от ISO-8859-1 включают Unicode номер кодовой точки под символом, основанный на сопоставлении Unicode.org Windows-1252 с «наилучшим соответствием». Всплывающая подсказка, обычно доступная только при наведении указателя слева от символа, показывает имя кодовой точки Юникода и десятичный код Alt .
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0_ | НУЛЕВОЙ | СОХ | СТХ | И Т. Д | EOT | ENQ | ПОДТВЕРЖДЕНИЕ | БЕЛ | БС | ХТ | НЧ | ВТ | ФФ | ЧР | ТАК | И |
1_ | В СООТВЕТСТВИИ С | DC1 | DC2 | DC3 | DC4 | ХОТЕТЬ | СИН | ЭТБ | МОЖЕТ | В | СУБ | ЭКУ | ФС | GS | РС | НАС |
2_ | СП | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3_ | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4_ | @ | А | Б | С | Д | И | Ф | Г | ЧАС | я | Дж | К | л | М | Н | ТО |
5_ | П | вопрос | Р | С | Т | В | V | В | Х | И | С | [ | \ | ] | ^ | _ |
6_ | ` | а | б | с | д | и | ж | г | час | я | дж | к | л | м | н | тот |
7_ | п | д | р | с | т | в | v | В | х | и | С | { | | | } | ~ | ПРИНАДЛЕЖАЩИЙ |
8_ | € 20AC | ‚ 201A | ƒ 0192 | „ 201Е | … 2026 | † 2020 | ‡ 2021 | ˆ 02C6 | ‰ 2030 | С 0160 | ‹ 2039 | О 0152 | Ж 017D | |||
9_ | ‘ 2018 | ’ 2019 | “ 201С | ” 201Д | • 2022 | – 2013 | — 2014 | ˜ 02DC | ™ 2122 | с 0161 | › 203А | œ 0153 | час 017E | Ÿ 0178 | ||
А_ | НБСП | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | й | « | ¬ | ЗАСТЕНЧИВЫЙ | ® | ¯ |
Б_ | ° | ± | ² | ³ | ´ | м | ¶ | · | ¸ | ¹ | й | » | ¼ | ½ | ¾ | ¿ |
С_ | ИМЕЕТ | На | Â | Ã | Ä | Ой | Ой | Что | И | И | Э | Э | Я | В | вопрос | Я |
Д_ | Ð | С | Ò | Ой | ЗОНТИК | ОН | ОН | × | Ø | Ù | О | И | О | ИДЕЯ | че | SS |
И_ | имеет | на | â | ã | ä | к | ой | Что | И | и | ага | ага | я | в | вопрос | я |
Ф_ | д | н | ò | от | Зонтик | он | он | ÷ | ø | ты | ты | и | ты | идея | то есть | ÿ |
Согласно информации на сайтах Microsoft и Консорциума Unicode, позиции 81, 8D, 8F, 90 и 9D не используются; однако Windows API MultiByteToWideChar
отображает их на соответствующие управляющие коды C1 . Картирование «наилучшего соответствия» также документирует это поведение. [21]
Связанные кодировки
[ редактировать ]Расширения OS/2
[ редактировать ]Операционная система OS /2 поддерживает кодировку по имени кодовой страницы 1004 ( CCSID 1004) или «Windows Extended». [26] [27] В основном это соответствует кодовой странице 1252, за исключением того, что некоторые управляющие символы C0 заменяются диакритическими символами.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0_ | НУЛЕВОЙ | СОХ | СТХ | И Т. Д | ˉ 02C9 | ˘ 02D8 | ˙ 02D9 | БЕЛ | ˚ 02DA | ХТ | ˝ 02ДД | ˛ 02ДБ | ˇ 02C7 | ЧР | ТАК | И |
Расширения MS-DOS (редко)
[ редактировать ]Существует редко используемая, но полезная расширенная графическая кодовая страница 1252, где коды от 0x00 до 0x1f позволяют рисовать прямоугольники, используемые в таких приложениях, как MSDOS Edit и Codeview. Одним из приложений, использовавших эту кодовую страницу, была утилита образа диска установки/восстановления корпорации Intel, выпущенная в середине/конце 1995 года. Эти программы были написаны для компьютеров с программой пользовательского тестирования P6 (пример в США). [32] ). В то время он использовался исключительно в регионе EMEA (Европа, Ближний Восток и Африка). Со временем программы были изменены на использование кодовой страницы 850 .
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0_ | ○ | ■ | ↑ | ↓ | → | ← | ║ | ═ | ╔ | ╗ | ╚ | ╝ | ░ | ▒ | ► | ◄ |
1_ | │ | ─ | ┌ | ┐ | └ | ┘ | ├ | ┤ | ┴ | ┬ | ♦ | ┼ | █ | ▄ | ▀ | ▬ |
Вариант ОС Palm
[ редактировать ]Каждое устройство Palm OS поддерживает один язык и одну кодировку символов, в зависимости от его локали. [33]
Для таких языков, как английский и французский, Palm OS использует специальную кодировку символов на основе Windows-1252. Для японского языка вместо этого используется многобайтовая кодировка символов на основе кодовой страницы 932 . Независимо от языкового стандарта системы, все символы в диапазоне от 0x00 до 0x7F гарантированно будут одинаковыми, за исключением 0x5D, который является знаком иены на японском языке и обратной косой чертой для всех остальных. [33]
В Palm OS 3.1 было внесено несколько изменений в кодировку символов, чтобы лучше соответствовать Windows-1252: [34]
- Специальные глифы Palm OS «ярлык» (0x9D) и «командный штрих» (0x9E) были скопированы в 0x16 и 0x17, чтобы гарантировать, что они находятся в диапазоне, гарантированно согласованном между локалями. [34] Начиная с Palm OS 3.3, 0x16 и 0x17 являются единственными кодовыми точками для этих символов. [35] оставляя 0x9D и 0x9E неопределенными. [36]
- ( Числовой пробел 0x80) и горизонтальное многоточие (0x85) были скопированы в 0x19 и 0x18 (соответственно), чтобы гарантировать, что они находятся в диапазоне, гарантированно согласованном между языковыми стандартами. [34] [35]
- Знак евро был добавлен по адресу 0x80, заменив то, что раньше было числовым пространством. [35]
- Масти игральных карт были скопированы в шрифт Символ 9, [34] хотя их исходные кодовые точки остаются действительными. [35] [36]
Ниже приведен вариант Windows-1252, используемый Palm OS 3.3 и более поздних версий для английского и некоторых других языков. [35] Python дает ему palmos
метка, описывающая ее как кодировку для Palm OS 3.5. [37] [38] Отличия от Windows-1252 имеют код Unicode.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
8_ | € [а] | ‚ | ƒ | „ | … [б] | † | ‡ | ˆ | ‰ | С | ‹ | О | ♦ 2666 | ♣ 2663 | ♥ 2665 | |
9_ | ♠ 2660 | ‘ | ’ | “ | ” | • | – | — | ˜ | ™ | с | › | œ | [с] | [д] | Ÿ |
См. также
[ редактировать ]- Латиница в Юникоде
- Юникод
- Универсальный набор кодированных символов
- UTF-8
- Наборы символов западной латиницы (вычисления)
- Windows-1250
- Кодовые страницы Windows
- ИСО/МЭК ОТК 1/ПК 2
- Расширенный ASCII
Примечания
[ редактировать ]- ^ До Palm OS 3.1 символом в кодовой точке 0x80 был U+2007 ЧИСЛОВОЙ ПРОБЕЛ; начиная с Palm OS 3.1, 0x80 — это знак евро, а 0x19 — это U+2007 ЦИФРОВОЙ ПРОБЕЛ. [35]
- ^ Начиная с Palm OS 3.1 этот символ также дублируется по адресу 0x18. [34] [35]
- ^ До версии Palm OS 3.3 этот код представлял собой эксклюзивный для Palm OS символ «ярлык»; начиная с Palm OS 3.3 этот код не определен. [34] [35]
- ^ До версии Palm OS 3.3 этот код представлял собой эксклюзивный для Palm OS символ «командный удар»; начиная с Palm OS 3.3 этот код не определен. [34] [35]
Ссылки
[ редактировать ]- ^ Наборы символов , Управление по присвоению номеров в Интернете (IANA), 12 декабря 2018 г.
- ^ «Кодирование. Уровень жизни» . ЧТОРГ . 13 июня 2024 г. § 9. Устаревшие однобайтовые кодировки . Проверено 28 июня 2024 г.
- ^ Jump up to: а б «Исторические тенденции статистики использования кодировок символов для веб-сайтов, декабрь 2023 года» . w3techs.com . Проверено 19 июля 2024 г.
- ^ Jump up to: а б «Кодировка» . ЧТОРГ . 27 января 2015 г. сек. 5.2 Имена и метки. Архивировано из оригинала 4 февраля 2015 года . Проверено 4 февраля 2015 г.
- ^ «Часто задаваемые вопросы» . w3techs.com .
- ^ «Распространение кодировок символов среди веб-сайтов, использующих Бразилию» . W3Techs . Архивировано из оригинала 4 апреля 2024 года . Проверено 19 июля 2024 г.
- ^ «Распространение кодировок символов между веб-сайтами, использующими .de» . W3Techs . Архивировано из оригинала 4 апреля 2024 года . Проверено 19 июля 2024 г.
- ^ «Распространение кодировок символов среди веб-сайтов, использующих немецкий язык» . w3techs.com . Проверено 16 января 2023 г.
- ^ Виссинк, Кэти (5 апреля 2002 г.). «Юникод и Windows XP» (PDF) . Майкрософт . п. 1. Архивировано из оригинала (PDF) 4 февраля 2015 года . Проверено 4 февраля 2015 г.
- ^ «Новости LaTeX, выпуск 28» (PDF; 379 КБ) . Проект LaTeX. Апрель 2018 года . Проверено 27 июля 2024 г.
- ^ «Inputenc – принимать различные входные кодировки» . Проект LaTeX. 08 февраля 2024 г. Проверено 27 июля 2024 г.
- ^ «Информационный документ с кодовой страницей 1252» . ИБМ. 30 сентября 1997 г. Архивировано из оригинала 3 марта 2016 г.
- ^ «Информационный документ CCSID 1252» . ИБМ. Архивировано из оригинала 26 марта 2016 г.
- ^ «Информационный документ CCSID 5348» . ИБМ. Архивировано из оригинала 29 ноября 2014 г.
- ^ «Руководство по установке клиента базы данных» . Оракул . Проверено 14 февраля 2021 г.
- ^ Тексин, Техас «Сравнение символов в Windows-1252, ISO-8859-1, ISO-8859-15» . I18nQA.com .
- ^ ван Эмден, Ева (28 января 2011 г.). «Как сделать цитаты типографов в HTML» . vancouvereditor.com . Проверено 7 января 2024 г.
Если вы используете цитаты типографов, не указав правильную кодировку символов для вашего HTML-файла, некоторые из ваших зрителей увидят вопросительные знаки, прямоугольники или другие сумасшедшие символы вместо красивых фигурных кавычек, которые вы хотели им видеть.
- ^ «Умные цитаты в Word» . Поддержка Майкрософт . Майкрософт . Проверено 7 января 2024 г.
- ^ «Поиск в Интернете NetWare: понимание кодировок наборов символов» . Документация Новелл . Новелл.
если документ не содержит значения кодировки CHARSET, кодировкой по умолчанию для документов HTML является ISO-8859-1, также известная как Latin1. Кодировкой по умолчанию для простых текстовых документов является US-ASCII.
- ^ Наблюдаемое поведение в Chrome, в некоторых браузерах это может быть UTF-8. [ оригинальное исследование? ]
- ^ Jump up to: а б «Сопоставления Unicode для Windows-1252 с «наилучшим соответствием» » . Юникод . Архивировано из оригинала 4 февраля 2015 года . Проверено 4 февраля 2015 г.
- ^ Кодовая страница 01252 (PDF) , IBM, 1998 г., заархивировано (PDF) из оригинала 27 октября 2023 г.
- ^ Кодовая страница (CPGID) 01252 (txt) , IBM, 1998 г., заархивировано из оригинала 8 апреля 2023 г.
- ^ Международные компоненты для Unicode (ICU), ibm-1252_P100-2000.ucm , 3 декабря 2002 г.
- ^ Международные компоненты для Unicode (ICU), ibm-5348_P100-1997.ucm , 3 декабря 2002 г.
- ^ «Информационный документ с кодовой страницей 1004» . Архивировано из оригинала 25 июня 2015 г.
- ^ «Информационный документ CCSID 1004» . Архивировано из оригинала 26 марта 2016 г.
- ^ «Кодовая страница 01004» (PDF) . ИБМ . Архивировано из оригинала (PDF) 8 июля 2015 г. (версия основана на версии Windows-1252 для Windows 3.1)
- ^ Кодовая страница CPGID 01004 (pdf) (PDF) , IBM
- ^ Кодовая страница CPGID 01004 (txt) , IBM
- ^ Боргендейл, Кен (2001). «Кодовая страница 1004 — Windows Extended» . Кодовые страницы OS/2 по номеру . Архивировано из оригинала 13 мая 2018 г. Проверено 13 мая 2018 г. (версия основана на текущей версии Windows-1252)
- ^ Стораасли, Олаф (1996). «Эффективность решателей уравнений НАСА в приложениях вычислительной механики» (PDF) . Производительность решателей уравнений НАСА в приложениях вычислительной механики . НАСА. дои : 10.2514/6.1996-1505 . S2CID 15711051 . Архивировано из оригинала (PDF) 3 мая 2019 г.
- ^ Jump up to: а б «Глава 13: Локализованные приложения». Помощник программиста Palm OS (PDF) . Компьютерная платформа Palm. 16 марта 2000 г. с. 321.
- ^ Jump up to: а б с д и ж г «Приложение Б: Руководство по совместимости». Справочник по SDK для Palm OS (PDF) . Компьютерная платформа Palm. 16 марта 2000 г., стр. 1181–1182.
- ^ Jump up to: а б с д и ж г час я Валлей, Линус. «Наборы символов Palm Pilot и сопоставления Юникода» . GNU-перекодирование . Компьютерная ассоциация Лундского университета и Лундского технологического университета . Проверено 10 октября 2023 г.
- ^ Jump up to: а б с Паркер, Грег. «Встроенные шрифты Palm OS» . Программное обеспечение Сили . Проверено 10 октября 2023 г.
- ^ «кодеки — реестр кодеков и базовые классы (§ Кодировки текста)» . Стандартная библиотека Python — Документация по Python 3.9.4 . Фонд программного обеспечения Python .
- ^ Jump up to: а б Мюлендер, Сьерд (13 июля 2002 г.). «Кодек преобразования символов Python для Palm OS 3.5» . CPython Дерево исходного кода . Фонд программного обеспечения Python . Проверено 9 декабря 2021 г.
Внешние ссылки
[ редактировать ]- Таблицы кодов Microsoft для Windows-1252 («Кодовая страница 1252 Windows Latin 1 (ANSI)»)
- Таблица сопоставлений Юникода и определение кодовой страницы с наиболее подходящими сопоставлениями для Windows-1252.