Jump to content

Windows-1252

(Перенаправлено с кодовой страницы 1252 )
Windows-1252
МИМ / IANA окна-1252 [1]
Псевдоним(а) cp1252 ( кодовая страница 1252)
Язык(и) Все поддерживается стандартом ISO/IEC 8859-1, а также полная поддержка французского и финского языков, а также лигатурных форм для английского языка ; например, датский (за исключением редкой исключительной буквы ) , ирландский, итальянский, норвежский, португальский, испанский, шведский, немецкий (отсутствует заглавная буква ), исландский, фарерский, люксембургский, албанский, эстонский, суахили, тсвана, каталанский, баскский, окситанский, Ротокас , Токи Пона, Ложбан, ретороманский, голландский (кроме символа IJ/ij, замененного на IJ / ij или ÿ ) и словенский (кроме символа č , замененного на ç ).
Создано Майкрософт
Стандартный WHATWG Стандарт кодирования
Классификация расширенный ASCII , Windows-125x
Расширяет ISO 8859-1 (за исключением элементов управления C1)
Преобразует/кодирует ИСО 8859-15
Преемник Юникод ( UTF-8 , UTF-16 )

Windows-1252 или CP-1252 ( кодовая страница Windows 1252) — это устаревшая однобайтовая кодировка символов. [2] который используется по умолчанию (как «кодовая страница ANSI») в Microsoft Windows в Северной и Южной Америке , Западной Европе , Океании и большей части Африки . [ нужна ссылка ]

Первоначально такой же, как ISO 8859-1 , он начал расходиться, начиная с Windows 2.0, путем добавления дополнительных символов в диапазоне от 0x80 до 0x9F ( шестнадцатеричный ) (стандарты ISO резервируют этот диапазон для управляющих кодов C1 ). В число примечательных дополнительных символов входят фигурные кавычки и все печатные символы из ISO 8859-15 .

Это наиболее часто используемая кодировка однобайтовых символов в мире. Хотя почти все веб-сайты сейчас используют кодировку многобайтовых символов UTF-8 , по состоянию на июль 2024 г. 1,2%. [3] веб-сайтов объявлены в соответствии со стандартом ISO 8859-1 , который всеми современными браузерами воспринимается как Windows-1252 (согласно требованиям HTML5) . стандарта [4] ), плюс 0,3% заявленных напрямую Windows-1252, [3] [5] в общей сложности 1,5%. В некоторых странах или языках наблюдается более высокий уровень использования, чем в среднем по миру. В 2024 году в Бразилии, согласно использованию веб-сайтов, использование составляет 3,4%, [6] и в Германии - 2,7%. [7] [8] (это суммы деклараций ISO-8859-1 и CP-1252).

В Windows он известен под номером кодовой страницы 1252 и одобренным IANA именем «windows-1252».

Исторически фраза «Кодовая страница ANSI» использовалась в Windows для обозначения кодировок, отличных от DOS; предполагалось, что большинство из них будут стандартами ANSI , такими как ISO-8859-1 . Несмотря на то, что Windows-1252 была первой и, безусловно, самой популярной кодовой страницей, названной так на языке Microsoft Windows, эта кодовая страница никогда не была стандартом ANSI. Microsoft объясняет: «Термин ANSI, используемый для обозначения кодовых страниц Windows, является исторической справкой, но в настоящее время это неправильное употребление, которое продолжает сохраняться в сообществе Windows». [9]

LateX может вводить Windows-1252, используя inputenc.sty с параметром ansinew (а в последнее время cp1252 ). [10] [11]

IBM использует кодовую страницу 1252 ( CCSID 1252 и расширенный CCSID 5348 со знаком евро ) для Windows-1252. [12] [13] [14]

он называется «WE8MSWIN1252» В базе данных Oracle . [15]

  • Первая версия кодовой страницы использовалась в Microsoft Windows 1.0 . Он соответствовал стандарту ISO-8859-1 (включая оставление кодовых точек 0xD7 и 0xF7 неопределенными, поскольку в то время их не было в стандарте).
  • Вторая версия кодовой страницы была представлена ​​в Microsoft Windows 2.0 . В этой версии определены кодовые точки 0xD7, 0xF7, 0x91 и 0x92.
  • Третья версия кодовой страницы была представлена ​​в Microsoft Windows 3.1 . Он определил все кодовые точки, использованные в окончательной версии, за исключением знака евро и пары символов Z с кароном .
  • Окончательная версия (показанная ниже) была представлена ​​в Microsoft Windows 98 .

Начиная с 1990-х годов, многие продукты Microsoft , которые могли создавать HTML, включали эксклюзивные символы Windows-1252, но имели кодировку ISO -8859-1, ASCII или необъявленную. [ нужна ссылка ] Символы, эксклюзивные для Windows-1252, неправильно отображались в операционных системах, отличных от Windows (часто в виде вопросительных знаков). [16] [17] В частности, типографские кавычки — фигурные варианты стандартных прямых апострофов и кавычек в US-ASCII — обычно использовались в файлах, созданных в приложениях Windows, таких как Microsoft Word, благодаря функции интеллектуальных кавычек , которая может автоматически преобразовывать прямые апострофы и кавычки. знаки фигурным вариантам. [18] Чтобы исправить это, к 2000 году большинство веб-браузеров и клиентов электронной почты интерпретировали кодировки ISO-8859-1 и US-ASCII как Windows-1252. [ нужна ссылка ] — такое поведение теперь требуется спецификацией HTML5. [4] Необъявленные кодировки в HTML также считаются Windows-1252. [19] [20]

Хотя Windows NT поддерживала Unicode и пыталась поощрять программы к его использованию, она предоставляла только 16-битные кодовые единицы UCS-2 / UTF-16 , несмотря на существующую поддержку других многобайтовых кодировок символов. Поскольку многие приложения предпочитали использовать 8-битные строки, Windows-1252 оставалась самой популярной кодировкой в ​​Windows даже после того, как в нее была добавлена ​​поддержка UTF-16. Поддержка Unicode в Windows со временем улучшилась: поддержка UTF-8 доступна начиная с Windows 10 .

Макет кодовой страницы

[ редактировать ]

В следующей таблице показана Windows-1252. Отличия от ISO-8859-1 включают Unicode номер кодовой точки под символом, основанный на сопоставлении Unicode.org Windows-1252 с «наилучшим соответствием». Всплывающая подсказка, обычно доступная только при наведении указателя слева от символа, показывает имя кодовой точки Юникода и десятичный код Alt .

Windows-1252 (CP1252) [21] [22] [23] [24] [25]
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
0_ НУЛЕВОЙ СОХ СТХ И Т. Д EOT ENQ ПОДТВЕРЖДЕНИЕ БЕЛ БС ХТ НЧ ВТ ФФ ЧР ТАК И
1_ В СООТВЕТСТВИИ С DC1 DC2 DC3 DC4 ХОТЕТЬ СИН ЭТБ МОЖЕТ В СУБ ЭКУ ФС GS РС НАС
2_  СП  ! " # $ % & ' ( ) * + , - . /
3_ 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4_ @ А Б С Д И Ф Г ЧАС я Дж К л М Н ТО
5_ П вопрос Р С Т В V В Х И С [ \ ] ^ _
6_ ` а б с д и ж г час я дж к л м н тот
7_ п д р с т в v В х и С { | } ~ ПРИНАДЛЕЖАЩИЙ
8_
20AC

201A
ƒ
0192

201Е

2026

2020

2021
ˆ
02C6

2030
С
0160

2039
О
0152
Ж
017D
9_
2018

2019

201С

201Д

2022

2013

2014
˜
02DC

2122
с
0161

203А
œ
0153
час
017E
Ÿ
0178
А_ НБСП ¡ ¢ £ ¤ ¥ ¦ § ¨ © й « ¬ ЗАСТЕНЧИВЫЙ ® ¯
Б_ ° ± ² ³ ´ м · ¸ ¹ й » ¼ ½ ¾ ¿
С_ ИМЕЕТ На Â Ã Ä Ой Ой Что И И Э Э Я В вопрос Я
Д_ Ð С Ò Ой ЗОНТИК ОН ОН × Ø Ù О И О ИДЕЯ че SS
И_ имеет на â ã ä к ой Что И и ага ага я в вопрос я
Ф_ д н ò от Зонтик он он ÷ ø ты ты и ты идея то есть ÿ

  Согласно информации на сайтах Microsoft и Консорциума Unicode, позиции 81, 8D, 8F, 90 и 9D не используются; однако Windows API MultiByteToWideChar отображает их на соответствующие управляющие коды C1 . Картирование «наилучшего соответствия» также документирует это поведение. [21]

[ редактировать ]

Расширения OS/2

[ редактировать ]

Операционная система OS /2 поддерживает кодировку по имени кодовой страницы 1004 ( CCSID 1004) или «Windows Extended». [26] [27] В основном это соответствует кодовой странице 1252, за исключением того, что некоторые управляющие символы C0 заменяются диакритическими символами.

Кодовая страница 1004 (только разные строки) [28] [29] [30] [31]
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
0_ НУЛЕВОЙ СОХ СТХ И Т. Д ˉ
02C9
˘
02D8
˙
02D9
БЕЛ ˚
02DA
ХТ ˝
02ДД
˛
02ДБ
ˇ
02C7
ЧР ТАК И

Расширения MS-DOS (редко)

[ редактировать ]

Существует редко используемая, но полезная расширенная графическая кодовая страница 1252, где коды от 0x00 до 0x1f позволяют рисовать прямоугольники, используемые в таких приложениях, как MSDOS Edit и Codeview. Одним из приложений, использовавших эту кодовую страницу, была утилита образа диска установки/восстановления корпорации Intel, выпущенная в середине/конце 1995 года. Эти программы были написаны для компьютеров с программой пользовательского тестирования P6 (пример в США). [32] ). В то время он использовался исключительно в регионе EMEA (Европа, Ближний Восток и Африка). Со временем программы были изменены на использование кодовой страницы 850 .

Расширенная графическая кодовая страница 1252 [ нужна ссылка ]
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
0_
1_

Вариант ОС Palm

[ редактировать ]

Каждое устройство Palm OS поддерживает один язык и одну кодировку символов, в зависимости от его локали. [33]

Для таких языков, как английский и французский, Palm OS использует специальную кодировку символов на основе Windows-1252. Для японского языка вместо этого используется многобайтовая кодировка символов на основе кодовой страницы 932 . Независимо от языкового стандарта системы, все символы в диапазоне от 0x00 до 0x7F гарантированно будут одинаковыми, за исключением 0x5D, который является знаком иены на японском языке и обратной косой чертой для всех остальных. [33]

В Palm OS 3.1 было внесено несколько изменений в кодировку символов, чтобы лучше соответствовать Windows-1252: [34]

  • Специальные глифы Palm OS «ярлык» (0x9D) и «командный штрих» (0x9E) были скопированы в 0x16 и 0x17, чтобы гарантировать, что они находятся в диапазоне, гарантированно согласованном между локалями. [34] Начиная с Palm OS 3.3, 0x16 и 0x17 являются единственными кодовыми точками для этих символов. [35] оставляя 0x9D и 0x9E неопределенными. [36]
  • ( Числовой пробел 0x80) и горизонтальное многоточие (0x85) были скопированы в 0x19 и 0x18 (соответственно), чтобы гарантировать, что они находятся в диапазоне, гарантированно согласованном между языковыми стандартами. [34] [35]
  • Знак евро был добавлен по адресу 0x80, заменив то, что раньше было числовым пространством. [35]
  • Масти игральных карт были скопированы в шрифт Символ 9, [34] хотя их исходные кодовые точки остаются действительными. [35] [36]

Ниже приведен вариант Windows-1252, используемый Palm OS 3.3 и более поздних версий для английского и некоторых других языков. [35] Python дает ему palmos метка, описывающая ее как кодировку для Palm OS 3.5. [37] [38] Отличия от Windows-1252 имеют код Unicode.

Кодировка символов Palm OS 3.3 [36] [38]
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
8_ [а] ƒ [б] ˆ С О
2666

2663

2665
9_
2660
˜  с œ [с] [д] Ÿ

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ До Palm OS 3.1 символом в кодовой точке 0x80 был U+2007 ЧИСЛОВОЙ ПРОБЕЛ; начиная с Palm OS 3.1, 0x80 — это знак евро, а 0x19 — это U+2007 ЦИФРОВОЙ ПРОБЕЛ. [35]
  2. ^ Начиная с Palm OS 3.1 этот символ также дублируется по адресу 0x18. [34] [35]
  3. ^ До версии Palm OS 3.3 этот код представлял собой эксклюзивный для Palm OS символ «ярлык»; начиная с Palm OS 3.3 этот код не определен. [34] [35]
  4. ^ До версии Palm OS 3.3 этот код представлял собой эксклюзивный для Palm OS символ «командный удар»; начиная с Palm OS 3.3 этот код не определен. [34] [35]
  1. ^ Наборы символов , Управление по присвоению номеров в Интернете (IANA), 12 декабря 2018 г.
  2. ^ «Кодирование. Уровень жизни» . ЧТОРГ . 13 июня 2024 г. § 9. Устаревшие однобайтовые кодировки . Проверено 28 июня 2024 г.
  3. ^ Перейти обратно: а б «Исторические тенденции статистики использования кодировок символов для веб-сайтов, декабрь 2023 года» . w3techs.com . Проверено 19 июля 2024 г.
  4. ^ Перейти обратно: а б «Кодировка» . ЧТОРГ . 27 января 2015 г. сек. 5.2 Имена и метки. Архивировано из оригинала 4 февраля 2015 года . Проверено 4 февраля 2015 г.
  5. ^ «Часто задаваемые вопросы» . w3techs.com .
  6. ^ «Распространение кодировок символов среди веб-сайтов, использующих Бразилию» . W3Techs . Архивировано из оригинала 4 апреля 2024 года . Проверено 19 июля 2024 г.
  7. ^ «Распространение кодировок символов между веб-сайтами, использующими .de» . W3Techs . Архивировано из оригинала 4 апреля 2024 года . Проверено 19 июля 2024 г.
  8. ^ «Распространение кодировок символов среди веб-сайтов, использующих немецкий язык» . w3techs.com . Проверено 16 января 2023 г.
  9. ^ Виссинк, Кэти (5 апреля 2002 г.). «Юникод и Windows XP» (PDF) . Майкрософт . п. 1. Архивировано из оригинала (PDF) 4 февраля 2015 года . Проверено 4 февраля 2015 г.
  10. ^ «Новости LaTeX, выпуск 28» (PDF; 379 КБ) . Проект LaTeX. Апрель 2018 года . Проверено 27 июля 2024 г.
  11. ^ «Inputenc – принимать различные входные кодировки» . Проект LaTeX. 08 февраля 2024 г. Проверено 27 июля 2024 г.
  12. ^ «Информационный документ с кодовой страницей 1252» . ИБМ. 30 сентября 1997 г. Архивировано из оригинала 3 марта 2016 г.
  13. ^ «Информационный документ CCSID 1252» . ИБМ. Архивировано из оригинала 26 марта 2016 г.
  14. ^ «Информационный документ CCSID 5348» . ИБМ. Архивировано из оригинала 29 ноября 2014 г.
  15. ^ «Руководство по установке клиента базы данных» . Оракул . Проверено 14 февраля 2021 г.
  16. ^ Тексин, Техас «Сравнение символов в Windows-1252, ISO-8859-1, ISO-8859-15» . I18nQA.com .
  17. ^ ван Эмден, Ева (28 января 2011 г.). «Как сделать цитаты типографов в HTML» . vancouvereditor.com . Проверено 7 января 2024 г. Если вы используете кавычки типографов, не указав правильную кодировку символов для вашего HTML-файла, некоторые из ваших зрителей увидят вопросительные знаки, прямоугольники или другие сумасшедшие символы вместо красивых фигурных кавычек, которые вы хотели им видеть.
  18. ^ «Умные цитаты в Word» . Поддержка Майкрософт . Майкрософт . Проверено 7 января 2024 г.
  19. ^ «Поиск в Интернете NetWare: понимание кодировок наборов символов» . Документация Новелл . Новелл. если документ не содержит значения кодировки CHARSET, кодировкой по умолчанию для документов HTML является ISO-8859-1, также известная как Latin1. Кодировкой по умолчанию для простых текстовых документов является US-ASCII.
  20. ^ Наблюдаемое поведение в Chrome, в некоторых браузерах это может быть UTF-8. [ оригинальное исследование? ]
  21. ^ Перейти обратно: а б «Сопоставления Unicode Windows-1252 с «наилучшим соответствием» » . Юникод . Архивировано из оригинала 4 февраля 2015 года . Проверено 4 февраля 2015 г.
  22. ^ Кодовая страница 01252 (PDF) , IBM, 1998 г., заархивировано (PDF) из оригинала 27 октября 2023 г.
  23. ^ Кодовая страница (CPGID) 01252 (txt) , IBM, 1998 г., заархивировано из оригинала 8 апреля 2023 г.
  24. ^ Международные компоненты для Unicode (ICU), ibm-1252_P100-2000.ucm , 3 декабря 2002 г.
  25. ^ Международные компоненты для Unicode (ICU), ibm-5348_P100-1997.ucm , 3 декабря 2002 г.
  26. ^ «Информационный документ с кодовой страницей 1004» . Архивировано из оригинала 25 июня 2015 г.
  27. ^ «Информационный документ CCSID 1004» . Архивировано из оригинала 26 марта 2016 г.
  28. ^ «Кодовая страница 01004» (PDF) . ИБМ . Архивировано из оригинала (PDF) 8 июля 2015 г. (версия на основе Windows 3.1 версии Windows-1252)
  29. ^ Кодовая страница CPGID 01004 (pdf) (PDF) , IBM
  30. ^ Кодовая страница CPGID 01004 (txt) , IBM
  31. ^ Боргендейл, Кен (2001). «Кодовая страница 1004 — Windows Extended» . Кодовые страницы OS/2 по номеру . Архивировано из оригинала 13 мая 2018 г. Проверено 13 мая 2018 г. (версия основана на текущей версии Windows-1252)
  32. ^ Стораасли, Олаф (1996). «Эффективность решателей уравнений НАСА в приложениях вычислительной механики» (PDF) . Производительность решателей уравнений НАСА в приложениях вычислительной механики . НАСА. дои : 10.2514/6.1996-1505 . S2CID   15711051 . Архивировано из оригинала (PDF) 3 мая 2019 г.
  33. ^ Перейти обратно: а б «Глава 13: Локализованные приложения». Помощник программиста Palm OS (PDF) . Компьютерная платформа Palm. 16 марта 2000 г. с. 321.
  34. ^ Перейти обратно: а б с д и ж г «Приложение Б: Руководство по совместимости». Справочник по SDK для Palm OS (PDF) . Компьютерная платформа Palm. 16 марта 2000 г., стр. 1181–1182.
  35. ^ Перейти обратно: а б с д и ж г час я Валлей, Линус. «Наборы символов Palm Pilot и сопоставления Юникода» . GNU-перекодирование . Компьютерная ассоциация Лундского университета и Лундского технологического университета . Проверено 10 октября 2023 г.
  36. ^ Перейти обратно: а б с Паркер, Грег. «Встроенные шрифты Palm OS» . Программное обеспечение Сили . Проверено 10 октября 2023 г.
  37. ^ «кодеки — реестр кодеков и базовые классы (§ Кодировки текста)» . Стандартная библиотека Python — Документация по Python 3.9.4 . Фонд программного обеспечения Python .
  38. ^ Перейти обратно: а б Мюлендер, Сьерд (13 июля 2002 г.). «Кодек преобразования символов Python для Palm OS 3.5» . CPython Дерево исходного кода . Фонд программного обеспечения Python . Проверено 9 декабря 2021 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: db3e6006bf701fa2453a626dc74e1db0__1722280260
URL1:https://arc.ask3.ru/arc/aa/db/b0/db3e6006bf701fa2453a626dc74e1db0.html
Заголовок, (Title) документа по адресу, URL1:
Windows-1252 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)