Windows-1256
МИМ / IANA | окна-1256 |
---|---|
Псевдоним(а) | cp1256 ( Кодовая страница 1256) |
Язык(и) | Арабский , персидский , урду , английский , французский (кроме заглавных букв с диакритическими знаками) |
Создано | Майкрософт |
Стандартный | WHATWG Стандарт кодирования |
Классификация | расширенный ASCII , Windows-125x |
Windows-1256 — это кодовая страница , используемая в Microsoft Windows для написания арабского языка и других языков, использующих арабское письмо , таких как персидский и урду .
Эта кодовая страница несовместима ни с ISO-8859-6 , ни с кодировкой MacArabic .
Windows-1256 кодирует каждую абстрактную букву основного арабского алфавита, а не каждую конкретную визуальную форму изолированных, начальных, средних, конечных или лигатурных вариантов формы букв (т.е. она кодирует символы, а не глифы). Арабские буквы в диапазоне C0-FF расположены в арабском алфавитном порядке, но между ними вкраплены некоторые латинские символы. Это некоторые латинские символы Windows-1252, используемые для французского языка , поскольку этот европейский язык имеет определенное историческое значение в бывших французских колониях в Северной Африке, таких как Марокко и Алжир . Это позволило смешивать французский и арабский текст при использовании Windows 1256 без необходимости переключения кодовой страницы (однако прописные буквы с диакритическими знаками не включались).
IBM использует кодовую страницу 1256 ( CCSID 1256, расширенный CCSID 5352 со знаком евро и дополнительный расширенный CCSID 9448) для Windows-1256. [1] [2] [3] [4]
Unicode предпочтительнее Windows 1256 в современных приложениях, особенно в Интернете, где доминирующая кодировка UTF-8 чаще всего используется для веб-страниц, в том числе для арабского языка (см. также арабский алфавит в Unicode для полного охвата, в отличие, например, от Windows 1256 или ISO-8859-6 , которые не включают дополнительные функции). Менее 0,03% всех веб-страниц используют Windows-1256 в октябре 2022 г. [5] [6] и хотя эта кодировка в основном используется для арабского языка и является второй по популярности, она используется только для 1,6% арабского текста в Интернете.
Набор символов [ править ]
Поскольку исходная кодовая страница оставила 9 значений (байтов), помеченных как «НЕ ИСПОЛЬЗУЕТСЯ» в исходной спецификации, [7] эти байты позже использовались для дополнительных символов, необходимых для персидско-арабского письма (для персидского и урду ), а также для знака евро . [8]
В следующей таблице показана расширенная версия Windows-1256. Каждый символ отображается с его эквивалентом в Юникоде и десятичным кодом.
Здесь каждая арабская буква показана в изолированном виде. Фактические формы букв внутри арабских слов отображаются с помощью комбинации правил программного обеспечения и соответствующей поддержки шрифтов.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0x | НУЛЕВОЙ | СОХ | СТХ | И Т. Д | EOT | ENQ | ПОДТВЕРЖДЕНИЕ | БЕЛ | БС | ХТ | НЧ | ВТ | ФФ | ЧР | ТАК | И |
1x | В СООТВЕТСТВИИ С | DC1 | DC2 | DC3 | DC4 | ХОТЕТЬ | СИН | ЭТБ | МОЖЕТ | В | СУБ | ЭКУ | ФС | GS | РС | НАС |
2x | СП | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | А | Б | С | Д | И | Ф | Г | ЧАС | я | Дж | К | л | М | Н | ТО |
5x | П | вопрос | Р | С | Т | В | V | В | Х | И | С | [ | \ | ] | ^ | _ |
6x | ` | а | б | с | д | и | ж | г | час | я | дж | к | л | м | н | тот |
7x | п | д | р | с | т | в | v | В | х | и | С | { | | | } | ~ | ПРИНАДЛЕЖАЩИЙ |
8x | € | п | ‚ | ƒ | „ | … | † | ‡ | ˆ | ‰ | Т | ‹ | О | ж | Нет | Д |
9x | Г | ‘ | ’ | “ | ” | • | – | — | К | ™ | д | › | œ | ZWNJ | ZWJ | г |
Топор | НБСП | ، | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ЧАС | « | ¬ | ЗАСТЕНЧИВЫЙ | ® | ¯ |
Бх | ° | ± | ² | ³ | ´ | м | ¶ | · | ¸ | ¹ | ؛ | » | ¼ | ½ | ¾ | ؟ |
Сх | час | А | ну давай же | А | был | Э | Э | А | для | Ой | Т | че | С | ЧАС | Х | принадлежащий |
Дх | З | Р | З | вопрос | Ш | п | З | × | я | З | А | г | ـ | Ф | вопрос | твой |
Бывший | имеет | к | â | М | Н | е | и | Что | И | и | ага | ага | Й | Да | вопрос | я |
Форекс | ً | ٌ | ٍ | َ | Зонтик | ُ | ِ | ÷ | ّ | ты | ْ | и | ты | ЛРМ | РЛМ | Э |
См. также [ править ]
Ссылки [ править ]
- ^ «Информационный документ с кодовой страницей 1256» . Архивировано из оригинала 3 марта 2016 г.
- ^ «Информационный документ CCSID 1256» . Архивировано из оригинала 27 марта 2016 г.
- ^ «Информационный документ CCSID 5352» . Архивировано из оригинала 29 ноября 2014 г.
- ^ «Информационный документ CCSID 9448» . Архивировано из оригинала 29 ноября 2014 г.
- ^ «Исторические тенденции использования кодировок символов на веб-сайтах, октябрь 2022 г.» . w3techs.com .
- ^ «Часто задаваемые вопросы» . w3techs.com .
- ^ Архив документов. «Кодовая страница 1256 Windows на арабском языке» . docs.microsoft.com .
- ↑ Перейти обратно: Перейти обратно: а б «cp1256 в таблицу Юникода» (PDF) . www.unicode.org . Проверено 31 мая 2019 г.
- ^ Сопоставления Unicode для Windows 1256 с «наилучшим соответствием»
- ^ Кодовая страница CPGID 01256 (pdf) (PDF) , IBM
- ^ Кодовая страница CPGID 01256 (txt) , IBM
- ^ Международные компоненты для Unicode (ICU), ibm-1256_P110-1997.ucm , 3 декабря 2002 г.
- ^ Международные компоненты для Unicode (ICU), ibm-5352_P100-1998.ucm , 3 декабря 2002 г.
- ^ Международные компоненты для Unicode (ICU), ibm-9448_X100-2005.ucm , 15 ноября 2005 г.