Jump to content

Наборы символов западной латиницы (вычисления)

Несколько 8-битных наборов символов (кодировок) были разработаны для двоичного представления распространенных западноевропейских языков ( итальянского , испанского , португальского , французского , немецкого , голландского , английского , датского , шведского , норвежского и исландского ), в которых используется латинский алфавит . несколько дополнительных букв и буквы с заранее составленными диакритическими знаками , некоторыми знаками препинания и различными символами (включая некоторые греческие буквы ). Эти наборы символов также поддерживают многие другие языки, такие как малайский , суахили и классическая латынь .

Этот материал технически устарел, поскольку его функционально заменил Unicode . Однако он по-прежнему представляет исторический интерес.

Резюме [ править ]

Серия ISO-8859 наборов 8-битных символов кодирует все наборы латинских символов, используемые в Европе , хотя одни и те же кодовые точки имеют несколько применений, что вызывает некоторые трудности (включая mojibake или искаженные символы, а также проблемы со связью). Появление Unicode с уникальным кодом для каждого глифа решило эти проблемы.

История [ править ]

Более ранняя семибитная кодировка Американского стандартного кода обмена информацией (ASCII) содержит символы, достаточные для правильного представления лишь нескольких языков, таких как английский, латынь, малайский и суахили. В нем отсутствуют некоторые буквы и буквенно-диакритические комбинации, используемые в других языках с латинским алфавитом. Однако, поскольку на большинстве компьютерных платформ, поставляемых в США, не было другого выбора, использование ASCII было неизбежным, за исключением тех случаев, когда существовала сильная национальная компьютерная индустрия. Существовала группа кодировок ISO 646 , в которой некоторые символы ASCII заменялись локальными символами, но пространство было очень ограничено, а некоторые из замененных символов были довольно распространены в таких вещах, как языки программирования.

Большинство компьютеров внутренне использовали восьмибитные байты, но для связи (считающейся ненадежной по своей сути) использовалось семь бит данных плюс один бит четности . Со временем стало обычным использовать для данных все восемь битов, освобождая место еще для 128 символов. Вначале большинство из них были специфичными для конкретной системы, но постепенно появились стандарты ISO/IEC 8859 , обеспечивающие некоторое межплатформенное сходство, позволяющее осуществлять обмен информацией.

К концу 20-го века, когда стоимость хранения и памяти снизилась, проблемы, связанные с множественностью значений данного восьмибитного кода (только существует семь наборов кодов ISO-Latin), перестали быть оправданными. Все основные операционные системы перешли на Юникод в качестве основного внутреннего представления. Однако, поскольку Windows не поддерживала UTF-8 метод кодирования Unicode (предпочитая UTF-16 ), многие приложения по-прежнему были ограничены этими устаревшими наборами символов.

Знак евро [ править ]

Введение евро и связанного с ним знака евро ( ) оказало значительное давление на разработчиков компьютерных систем, заставляя их поддерживать этот новый символ, и большинство 8-битных наборов символов пришлось каким-то образом адаптировать.

  • Apple с MacRoman и Sun Microsystems с ОС Solaris просто заменили общий знак валюты ( ¤ ). В некоторых местах это вызвало трудности, поскольку организации нашли другое применение для своей кодовой точки , например, в логотипе компании.
  • ISO представила еще один вариант ISO 8859, ISO 8859-15 , в котором общий знак валюты заменен знаком евро, а также сделаны некоторые другие замены символов буквами с диакритическими знаками. ISO 8859-15 так и не получил широкого распространения.
  • В Windows-1252 Microsoft поместила знак евро в пробел ( шестнадцатеричная позиция 80 ) в существующих управляющих кодах C1 — решение, которое другие поставщики сочли контрархитектурным.

Хотя эти решения имели ограниченный эффект для документов, которые использовались только на одном компьютере (или, по крайней мере, в « цифровой экосистеме » одного поставщика), это означало, что документы, содержащие знак евро, не будут отображаться должным образом при обмене между экосистемами.

Все эти проблемы были решены, поскольку операционные системы были обновлены для поддержки Unicode стандартной , который кодирует знак евро в U+20AC (десятичное число 8364).

Сравнительная таблица [ править ]

Кодовые точки от U+ 0000 до U+007F в настоящее время не показаны в этой таблице, поскольку они напрямую отображаются во всех перечисленных здесь наборах символов. Стандарт кодирования ASCII определяет исходную спецификацию отображения первых символов 0–127.

Таблица упорядочена по кодовым точкам Unicode . Наборы символов упоминаются здесь по именам IANA в верхнем регистре .

Характер Кодовая точка ИСО-8859-1 ИСО-8859-15 ВИНДА-1252 IBM437 IBM850 МАКИНТОШ
НБСП U + 00A0 А0 А0 А0 ФФ ФФ ЧТО
¡ U + 00A1 А1 А1 А1 ОБЪЯВЛЕНИЕ ОБЪЯВЛЕНИЕ С1
¢ U + 00A2 А2 А2 А2 БД А2
£ U + 00A3 А3 А3 А3 А3
¤ U + 00A4 A4  A4  CF  
¥ U + 00A5 А5 А5 А5 БЫТЬ Б4
¦ U + 00A6 А6  А6  ДД  
§ U + 00A7 A7 A7 A7  F5 A4
¨ U + 00A8 А8  А8  F9 переменного тока
© U + 00A9 А9 А9 А9  Б8 А9
й U + 00AA АА АА АА А6 А6 ББ
« U + 00AB АБ АБ АБ НО НО С7
¬ U + 00AC переменного тока переменного тока переменного тока АА АА С2
ЗАСТЕНЧИВЫЙ U + 00AD ОБЪЯВЛЕНИЕ ОБЪЯВЛЕНИЕ ОБЪЯВЛЕНИЕ  Ф0  
® U + 00AE НО НО НО  А9 А8
¯ U + 00AF ИЗ ИЗ ИЗ  ЭЭ F8
Характер Кодовая точка ИСО-8859-1 ИСО-8859-15 ВИНДА-1252 IBM437 IBM850 МАКИНТОШ
° U + 00B0 Б0 Б0 Б0 F8 F8 А1
± U + 00B1 Б1 Б1 Б1 Ф1 Ф1 Б1
² U + 00B2 Б2 Б2 Б2 ФД ФД  
³ U + 00B3 Б3 Б3 Б3  ФК  
´ U + 00B4 Б4  Б4  ЕСЛИ АБ
м U + 00B5 Б5 Б5 Б5 Е6 Е6 Б5
U + 00B6 Б6 Б6 Б6  F4 А6
· U + 00B7 Б7 Б7 Б7 НО НО Е1
¸ U + 00B8 Б8  Б8  F7 ФК
¹ U + 00B9 Б9 Б9 Б9  ФБ  
й U + 00BA НЕТ НЕТ НЕТ A7 A7 до нашей эры
» U + 00BB ББ ББ ББ ИЗ ИЗ С8
¼ U + 00BC до нашей эры  до нашей эры переменного тока переменного тока  
½ U + 00BD БД  БД АБ АБ  
¾ U+00BE БЫТЬ  БЫТЬ  F3  
¿ U + 00BF лучший друг лучший друг лучший друг А8 А8 С0
Характер Кодовая точка ИСО-8859-1 ИСО-8859-15 ВИНДА-1252 IBM437 IBM850 МАКИНТОШ
ИМЕЕТ U + 00C0 С0 С0 С0  Б7 КБ
На U + 00C1 С1 С1 С1  Б5 E7
 U + 00C2 С2 С2 С2  Б6 Е5
à U + 00C3 С3 С3 С3  С7 СС
Ä U + 00C4 С4 С4 С4 80
Ой U + 00C5 С5 С5 С5 8F 8F 81
Ой U + 00C6 С6 С6 С6 92 92 НО
Что U + 00C7 С7 С7 С7 80 80 82
И U + 00C8 С8 С8 С8  Д4 Е9
И U + 00C9 С9 С9 С9 90 90 83
Э U+00CA ЧТО ЧТО ЧТО  Д2 Е6
Э U + 00CB КБ КБ КБ  Д3 Е8
Я U + 00CC СС СС СС  ИЗ ЭД
В U+00CD компакт-диск компакт-диск компакт-диск  Д6 советник
вопрос U + 00CE ЭТОТ ЭТОТ ЭТОТ  D7 ЭБ
Я U + 00CF CF CF CF  Д8 ЕС
Характер Кодовая точка ИСО-8859-1 ИСО-8859-15 ВИНДА-1252 IBM437 IBM850 МАКИНТОШ
Ð U + 00D0 Д0 Д0 Д0  Д1  
С U + 00D1 Д1 Д1 Д1 А5 А5 84
Ò U + 00D2 Д2 Д2 Д2  Е3 Ф1
Ой U + 00D3 Д3 Д3 Д3  Е0 ЭЭ
ЗОНТИК U + 00D4 Д4 Д4 Д4  Е2 ЕСЛИ
ОН U + 00D5 Д5 Д5 Д5  Е5 компакт-диск
ОН U + 00D6 Д6 Д6 Д6 99 99 85
× U + 00D7 D7 D7 D7   
Ø U + 00D8 Д8 Д8 Д8  ИЗ
Ù U + 00D9 Д9 Д9 Д9  ЭБ F4
О U+00ДА И И И  Е9 Ф2
И U + 00ДБ БД БД БД  советник F3
О U + 00DC округ Колумбия округ Колумбия округ Колумбия 86
ИДЕЯ U + 00DD ДД ДД ДД  ЭД  
че U + 00DE ИЗ ИЗ ИЗ  Е8  
SS U + 00DF ДФ ДФ ДФ Е1 Е1 A7
Характер Кодовая точка ИСО-8859-1 ИСО-8859-15 ВИНДА-1252 IBM437 IBM850 МАКИНТОШ
имеет U + 00E0 Е0 Е0 Е0 85 85 88
на U + 00E1 Е1 Е1 Е1 А0 А0 87
â U + 00E2 Е2 Е2 Е2 83 83 89
ã U + 00E3 Е3 Е3 Е3  С6
ä U + 00E4 Е4 Е4 Е4 84 84
к U + 00E5 Е5 Е5 Е5 86 86
ой U + 00E6 Е6 Е6 Е6 91 91 БЫТЬ
Что U + 00E7 E7 E7 E7 87 87
И U + 00E8 Е8 Е8 Е8 8F
и U + 00E9 Е9 Е9 Е9 82 82
ага U + 00EA советник советник советник 88 88 90
ага U + 00EB ЭБ ЭБ ЭБ 89 89 91
я U + 00EC ЕС ЕС ЕС 93
в U + 00ED ЭД ЭД ЭД А1 А1 92
вопрос U + 00EE ЭЭ ЭЭ ЭЭ 94
я U + 00EF ЕСЛИ ЕСЛИ ЕСЛИ 95
Характер Кодовая точка ИСО-8859-1 ИСО-8859-15 ВИНДА-1252 IBM437 IBM850 МАКИНТОШ
д U + 00F0 Ф0 Ф0 Ф0  Д0  
н U + 00F1 Ф1 Ф1 Ф1 A4 A4 96
ò U + 00F2 Ф2 Ф2 Ф2 95 95 98
от U + 00F3 F3 F3 F3 А2 А2 97
Зонтик U + 00F4 F4 F4 F4 93 93 99
он U + 00F5 F5 F5 F5  Е4
он U + 00F6 F6 F6 F6 94 94
÷ U + 00F7 F7 F7 F7 F6 F6 Д6
ø U + 00F8 F8 F8 F8  лучший друг
ты U + 00F9 F9 F9 F9 97 97
ты U + 00FA НО НО НО А3 А3
и U+00ФБ ФБ ФБ ФБ 96 96
ты U + 00FC ФК ФК ФК 81 81 9F
идея U + 00FD ФД ФД ФД  ЕС  
то есть U + 00FE ИП ИП ИП  E7  
ÿ U + 00FF ФФ ФФ ФФ 98 98 Д8
Характер Кодовая точка ИСО-8859-1 ИСО-8859-15 ВИНДА-1252 IBM437 IBM850 МАКИНТОШ
я U + 0131     Д5 F5
О U + 0152  до нашей эры   ЭТОТ
œ U + 0153  БД   CF
С U + 0160  А6    
с U + 0161  А8    
Ÿ U + 0178  БЫТЬ 9F   Д9
Ж U + 017D  Б4    
час U + 017E  Б8    
ƒ U + 0192   83 9F 9F С4
ˆ U+02C6   88   F6
ˇ U + 02C7      ФФ
˘ U + 02D8      F9
˙ U + 02D9      НО
˚ U + 02ДА      ФБ
˛ U + 02ДБ      ИП
˜ U + 02DC   98   F7
Характер Кодовая точка ИСО-8859-1 ИСО-8859-15 ВИНДА-1252 IBM437 IBM850 МАКИНТОШ
˝ U + 02DD      ФД
С U + 0393    Е2   
че U + 0398    Е9   
С U + 03A3    Е4   
Ф U + 03A6    Е8   
Ой U + 03A9    советник  БД
а U + 03B1    Е0   
д U + 03B4    ЭБ   
е U + 03B5    ЭЭ   
п U + 03C0    Е3  Б9
п U + 03C3    Е5   
т U + 03C4    E7   
ж U + 03C6    ЭД   
В+2013   96   Д0
В+2014   97   Д1
В+2017     Ф2  
Характер Кодовая точка ИСО-8859-1 ИСО-8859-15 ВИНДА-1252 IBM437 IBM850 МАКИНТОШ
В+2018   91   Д4
В+2019   92   Д5
U+201A   82   Е2
U + 201C   93   Д2
U + 201D   94   Д3
U + 201E   84   Е3
В+2020   86   А0
В+2021   87   Е0
В+2022   95   А5
U + 2026   85   С9
В +2030   89   Е4
U + 2039     округ Колумбия
U + 203A     ДД
U + 2044      И
U + 207F    ФК   
U + 20A7      
Характер Кодовая точка ИСО-8859-1 ИСО-8859-15 ВИНДА-1252 IBM437 IBM850 МАКИНТОШ
U + 20AC  A4 80  (Д5) [номер 1] [2] [3] БД
U + 2122   99   АА
U + 2202      Б6
U + 2206      С6
U + 220F      Б8
U + 2211      Б7
U + 2219    F9   
U + 221А    ФБ  С3
U + 221E    ЕС  Б0
U + 2229    ЕСЛИ   
U + 222B      НЕТ
U + 2248    F7  С5
U + 2260      ОБЪЯВЛЕНИЕ
U + 2261    Ф0   
U + 2264    F3  Б2
U + 2265    Ф2  Б3
Характер Кодовая точка ИСО-8859-1 ИСО-8859-15 ВИНДА-1252 IBM437 IBM850 МАКИНТОШ
U + 2310    А9   
U + 2320    F4   
U + 2321    F5   
U+2500    С4 С4  
U + 2502    Б3 Б3  
U+250C    И И  
U + 2510    лучший друг лучший друг  
U + 2514    С0 С0  
U + 2518    Д9 Д9  
U + 251C    С3 С3  
U + 2524    Б4 Б4  
U + 252C    С2 С2  
U + 2534    С1 С1  
U + 253C    С5 С5  
U + 2550    компакт-диск компакт-диск  
U + 2551    НЕТ НЕТ  
Характер Кодовая точка ИСО-8859-1 ИСО-8859-15 ВИНДА-1252 IBM437 IBM850 МАКИНТОШ
U + 2552    Д5   
U + 2553    Д6   
U + 2554    С9 С9  
U + 2555    Б8   
U + 2556    Б7   
U + 2557    ББ ББ  
U + 2558    Д4   
U + 2559    Д3   
U + 255А    С8 С8  
U + 255B    БЫТЬ   
U + 255C    БД   
U + 255D    до нашей эры до нашей эры  
U + 255E    С6   
U + 255F    С7   
U + 2560    СС СС  
U + 2561    Б5   
Характер Кодовая точка ИСО-8859-1 ИСО-8859-15 ВИНДА-1252 IBM437 IBM850 МАКИНТОШ
U + 2562    Б6   
U + 2563    Б9 Б9  
U + 2564    Д1   
U + 2565    Д2   
U + 2566    КБ КБ  
U + 2567    CF   
U + 2568    Д0   
U + 2569    ЧТО ЧТО  
U + 256А    Д8   
U + 256B    D7   
U + 256C    ЭТОТ ЭТОТ  
U + 2580    ДФ ДФ  
U + 2584    округ Колумбия округ Колумбия  
U + 2588    БД БД  
U + 258C    ДД   
U + 2590    ИЗ   
Характер Кодовая точка ИСО-8859-1 ИСО-8859-15 ВИНДА-1252 IBM437 IBM850 МАКИНТОШ
U + 2591    Б0 Б0  
U + 2592    Б1 Б1  
U + 2593    Б2 Б2  
U + 25A0    ИП ИП  
U + 25CA      D7
быть U+FB01      ИЗ
U+FB02      ДФ
  • Сопоставления кодовых страниц IBM взяты с сайта Unicode , предоставленного Microsoft . [ нужна ссылка ] В документе Консорциума Unicode есть ссылки на источники, показывающие различия между сопоставлениями IBM и Microsoft для этих кодовых страниц. [4]
  • IBM437 и IBM850 определили печатные символы для диапазонов управляющих кодов. Хотя их нельзя было использовать при печати текста через DOS , поскольку они были бы перехвачены до достижения экрана, их можно было использовать приложениями, которые напрямую использовали экранную память.
  • Macintosh имеет логотип Apple ⟨⟩ по адресу 0xF0 и переводит его в U+F8FF в области частного использования для Unicode.

Примечания [ править ]

  1. ^ IBM PC DOS 2000 , выпущенная в 1998 году, изменила определение кодовой страницы 850 на то, что они назвали модифицированной кодовой страницей 850, теперь включая знак евро в кодовой точке 213 вместо добавления поддержки новой кодовой страницы 858 . Причиной этого могли быть существующие ограничения в реализации логики переключения кодовых страниц в MS-DOS / PC DOS , которые ограничивали размер файлов .CPI 64 КБ или максимум шестью кодовыми страницами, ограничение, которое было обойти в некоторых OEM-версиях MS-DOS, в Windows NT , а также не существует в DR-DOS . Кроме того, анализатор в MS-DOS/PC DOS ограничивает количество возможных записей страны/кодовой страницы в файлах COUNTRY.SYS максимум до 146 или 438, ограничение, которого нет в DR-DOS. Таким образом, добавление поддержки кодовой страницы 858 могло означать одновременный отказ от другой (например, кодовой страницы 850), что в то время могло быть нежизнеспособным решением, учитывая, что некоторые приложения были запрограммированы на использование кодовой страницы 850.

Ссылки [ править ]

  1. ^ «00858» . Кодовые страницы по CPGID . ИБМ . Архивировано из оригинала 6 июня 2016 г. Проверено 6 июня 2016 г.
  2. ^ Пол, Матиас Р. (15 августа 2001 г.). «Изменение кодовых страниц во FreeDOS» (Техническое задание на основе поста fd-dev [1] ). Архивировано из оригинала 6 июня 2016 г. Проверено 6 июня 2016 г. Новый официальный идентификатор многоязычной «кодовой страницы 850 со знаком EURO» — 858, а не 850. IBM перейдет на использование 858 вместо варианта 850 в будущих выпусках своих продуктов. [...] Я могу только догадываться, почему они не добавили 858 в свои EGAx.CPI , COUNTRY.SYS и KEYBOARD.SYS файлы в PC DOS 2000 . Многие сторонние приложения предназначены для работы с 850 и не знали о 858 на момент выпуска PC DOS 2000, так что это проще для всех, но, к сожалению, это несовместимо. [...] Как объяснялось выше, COUNTRY.SYS и KEYBOARD.SYS содержат только две записи кодовой страницы для данной страны в западных выпусках DOS. (В выпусках на арабском языке и иврите может быть до 8 кодовых страниц для одной страны, теоретически не существует ограничения ниже диапазона разрешенных кодовых страниц 1..65534). [...] Проблема в том, что удаление поддержки 850 могло вызвать проблемы совместимости с приложениями, которые запрограммированы на использование 850. Добавление 858 в качестве третьего варианта ко всем файлам значительно увеличило бы размеры файлов и таблиц. Анализатор файла COUNTRY.SYS в MS-DOS/PC DOS IO.SYS / IBMBIO.COM выделяет блокнот размером 6 КБ (для DOS 6) для загрузки всей информации. Это позволяет принять максимум 438 записей в файле COUNTRY.SYS, в противном случае вы получите сообщение «COUNTRY.SYS слишком большой». Парсер NLSFUNC не имеет этого ограничения, и парсеры файлов в DR-DOS (ядро и NLSFUNC) также не знают о таком ограничении. Более старые выпуски MS-DOS/PC DOS даже имели буфер размером 2 КБ для максимум 146 записей. {{cite web}}: Внешняя ссылка в |type= ( помощь )
  3. ^ Пол, Матиас Р. (27 августа 2001 г.). «Изменение кодовых страниц во FreeDOS (продолжение)» . Архивировано из оригинала 1 октября 2014 г. Проверено 8 мая 2013 г. [...] можно также без проблем создавать собственные файлы .CPI в традиционном стиле FONT, но в таком файле можно хранить только [...] шесть кодовых страниц, если он может использоваться MS-DOS/PC. DOS (некоторые проблемы OEM и NT могут обрабатывать файлы размером более 64 КБ, а MS-DOS/PC DOS — нет).
  4. ^ «Таблицы сопоставления преобразований IBM» . Консорциум Юникод.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bf8484e42d0fc46e2aaa4f19cc716dc7__1690471860
URL1:https://arc.ask3.ru/arc/aa/bf/c7/bf8484e42d0fc46e2aaa4f19cc716dc7.html
Заголовок, (Title) документа по адресу, URL1:
Western Latin character sets (computing) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)