Пробковое кодирование
Эта статья в значительной степени или полностью опирается на один источник . ( ноябрь 2012 г. ) |
( Кодировка Cork также известная как T1 или EC ) — это кодировка символов, используемая для кодирования глифов в шрифтах . [1] Он назван в честь города Корк в Ирландии , где во время конференции TeX Users Group (TUG) в 1990 году была представлена новая кодировка для LaTeX . [1] Он содержит 256 символов, поддерживающих большинство западно- и восточноевропейских языков с латинским алфавитом . [2]
Подробности [ править ]
В 8-битных движках TeX кодировка шрифта должна соответствовать кодировке шаблонов расстановки переносов , где эта кодировка используется чаще всего. [3] В LaTeX можно переключиться на эту кодировку с помощью \usepackage[T1]{fontenc}
, а в ConTeXt MkII это уже кодировка по умолчанию. В современных движках, таких как XeTeX и LuaTeX, Unicode полностью поддерживается, а 8-битные кодировки шрифтов устарели.
Набор символов [ править ]
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0x | ` 0060 |
´ 00B4 |
ˆ 02C6 |
˜ 02DC |
¨ 00A8 |
˝ 02ДД |
˚ 02DA |
ˇ 02C7 |
˘ 02D8 |
¯ 00AF |
˙ 02D9 |
¸ 00B8 |
˛ 02ДБ |
‚ 201A |
‹ 2039 |
› 203А |
1x | “ 201С |
” 201Д |
„ 201Е |
« 00AB |
» 00BB |
– 2013 |
— 2014 |
ЗВСП [а] 200Б |
₀ [б] 2080 |
я [с] 0131 |
œ [с] 0237 |
ff ФБ00 |
быть ФБ01 |
fl ФБ02 |
ffi ФБ03 |
ffl ФБ04 |
2x | СП | ! | " | # | $ | % | & | ’ 2019 |
( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | А | Б | С | Д | И | Ф | г | ЧАС | я | Дж | К | л | М | Н | О |
5x | п | вопрос | р | С | Т | В | V | В | Икс | И | С | [ | \ | ] | ^ | _ |
6x | ‘ 2018 |
а | б | с | д | Это | ж | г | час | я | дж | к | л | м | н | О |
7x | п | д | р | с | т | в | v | В | Икс | и | С | { | | | } | ~ | ЗАСТЕНЧИВЫЙ [д] |
8x | Хм 0102 |
А 0104 |
Ć 0106 |
С 010С |
Д 010E |
Э 011А |
Ä 0118 |
Г 011E |
ù 0139 |
Ľ 013D |
Л 0141 |
Н 0143 |
Н 0147 |
С 014А |
ОН 0150 |
– 0154 |
9x | р 0158 |
С 015А |
С 0160 |
С 015E |
Т 0164 |
Þ 0162 |
Ű 0170 |
В 016E |
Ÿ 0178 |
С 0179 |
Ж 017D |
З 017Б |
IJ 0132 |
Я 0130 |
Д 0111 |
§ 00A7 |
Топор | Хм 0103 |
а 0105 |
Ч 0107 |
С 010D |
д 010F |
Э 011Б |
ę 0119 |
г 011F |
ĺ 013А |
л 013E |
л 0142 |
является 0144 |
нет 0148 |
ŋ 014Б |
Он 0151 |
к 0155 |
Бх | р 0159 |
поздно 015Б |
с 0161 |
с 015F |
й 0165 |
Þ 0163 |
фу 0171 |
в 016F |
ÿ 00FF |
С 017А |
час 017E |
г 017C |
ij 0133 |
¡ 00А1 |
¿ 00BF |
£ 00А3 |
Сх | ИМЕЕТ | На | Â | Ã | Ä | Ой | Ой | Что | И | И | Э | Э | Я | В | вопрос | Я |
Дх | Ð [Это] | С | Ò | Ой | ЗОНТИК | ОН | ОН | О 0152 |
Ø | Ù | О | И | О | ИДЕЯ | че | SS [ф] 1Е9Е |
Бывший | имеет | на | â | ã | ä | к | ой | Что | И | Это | ага | е | я | в | вопрос | я |
Форекс | д | н | ò | от | Зонтик | Он | он | œ 0153 |
ø | ты | ты | и | ты | идея | то есть | SS 00DF |
Примечания [ править ]
- Шестнадцатеричные значения под символами в таблице представляют собой коды символов Юникода.
- Первые 12 символов часто используются как объединяющие символы .
- ^ 0x17 в кодировке Cork называется «знак составного слова» (CWM) и является новшеством этого стандарта. Это невидимый символ, разделяющий сложные слова, например в немецком языке, чтобы не допускать эстетических лигатур на границах сложных слов. [2] » Юникода Оно отображается в « пространство нулевой ширины (ZWSP, U+200B), определенное примерно в то же время, цель которого аналогична, если не идентична.
- ^ 0x18 — это «маленький о», используемый для составления ‰ или ‱ (или произвольных меньших величин) из знака процента (%). [2]
- ^ Перейти обратно: а б Без точки i и без точки j можно использовать для составления акцентированных вариантов, таких как i с макроном (ī) .
- ^ 0x7F — это символ переноса, а не мягкий дефис (SHY), как это определено Unicode.
- ^ 0xD0 используется как Eth (Ð, U+00D0), так и как D с штрихом (Đ, U+0110), что может быть проблемой в некоторых случаях (например, копирование текста из PDF, расстановка переносов и т. д.)
- ^ 0xDF содержит SS (две буквы S ). Это позволяет TeX автоматически преобразовывать немецкую строчную букву ß в прописную форму.
Поддерживаемые языки [ править ]
Кодировка поддерживает большинство европейских языков, написанных латиницей. Заметными исключениями являются:
- Эсперанто и мальтийский язык (с использованием IL3)
- Латышский язык и литовский язык (с использованием L7X)
- Уэльский язык
К языкам со слегка неоптимальной поддержкой относятся:
- Галисийский язык , португальский язык и испанский язык - из-за отсутствия символов ª и º , которые не являются надстрочными версиями строчных «а» и «о» (верхние индексы тоньше), и они часто подчеркиваются.
- Хорватский язык , боснийский язык , сербский язык – из-за совместного использования слота для Đ
- Турецкий язык - из-за отсутствия точек у меня другие комбинации прописных и строчных букв, чем в других языках.
Ссылки [ править ]
- ^ Перейти обратно: а б Петрлик, Лукас (19 июня 1996 г.). «Объяснение беспорядка с кодировкой чешских и словацких символов» . cs-кодировки-часто задаваемые вопросы . 1.10. Архивировано из оригинала 21 июня 2016 г. Проверено 21 июня 2016 г.
- ^ Перейти обратно: а б с Фергюсон, Майкл (1990), «Отчет о многоязычной деятельности» (PDF) , TUGboat , 11 (4): 514–516.
- ^ Шаблоны расстановки переносов TeX