Пробковое кодирование
Эта статья в значительной степени или полностью опирается на один источник . ( ноябрь 2012 г. ) |
Кодировка Cork используемая (также известная как T1 или EC ) — это кодировка символов, для кодирования глифов в шрифтах . [1] Он назван в честь города Корк в Ирландии , где во время конференции TeX Users Group (TUG) в 1990 году была представлена новая кодировка для LaTeX . [1] Он содержит 256 символов, поддерживающих большинство западно- и восточноевропейских языков с латинским алфавитом . [2]
Подробности [ править ]
В 8-битных движках TeX кодировка шрифта должна соответствовать кодировке шаблонов расстановки переносов , где эта кодировка используется чаще всего. [3] В LaTeX можно переключиться на эту кодировку с помощью \usepackage[T1]{fontenc}
, а в ConTeXt MkII это уже кодировка по умолчанию. В современных движках, таких как XeTeX и LuaTeX, Unicode полностью поддерживается, а 8-битные кодировки шрифтов устарели.
Набор символов [ править ]
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0x | ` 0060 | ´ 00B4 | ˆ 02C6 | ˜ 02DC | ¨ 00A8 | ˝ 02ДД | ˚ 02DA | ˇ 02C7 | ˘ 02D8 | ¯ 00AF | ˙ 02D9 | ¸ 00B8 | ˛ 02ДБ | ‚ 201A | ‹ 2039 | › 203А |
1x | “ 201С | ” 201Д | „ 201Е | « 00AB | » 00BB | – 2013 | — 2014 | ЗВСП [а] 200Б | ₀ [б] 2080 | я [с] 0131 | œ [с] 0237 | ff ФБ00 | быть ФБ01 | fl ФБ02 | ffi ФБ03 | ffl ФБ04 |
2x | СП | ! | " | # | $ | % | & | ’ 2019 | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | А | Б | С | Д | И | Ф | Г | ЧАС | я | Дж | К | л | М | Н | ТО |
5x | П | вопрос | Р | С | Т | В | V | В | Х | И | С | [ | \ | ] | ^ | _ |
6x | ‘ 2018 | а | б | с | д | и | ж | г | час | я | дж | к | л | м | н | тот |
7x | п | д | р | с | т | в | v | В | х | и | С | { | | | } | ~ | ЗАСТЕНЧИВЫЙ [д] |
8x | Хм 0102 | А 0104 | Ć 0106 | С 010С | Д 010E | Э 011А | Ä 0118 | Ğ 011E | ù 0139 | Ľ 013D | Л 0141 | Н 0143 | Н 0147 | С 014А | ОН 0150 | – 0154 |
9x | Р 0158 | С 015А | С 0160 | Ш 015E | Т 0164 | Þ 0162 | Ű 0170 | В 016E | Ÿ 0178 | С 0179 | Ж 017D | З 017Б | IJ 0132 | Я 0130 | Д 0111 | § 00A7 |
Топор | Хм 0103 | а 0105 | Ч 0107 | С 010D | д 010F | Э 011Б | ę 0119 | г 011F | ĺ 013А | л 013E | л 0142 | является 0144 | нет 0148 | ŋ 014Б | он 0151 | к 0155 |
Бх | р 0159 | поздно 015Б | с 0161 | ш 015F | й 0165 | Þ 0163 | фу 0171 | в 016F | ÿ 00FF | С 017А | час 017E | г 017C | ij 0133 | ¡ 00А1 | ¿ 00BF | £ 00А3 |
Сх | ИМЕЕТ | На | Â | Ã | Ä | Ой | Ой | Что | И | И | Э | Э | Я | В | вопрос | Я |
Дх | Ð [и] | С | Ò | Ой | ЗОНТИК | ОН | ОН | О 0152 | Ø | Ù | О | И | О | ИДЕЯ | че | SS [ф] 1Е9Е |
Бывший | имеет | на | â | ã | ä | к | ой | Что | И | и | ага | ага | я | в | вопрос | я |
Форекс | д | н | ò | от | Зонтик | он | он | œ 0153 | ø | ты | ты | и | ты | идея | то есть | SS 00DF |
Примечания [ править ]
- Шестнадцатеричные значения под символами в таблице представляют собой коды символов Юникода.
- Первые 12 символов часто используются как объединяющие символы .
- ^ 0x17 в кодировке Cork называется «меткой составного слова» (CWM) и является новшеством этого стандарта. Это невидимый символ, который разделяет сложные слова, например в немецком языке, чтобы не допускать эстетических лигатур на границах сложных слов. [2] Оно отображается в « пространство нулевой ширины » Юникода (ZWSP, U+200B), определенное примерно в то же время, цель которого аналогична, если не идентична.
- ^ 0x18 — это «маленький о», используемый для составления ‰ или ‱ (или произвольных меньших величин) из знака процента (%). [2]
- ^ Jump up to: Перейти обратно: а б Без точки i и без точки j можно использовать для составления акцентированных вариантов, таких как i с макроном (ī) .
- ^ 0x7F — это символ переноса, а не мягкий дефис (SHY), как это определено Unicode.
- ^ 0xD0 используется как Eth (Ð, U+00D0), так и как D с штрихом (Đ, U+0110), что может быть проблемой в некоторых случаях (например, копирование текста из PDF, расстановка переносов и т. д.)
- ^ 0xDF содержит SS (две буквы S ). Это позволяет TeX автоматически преобразовывать немецкую строчную букву ß в прописную форму.
Поддерживаемые языки [ править ]
Кодировка поддерживает большинство европейских языков, написанных латиницей. Заметными исключениями являются:
- Эсперанто и мальтийский язык (с использованием IL3)
- Латышский язык и литовский язык (с использованием L7X)
- валлийский язык
К языкам со слегка неоптимальной поддержкой относятся:
- Галисийский язык , португальский язык и испанский язык - из-за отсутствия символов ª и º , которые не являются надстрочными версиями строчных «а» и «о» (верхние индексы тоньше), и они часто подчеркиваются.
- Хорватский язык , боснийский язык , сербский язык – из-за совместного использования слота для Đ
- Турецкий язык - из-за отсутствия точек у меня другие комбинации прописных и строчных букв, чем в других языках.
Ссылки [ править ]
- ^ Jump up to: Перейти обратно: а б Петрлик, Лукас (19 июня 1996 г.). «Объяснение беспорядка с кодировкой чешских и словацких символов» . cs-кодировки-часто задаваемые вопросы . 1.10. Архивировано из оригинала 21 июня 2016 г. Проверено 21 июня 2016 г.
- ^ Jump up to: Перейти обратно: а б с Фергюсон, Майкл (1990), «Отчет о многоязычной деятельности» (PDF) , TUGboat , 11 (4): 514–516.
- ^ Шаблоны расстановки переносов TeX