Пробковое кодирование

Кодировка Cork используемая (также известная как T1 или EC ) — это кодировка символов, для кодирования глифов в шрифтах . ^[1] Он назван в честь города Корк в Ирландии , где во время конференции TeX Users Group (TUG) в 1990 году была представлена новая кодировка для LaTeX . ^[1] Он содержит 256 символов, поддерживающих большинство западно- и восточноевропейских языков с латинским алфавитом . ^[2]

Подробности [ править ]

В 8-битных движках TeX кодировка шрифта должна соответствовать кодировке шаблонов расстановки переносов , где эта кодировка используется чаще всего. ^[3] В LaTeX можно переключиться на эту кодировку с помощью \usepackage[T1]{fontenc}, а в ConTeXt MkII это уже кодировка по умолчанию. В современных движках, таких как XeTeX и LuaTeX, Unicode полностью поддерживается, а 8-битные кодировки шрифтов устарели.

Набор символов [ править ]

Пробковое кодирование
	0	1	2	3	4	5	6	7	8	9	А	Б	С	Д	И	Ф
0x	` 0060	´ 00B4	ˆ 02C6	˜ 02DC	¨ 00A8	˝ 02ДД	˚ 02DA	ˇ 02C7	˘ 02D8	¯ 00AF	˙ 02D9	¸ 00B8	˛ 02ДБ	‚ 201A	‹ 2039	› 203А
1x	“ 201С	” 201Д	„ 201Е	« 00AB	» 00BB	– 2013	— 2014	ЗВСП ^[а] 200Б	₀ ^[б] 2080	я ^[с] 0131	œ ^[с] 0237	ﬀ ФБ00	быть ФБ01	ﬂ ФБ02	ﬃ ФБ03	ﬄ ФБ04
2x	СП	!	"	#	$	%	&	’ 2019	(	)	*	+	,	-	.	/
3x	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
4x	@	А	Б	С	Д	И	Ф	Г	ЧАС	я	Дж	К	л	М	Н	ТО
5x	П	вопрос	Р	С	Т	В	V	В	Х	И	С	[	\	]	^	_
6x	‘ 2018	а	б	с	д	и	ж	г	час	я	дж	к	л	м	н	тот
7x	п	д	р	с	т	в	v	В	х	и	С	{	\|	}	~	ЗАСТЕНЧИВЫЙ ^[д]
8x	Хм 0102	А 0104	Ć 0106	С 010С	Д 010E	Э 011А	Ä 0118	Ğ 011E	ù 0139	Ľ 013D	Л 0141	Н 0143	Н 0147	С 014А	ОН 0150	– 0154
9x	Р 0158	С 015А	С 0160	Ш 015E	Т 0164	Þ 0162	Ű 0170	В 016E	Ÿ 0178	С 0179	Ж 017D	З 017Б	Ĳ 0132	Я 0130	Д 0111	§ 00A7
Топор	Хм 0103	а 0105	Ч 0107	С 010D	д 010F	Э 011Б	ę 0119	г 011F	ĺ 013А	л 013E	л 0142	является 0144	нет 0148	ŋ 014Б	он 0151	к 0155
Бх	р 0159	поздно 015Б	с 0161	ш 015F	й 0165	Þ 0163	фу 0171	в 016F	ÿ 00FF	С 017А	час 017E	г 017C	ĳ 0133	¡ 00А1	¿ 00BF	£ 00А3
Сх	ИМЕЕТ	На	Â	Ã	Ä	Ой	Ой	Что	И	И	Э	Э	Я	В	вопрос	Я
Дх	Ð ^[и]	С	Ò	Ой	ЗОНТИК	ОН	ОН	О 0152	Ø	Ù	О	И	О	ИДЕЯ	че	SS ^[ф] 1Е9Е
Бывший	имеет	на	â	ã	ä	к	ой	Что	И	и	ага	ага	я	в	вопрос	я
Форекс	д	н	ò	от	Зонтик	он	он	œ 0153	ø	ты	ты	и	ты	идея	то есть	SS 00DF

Примечания [ править ]

Шестнадцатеричные значения под символами в таблице представляют собой коды символов Юникода.
Первые 12 символов часто используются как объединяющие символы .

^ 0x17 в кодировке Cork называется «меткой составного слова» (CWM) и является новшеством этого стандарта. Это невидимый символ, который разделяет сложные слова, например в немецком языке, чтобы не допускать эстетических лигатур на границах сложных слов. ^[2] Оно отображается в « пространство нулевой ширины » Юникода (ZWSP, U+200B), определенное примерно в то же время, цель которого аналогична, если не идентична.
^ 0x18 — это «маленький о», используемый для составления ‰ или ‱ (или произвольных меньших величин) из знака процента (%). ^[2]
^ Jump up to: Перейти обратно: ^а ^б Без точки i и без точки j можно использовать для составления акцентированных вариантов, таких как i с макроном (ī) .
^ 0x7F — это символ переноса, а не мягкий дефис (SHY), как это определено Unicode.
^ 0xD0 используется как Eth (Ð, U+00D0), так и как D с штрихом (Đ, U+0110), что может быть проблемой в некоторых случаях (например, копирование текста из PDF, расстановка переносов и т. д.)
^ 0xDF содержит SS (две буквы S ). Это позволяет TeX автоматически преобразовывать немецкую строчную букву ß в прописную форму.

Поддерживаемые языки [ править ]

Кодировка поддерживает большинство европейских языков, написанных латиницей. Заметными исключениями являются:

Эсперанто и мальтийский язык (с использованием IL3)
Латышский язык и литовский язык (с использованием L7X)
валлийский язык

К языкам со слегка неоптимальной поддержкой относятся:

Галисийский язык , португальский язык и испанский язык - из-за отсутствия символов ª и º , которые не являются надстрочными версиями строчных «а» и «о» (верхние индексы тоньше), и они часто подчеркиваются.
Хорватский язык , боснийский язык , сербский язык – из-за совместного использования слота для Đ
Турецкий язык - из-за отсутствия точек у меня другие комбинации прописных и строчных букв, чем в других языках.

Ссылки [ править ]

^ Jump up to: Перейти обратно: ^а ^б Петрлик, Лукас (19 июня 1996 г.). «Объяснение беспорядка с кодировкой чешских и словацких символов» . cs-кодировки-часто задаваемые вопросы . 1.10. Архивировано из оригинала 21 июня 2016 г. Проверено 21 июня 2016 г.
^ Jump up to: Перейти обратно: ^а ^б ^с Фергюсон, Майкл (1990), «Отчет о многоязычной деятельности» (PDF) , TUGboat , 11 (4): 514–516.
^ Шаблоны расстановки переносов TeX

Внешние ссылки [ править ]

[4] 0x17 в кодировке Cork называется «меткой составного слова» (CWM) и является новшеством этого стандарта. Это невидимый символ, который разделяет сложные слова, например в немецком языке, чтобы не допускать эстетических лигатур на границах сложных слов. ^[2] Оно отображается в « пространство нулевой ширины » Юникода (ZWSP, U+200B), определенное примерно в то же время, цель которого аналогична, если не идентична.

[5] 0x18 — это «маленький о», используемый для составления ‰ или ‱ (или произвольных меньших величин) из знака процента (%). ^[2]

[ij-6] Jump up to: Перейти обратно: ^а ^б Без точки i и без точки j можно использовать для составления акцентированных вариантов, таких как i с макроном (ī) .

[7] 0x7F — это символ переноса, а не мягкий дефис (SHY), как это определено Unicode.

[8] 0xD0 используется как Eth (Ð, U+00D0), так и как D с штрихом (Đ, U+0110), что может быть проблемой в некоторых случаях (например, копирование текста из PDF, расстановка переносов и т. д.)

[9] 0xDF содержит SS (две буквы S ). Это позволяет TeX автоматически преобразовывать немецкую строчную букву ß в прописную форму.

[Petrlik_1996_CS-1] Jump up to: Перейти обратно: ^а ^б Петрлик, Лукас (19 июня 1996 г.). «Объяснение беспорядка с кодировкой чешских и словацких символов» . cs-кодировки-часто задаваемые вопросы . 1.10. Архивировано из оригинала 21 июня 2016 г. Проверено 21 июня 2016 г.

[Ferguson_1990-2] Jump up to: Перейти обратно: ^а ^б ^с Фергюсон, Майкл (1990), «Отчет о многоязычной деятельности» (PDF) , TUGboat , 11 (4): 514–516.

[TeX_Hyphenation-3] Шаблоны расстановки переносов TeX

[1]

[2]

[3]

[а]

[б]

[с]

[д]

[и]

[ф]

v т и Кодировки символов
Ранние телекоммуникации	Телеграфный код Иголка Морс Нелатинский Вабун/Кана китайский Кириллица корейский Бодо и Мюррей Полевые данные ASCII ИСО/МЭК 646 BCDIC-код Телетекс и Видеотекс / Телетекст Т.51/ИСО/МЭК 6937 ИТ Т.61 ИТ Т.101 Мировая система телетекста фон наборы Перекодировать
ИСО/МЭК 8859	Утвержденные детали -1 (Западная Европа) -2 (Центральная Европа) -3 (мальтийский/эсперанто) -4 (Северная Европа) -5 (кириллица) -6 (арабский) -7 (греческий) -8 (иврит) -9 (турецкий) -10 (Скандинавия) -11 (тайский) -13 (Балтика) -14 (Селтик) -15 (Новая Западная Европа) -16 (румынский) Заброшенные части -12 (Деванагари) Предложено, но не одобрено КОИ-8 кириллица Саамы Адаптации валлийский Баренцева кириллица эстонский Украинская кириллица
Библиографическое использование	МАРК-8 АНСЕЛЬ CCII/EACC ИСО 5426 5426-2 5427 5428 6438 6862
Национальные стандарты	АрмSCII Большой5 БраSCII ЦНС 11643 DIN 66003 ЭЛОТ 927 ГОСТЬ 10859 ГБ 2312 ГБ 12345 ГБ 12052 ГБ 18030 HKSCS ИЩИС ДЖИС Х 0201 ДЖИС Х 0208 ДЖИС Х 0212 ДЖИС Х 0213 ТРЕБОВАНИЕ-7 КПС 9566 КС Х 1001 КС Х 1002 ЛСТ 1564 ЛСТ 1590-4 ПАСХА Сдвиг HE СИ 960 ТИС-620 ТСКИИ ВИСКИ VSCII ДЖОЗЕФ
ИСО/МЭК 2022	ИСО/МЭК 8859 ИСО/МЭК 10367 Расширенный код Unix/EUC
Mac OS Кодовые страницы («сценарии»)	Армянский арабский Баренцева кириллица Селтик Центральноевропейский хорватский Кириллица Деванагари Фарси (персидский) Шрифт X (Кермит) гэльский грузинский Греческий Гуджарати Гурмухи иврит Исландия Инуиты Клавиатура Латынь (Кермит) Мальтийский/Эсперанто Огам Роман румынский Саамы турецкий Тюркская кириллица Украинский ВТ100
Кодовые страницы DOS	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1034 1040 1042 1043 1044 1098 1115 1116 1117 1118 1127 3846 АБИКОМП CS Индик CSX Индик CSX+ Индикация КРИ-2 Иранская система Каменицкий Мазовия ЧТО
Кодовые страницы IBM AIX	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1046 1124 1133
Кодовые страницы Windows	ССЭР-ГС 932 936 ( ГБК ) 950 1169 Расширенная латиница-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 Кириллица + финский Кириллица + французский Кириллица + немецкий Политонический греческий
EBCDIC Кодовые страницы	Японский язык в EBCDIC ДКОИ
DEC Терминалы ( VTx )	Многонациональный (MCS) Национальная замена (NRCS) Французский канадец швейцарский испанский Великобритания Голландский финский Французский норвежский и датский Шведский Норвежский и датский (альтернативный вариант) 8-битный греческий 8-битный турецкий СИ 960 иврит Специальная графика Технический (ТКС)
Зависит от платформы	1052 1053 1054 1055 1056 1057 1058 ОС Acorn RISC Амстрад КТК Яблоко II ПРИЛОЖЕНИЯ Атари СТ БИКС Калькуляторы Касио CDC Компюколор 8001 Компюколор II КП/М+ ОСНОВАНИЕ ДЕКАБРЯ 50 ДЭК МКС / НРКС Генеральный директор по международным делам Галактика драгоценный камень GSM 03.38 HP Роман HP ФОКАЛ ХП РПЛ Сжать ЛИКС ЛМБКС MSX НЭК БТР Следующий ПЕТСКИИ Стандарт PostScript Постскриптум латиница 1 СЭМ Купе Сега СК-3000 Калькуляторы Sharp Шарп МЗ Синклер, QL Телетекст Калькуляторы TI ТРС-80 Вентура Интернэшнл ВИСЦИИ XCCS ZX80 ZX81 ZX Спектр
Юникод / ИСО/МЭК 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC ГБ 18030 ОТ 91379 БУТЫЛКА-1 ЦЭСУ-8 ЮКГУ ТАСЕ16 Сравнение кодировок Unicode
TeX Система набора текста	Корк LY1 ОМЛ ОМС OT1
Разные кодовые страницы	АБИКОМП ЦЕЛЬ 449 Цифровое кодирование символов APL ИСО-ИР-68 АРИБ СТД-B24 Полевые данные ХЗ МЭК-П27-1 РАЗДРАЖЕННЫЙ 7-битный 8-битный ИСО-ИР-169 ИСО 2033 НЕОБХОДИМЫЙ КОИ8-Р КОИ8-RU КОИ8-У Модзикё СЕЗОНЫ Стэнфорд/ИТС Символ ТРОН Единый кодекс хангыль
Управляющий персонаж	Азбука Морзе Коды управления C0 и C1 ИСО/МЭК 6429 ДЖИС Х 0211 Управляющие символы Юникода, формат и символы-разделители Пробельные символы
Связанные темы	CCSID Кодировки символов в HTML Обнаружение кодировки Ханьское объединение Кодовая страница оборудования MICR-код Моджибаке Кодирование переменной длины
Наборы символов