Код индийского письма для обмена информацией
Эта статья нуждается в дополнительных цитатах для проверки . ( февраль 2022 г. ) |
Индийский стандартный код обмена информацией ( ISCII ) — это схема кодирования, представляющая различные системы письменности Индии . Он кодирует основные индийские письменности и римскую транслитерацию. Поддерживаются следующие алфавиты: бенгали-ассамский , деванагари , гуджарати , гурмукхи , каннада , малаялам , ория , тамильский и телугу . ISCII не кодирует системы письма Индии, основанные на персидском языке , но его коды переключения систем письма, тем не менее, обеспечивают кашмирский , синдхи , урду , персидский , пушту и арабский языки . Системы письма, основанные на персидском языке, впоследствии были закодированы в кодировке PASCII .
ISCII не получил широкого распространения за пределами некоторых правительственных учреждений, хотя существует вариант без Механизм ATR использовался в классических Mac OS , Mac OS Devanagari , [1] и теперь он в значительной степени устарел из-за Unicode . Unicode использует отдельный блок для каждой индийской системы письма и в значительной степени сохраняет макет ISCII внутри каждого блока.
Фон
[ редактировать ]Системы письма, происходящие от брахми, имеют аналогичную структуру. Таким образом, ISCII кодирует буквы с одинаковым фонетическим значением в одной и той же кодовой точке, накладываясь на различные сценарии. Например, коды ISCII 0xB3 0xDB обозначают [ki]. Это будет отображаться как കി на малаялам , कि на деванагари, как ਕਿ на гурмукхи и как கி на тамильском языке. Систему письма можно выбрать в формате форматированного текста с помощью разметки или в виде обычного текста с помощью Код ATR описан ниже.
Одной из причин использования единой кодировки является идея о том, что она позволит легко транслитерировать из одной системы письма в другую. Однако существует достаточно несовместимостей, поэтому это не совсем практичная идея.
ISCII — это 8-битная кодировка. Нижние 128 кодовых точек представляют собой простой ASCII , верхние 128 кодовых точек относятся к ISCII. В дополнение к кодовым точкам, представляющим символы, ISCII использует кодовую точку с мнемоникой. ATR , который указывает, что следующий байт содержит один из двух видов информации. Один набор значений меняет систему письма до следующего индикатора системы письма или конца строки. Другой набор значений выбирает режимы отображения, такие как полужирный и курсив. ISCII не предоставляет средств указания системы письма по умолчанию.
Макет кодовой страницы
[ редактировать ]В следующей таблице показан набор символов для Деванагари . Наборы кодов для ассамского, бенгальского, гуджарати, гурмукхи, каннада, малаялама, ория, тамильского и телугу аналогичны, при этом каждая форма деванагари заменена эквивалентной формой в каждой системе письменности . Каждый символ отображается со своим десятичным кодом и его эквивалентом в Юникоде .
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0x | НУЛЕВОЙ | СОХ | СТХ | И Т. Д | EOT | ENQ | ПОДТВЕРЖДЕНИЕ | БЕЛ | БС | ХТ | НЧ | ВТ | ФФ | ЧР | ТАК | И |
1x | В СООТВЕТСТВИИ С | DC1 | DC2 | DC3 | DC4 | ХОТЕТЬ | СИН | ЭТБ | МОЖЕТ | В | СУБ | ЭКУ | ФС | GS | РС | НАС |
2x | СП | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | А | Б | С | Д | И | Ф | Г | ЧАС | я | Дж | К | л | М | Н | ТО |
5x | П | вопрос | Р | С | Т | В | V | В | Х | И | С | [ | \ | ] | ^ | _ |
6x | ' | а | б | с | д | и | ж | г | час | я | дж | к | л | м | н | тот |
7x | п | д | р | с | т | в | v | В | х | и | С | { | | | } | ~ | ПРИНАДЛЕЖАЩИЙ |
8x | ||||||||||||||||
9x | ||||||||||||||||
Топор | ँ | ं | ः | А | Приходить | и т. д. | Э | ты | он | долг | Да | А | да | А | О | |
Бх | О! | Ой | О | К | б | с | д | е | ж | является | час | дж | дж | Т | й | Д |
Сх | й | нет | так | й | й | Нет | нет | Пятая нота музыкальной гаммы | Ф | б | й | я | этот | й | и | |
Дх | р | л | л | л | И | ш | ш | С | час | ИНВ | ा | ि | ी | ु | ू | ृ |
Бывший | ॆ | े | ै | ॅ | ॊ | ो | ौ | ॉ | ् | ़ | । | ATR | ||||
Форекс | ЭКШН | ० | १ | २ | ३ | ४ | ५ | ६ | ७ | ८ | ९ |
Специальные кодовые точки
[ редактировать ]- Символ INV — кодовая точка D9 (217).
- Символ INV (невидимая согласная) используется в качестве псевдосогласной для отображения изолированных объединяемых элементов. Например, क (ка) + ् (халант) + ИНВ = क् (половина ка). Эквивалент Юникода: U+200D СОЕДИНИТЕЛЬ НУЛЕВОЙ ШИРИНЫ ( ЗВЖ ). Однако, как отмечено ниже , галантный символ ISCII может быть удвоен или объединен с нукта ISCII для достижения эффектов, создаваемых ZWNJ или ZWJ в Юникоде. По этой причине Apple сопоставляет символ ISCII INV с символом Unicode. знак слева направо , чтобы гарантировать круговой обход . [1]
- Символ ATR — кодовая точка EF (239).
- Символ ATR (атрибут), за которым следует байтовый код, используется для переключения на другой атрибут шрифта (например, полужирный) или на другой язык ISCII или PASCII (например, бенгальский) до следующей последовательности ATR или конца символа. линия. Он не имеет прямого эквивалента в Юникоде, поскольку атрибуты шрифта не являются частью Юникода, а каждый сценарий имеет отдельный набор кодовых точек.
ATR + байт | Мнемоника | Параметр форматирования |
---|---|---|
0x30 | БЛД | Смелый |
0x31 | ОНА | Курсив |
0x32 | UL | Подчеркивание |
0x33 | Опыт | Расширенный |
0x34 | HLT | Выделять |
0x35 | ОТЛ | Контур |
0x36 | СХД | Тень |
0x37 | ВЕРШИНА | Верхняя половина символа (используется с LOW для создания символов двойной высоты) |
0x38 | НИЗКИЙ | Нижняя половина символа (используется вместе с TOP для создания символов двойной высоты) |
0x39 | двухместный номер | Вся строка имеет двойную ширину и двойную высоту. |
ATR + байт | Мнемоника | ISCII-скрипт |
---|---|---|
0x40 | ДЕФ | Сценарий по умолчанию (т. е. сценарий, на который будет переключено обратно после разрыва строки) |
0x41 | МРТ | Романизированная транслитерация |
0x42 | РАЗРАБОТЧИК | Деванагари |
0x43 | БНГ | Бенгальский сценарий |
0x44 | ТМЛ | Тамильский сценарий |
0x45 | ТЛГ | сценарий телугу |
0x46 | АСМ | Ассамский сценарий |
0x47 | ИЛИ | сценарий Одиа |
0x48 | КНД | Каннада сценарий |
0x49 | МЛМ | сценарий малаялам |
0x4A | ГДР | Гуджаратский сценарий |
0x4B | ПНЖ | Гурмухи |
ATR + байт | Мнемоника | Локальный PASCII |
---|---|---|
0x71 | АРБ | арабский алфавит |
0x72 | ПЭС | Персидский алфавит |
0x73 | УРД | Урду алфавит |
0x74 | СНД | Синдхский алфавит |
0x75 | КСМ | Кашмирский алфавит |
0x76 | Тихоокеанское стандартное время | Пуштуский алфавит |
- Символ EXT — кодовая точка F0 (240).
- Символ EXT (расширение ведического слова), за которым следует байт-код, указывает на ведический акцент. Он не имеет прямого эквивалента в Юникоде, поскольку ведические акценты присваиваются отдельным кодовым точкам.
- Халантный символ ् — кодовая точка E8 (232).
- Символ халант удаляет неявную гласную из согласной и используется между согласными для обозначения соединительных согласных. Например, क (ка) + ् (халант) + त (та) = क्त (кта). Последовательность ् (халант) + ् (халант) отображает соединение с явным халантом, например क (ка) + ् (халант) + ् (халант) + त (та) = क्त. Последовательность ् (халант) + ़ (нукта) отображает союз с полусогласными, если таковые имеются, например क (ка) + ् (халант) + ़ (нукта) + त (та) = क्त.
ИЩИС | Юникод | ||
---|---|---|---|
одиночный галант | E8 | галантный | 094D |
халант + халант | E8 E8 | Халант + ZWNJ | 094D 200C |
галант + точка | E8 E9 | халант + ZWJ | 094D 200D |
- Нукта-символ ़ — кодовая точка E9 (233).
- Символ nukta после другого символа ISCII используется для ряда более редких символов, которых нет в основном наборе ISCII. Например क(ка) + ़(нукта) = क़(ка). Эти символы имеют заранее составленные формы в Юникоде, как показано в следующей таблице.
ИЩИС кодовая точка | Оригинал характер | Характер с нуктой | Юникод кодовая точка |
---|---|---|---|
А1 (161) | ँ | Ом | 0950 |
А6 (166) | и т. д. | ऌ | 090С |
A7 (167) | Э | ॡ | 0961 |
АА (176) | долг | ॠ | 0960 |
Б3 (179) | К | вопрос | 0958 |
Б4 (180) | б | к | 0959 |
Б5 (181) | с | с | 095А |
БА (186) | час | я | 095Б |
БФ (191) | Д | Д | 095С |
С0 (192) | й | й | 095D |
С9 (201) | Ф | Ф | 095E |
БД (219) | ि | ॢ | 0962 |
ДК (220) | ी | ॣ | 0963 |
ДФ (223) | ृ | ॄ | 0944 |
ЕА (234) | । | ऽ | 093D |
Кодовые страницы для преобразования ISCII
[ редактировать ]Для преобразования Unicode (UTF-8) в кодировку ISCII/ANSI можно использовать следующие кодовые страницы:
- 57002: Деванагари (хинди, маратхи, санскрит, конкани)
- 57003: бенгальский
- 57004: тамильский
- 57005: телугу
- 57006: Ассамский
- 57007: Одия
- 57008: Каннада
- 57009: Малаялам
- 57010: Гуджарати
- 57011: Пенджаби (Гурмукхи)
- 54654: gg
Кодовые точки для всех языков
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б Apple (05 апреля 2005 г.) [05 февраля 1998 г.]. «Сопоставление (внешняя версия) кодировки Деванагари Mac OS с Unicode 2.1 и более поздних версий» . Консорциум Юникод .