Jump to content

Код индийского письма для обмена информацией

(Перенаправлено с кодовой страницы 806 )

Индийский стандартный код обмена информацией ( ISCII ) — это схема кодирования, представляющая различные системы письменности Индии . Он кодирует основные индийские письменности и римскую транслитерацию. Поддерживаются следующие алфавиты: бенгали-ассамский , деванагари , гуджарати , гурмукхи , каннада , малаялам , ория , тамильский и телугу . ISCII не кодирует системы письма Индии, основанные на персидском языке , но его коды переключения систем письма, тем не менее, обеспечивают кашмирский , синдхи , урду , персидский , пушту и арабский языки . Системы письма, основанные на персидском языке, впоследствии были закодированы в кодировке PASCII .

ISCII не получил широкого распространения за пределами некоторых правительственных учреждений, хотя существует вариант без Механизм ATR использовался в классических Mac OS , Mac OS Devanagari , [1] и теперь он в значительной степени устарел из-за Unicode . Unicode использует отдельный блок для каждой индийской системы письма и в значительной степени сохраняет макет ISCII внутри каждого блока.

Системы письма, происходящие от брахми, имеют аналогичную структуру. Таким образом, ISCII кодирует буквы с одинаковым фонетическим значением в одной и той же кодовой точке, накладываясь на различные сценарии. Например, коды ISCII 0xB3 0xDB обозначают [ki]. Это будет отображаться как കി на малаялам , कि на деванагари, как ਕਿ на гурмукхи и как கி на тамильском языке. Систему письма можно выбрать в формате форматированного текста с помощью разметки или в виде обычного текста с помощью Код ATR описан ниже.

Одной из причин использования единой кодировки является идея о том, что она позволит легко транслитерировать из одной системы письма в другую. Однако существует достаточно несовместимостей, поэтому это не совсем практичная идея.

ISCII — это 8-битная кодировка. Нижние 128 кодовых точек представляют собой простой ASCII , верхние 128 кодовых точек относятся к ISCII. В дополнение к кодовым точкам, представляющим символы, ISCII использует кодовую точку с мнемоникой. ATR , который указывает, что следующий байт содержит один из двух видов информации. Один набор значений меняет систему письма до следующего индикатора системы письма или конца строки. Другой набор значений выбирает режимы отображения, такие как полужирный и курсив. ISCII не предоставляет средств указания системы письма по умолчанию.

Макет кодовой страницы

[ редактировать ]

В следующей таблице показан набор символов для Деванагари . Наборы кодов для ассамского, бенгальского, гуджарати, гурмукхи, каннада, малаялама, ория, тамильского и телугу аналогичны, при этом каждая форма деванагари заменена эквивалентной формой в каждой системе письменности . Каждый символ отображается со своим десятичным кодом и его эквивалентом в Юникоде .

Деванагари ИСКИС
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
0x НУЛЕВОЙ СОХ СТХ И Т. Д EOT ENQ ПОДТВЕРЖДЕНИЕ БЕЛ  БС    ХТ    НЧ    ВТ    ФФ    ЧР    ТАК    И   
1x В СООТВЕТСТВИИ С DC1 DC2 DC3 DC4 ХОТЕТЬ СИН ЭТБ МОЖЕТ  В   СУБ ЭКУ  ФС    GS    РС    НАС  
2x  СП   ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ А Б С Д И Ф Г ЧАС я Дж К л М Н ТО
5x П вопрос Р С Т В V В Х И С [ \ ] ^ _
6x ' а б с д и ж г час я дж к л м н тот
7x п д р с т в v В х и С { | } ~ ПРИНАДЛЕЖАЩИЙ
8x
9x
Топор А Приходить и т. д. Э ты он долг Да А да А О
Бх О! Ой О К б с д е ж является час дж дж Т й Д
Сх й нет так й й Нет нет Пятая нота музыкальной гаммы Ф б й я этот й и
Дх р л л л И ш ш С час ИНВ ि
Бывший ATR
Форекс ЭКШН
  Неопределенный
  Ведущий байт

Специальные кодовые точки

[ редактировать ]
Символ INV — кодовая точка D9 (217).
Символ INV (невидимая согласная) используется в качестве псевдосогласной для отображения изолированных объединяемых элементов. Например, क (ка) + ् (халант) + ИНВ = क्‍ (половина ка). Эквивалент Юникода: U+200D СОЕДИНИТЕЛЬ НУЛЕВОЙ ШИРИНЫ ( ЗВЖ ). Однако, как отмечено ниже , галантный символ ISCII может быть удвоен или объединен с нукта ISCII для достижения эффектов, создаваемых ZWNJ или ZWJ в Юникоде. По этой причине Apple сопоставляет символ ISCII INV с символом Unicode. знак слева направо , чтобы гарантировать круговой обход . [1]
Символ ATR — кодовая точка EF (239).
Символ ATR (атрибут), за которым следует байтовый код, используется для переключения на другой атрибут шрифта (например, полужирный) или на другой язык ISCII или PASCII (например, бенгальский) до следующей последовательности ATR или конца символа. линия. Он не имеет прямого эквивалента в Юникоде, поскольку атрибуты шрифта не являются частью Юникода, а каждый сценарий имеет отдельный набор кодовых точек.
Презентационные атрибуты
ATR + байт Мнемоника Параметр форматирования
0x30 БЛД Смелый
0x31 ОНА Курсив
0x32 UL Подчеркивание
0x33 Опыт Расширенный
0x34 HLT Выделять
0x35 ОТЛ Контур
0x36 СХД Тень
0x37 ВЕРШИНА Верхняя половина символа (используется с LOW для создания символов двойной высоты)
0x38 НИЗКИЙ Нижняя половина символа (используется вместе с TOP для создания символов двойной высоты)
0x39 двухместный номер Вся строка имеет двойную ширину и двойную высоту.
Переход на сценарии ISCII
ATR + байт Мнемоника ISCII-скрипт
0x40 ДЕФ Сценарий по умолчанию (т. е. сценарий, на который будет переключено обратно после разрыва строки)
0x41 МРТ Романизированная транслитерация
0x42 РАЗРАБОТЧИК Деванагари
0x43 БНГ Бенгальский сценарий
0x44 ТМЛ Тамильский сценарий
0x45 ТЛГ сценарий телугу
0x46 АСМ Ассамский сценарий
0x47 ИЛИ сценарий Одиа
0x48 КНД Каннада сценарий
0x49 МЛМ сценарий малаялам
0x4A ГДР Гуджаратский сценарий
0x4B ПНЖ Гурмухи
Переход на PASCII
ATR + байт Мнемоника Локальный PASCII
0x71 АРБ арабский алфавит
0x72 ПЭС Персидский алфавит
0x73 УРД Урду алфавит
0x74 СНД Синдхский алфавит
0x75 КСМ Кашмирский алфавит
0x76 Тихоокеанское стандартное время Пуштуский алфавит
Символ EXT — кодовая точка F0 (240).
Символ EXT (расширение ведического слова), за которым следует байт-код, указывает на ведический акцент. Он не имеет прямого эквивалента в Юникоде, поскольку ведические акценты присваиваются отдельным кодовым точкам.
Халантный символ ् — кодовая точка E8 (232).
Символ халант удаляет неявную гласную из согласной и используется между согласными для обозначения соединительных согласных. Например, क (ка) + ् (халант) + त (та) = क्त (кта). Последовательность ् (халант) + ् (халант) отображает соединение с явным халантом, например क (ка) + ् (халант) + ् (халант) + त (та) = क्‌त. Последовательность ् (халант) + ़ (нукта) отображает союз с полусогласными, если таковые имеются, например क (ка) + ् (халант) + ़ (нукта) + त (та) = क्‍त.
Соответствие между ISCII и удержания/вирама поведением Unicode
ИЩИС Юникод
одиночный галант E8галантный 094D
халант + халант E8 E8Халант + ZWNJ 094D 200C
галант + точка E8 E9халант + ZWJ 094D 200D
Нукта-символ ़ — кодовая точка E9 (233).
Символ nukta после другого символа ISCII используется для ряда более редких символов, которых нет в основном наборе ISCII. Например क(ка) + ़(нукта) = क़(ка). Эти символы имеют заранее составленные формы в Юникоде, как показано в следующей таблице.
Одиночные символы Юникода, соответствующие последовательностям нукта ISCII.
ИЩИС
кодовая точка
Оригинал
характер
Характер
с нуктой
Юникод
кодовая точка
А1 (161) Ом 0950
А6 (166) и т. д. 090С
A7 (167) Э 0961
АА (176) долг 0960
Б3 (179) К вопрос 0958
Б4 (180) б к 0959
Б5 (181) с с 095А
БА (186) час я 095Б
БФ (191) Д Д 095С
С0 (192) й й 095D
С9 (201) Ф Ф 095E
БД (219) ि 0962
ДК (220) 0963
ДФ (223) 0944
ЕА (234) 093D

Кодовые страницы для преобразования ISCII

[ редактировать ]

Для преобразования Unicode (UTF-8) в кодировку ISCII/ANSI можно использовать следующие кодовые страницы:

  • 57002: Деванагари (хинди, маратхи, санскрит, конкани)
  • 57003: бенгальский
  • 57004: тамильский
  • 57005: телугу
  • 57006: Ассамский
  • 57007: Одия
  • 57008: Каннада
  • 57009: Малаялам
  • 57010: Гуджарати
  • 57011: Пенджаби (Гурмукхи)
  • 54654: gg

Кодовые точки для всех языков

[ редактировать ]
  1. ^ Jump up to: а б Apple (05 апреля 2005 г.) [05 февраля 1998 г.]. «Сопоставление (внешняя версия) кодировки Деванагари Mac OS с Unicode 2.1 и более поздних версий» . Консорциум Юникод .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 025225b968698083970f6636e8af7995__1711642080
URL1:https://arc.ask3.ru/arc/aa/02/95/025225b968698083970f6636e8af7995.html
Заголовок, (Title) документа по адресу, URL1:
Indian Script Code for Information Interchange - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)