~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ BAF55287598937A62EB7B687F1214B79__1714931940 ✰
Заголовок документа оригинал.:
✰ UTF-EBCDIC - Wikipedia ✰
Заголовок документа перевод.:
✰ UTF-EBCDIC — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/UTF-EBCDIC ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/ba/79/baf55287598937a62eb7b687f1214b79.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/ba/79/baf55287598937a62eb7b687f1214b79__translat.html ✰
Дата и время сохранения документа:
✰ 15.06.2024 20:11:54 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 5 May 2024, at 20:59 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

UTF-EBCDIC — Википедия Jump to content

UTF-EBCDIC

Из Википедии, бесплатной энциклопедии
UTF-EBCDIC
Сделано ИБМ
Определения Технический отчет Unicode № 16
На основе UTF-8
Преобразует/кодирует Юникод

UTF-EBCDIC — это кодировка символов, способная кодировать все 1 112 064 допустимых кодовых точки символов в Юникоде, используя от 1 до 5 байтов (в отличие от максимума 4 для UTF-8 ). [1] Он предназначен для поддержки EBCDIC , чтобы устаревшие приложения EBCDIC на мэйнфреймах могли обрабатывать символы без особых затруднений. Его преимущества для существующих систем на основе EBCDIC аналогичны UTF-8 преимуществам для существующих систем на основе ASCII . Подробности о UTF-EBCDIC определены в Техническом отчете Unicode № 16.

Для создания версии серии кодовых точек Unicode в кодировке UTF-EBCDIC сначала применяется кодировка на основе UTF-8 (известная в спецификации как UTF-8-Mod) (создавая то, что в спецификации называется последовательностью I8). Основное различие между этой кодировкой и UTF-8 заключается в том, что она позволяет использовать кодовые точки Unicode. U + 0080 через U+009F ( коды управления C1 ) должны быть представлены в виде одного байта и, следовательно, позже сопоставлены с соответствующими кодами управления EBCDIC. Чтобы добиться этого, UTF-8-Mod использует 101xxxxxx вместо 10xxxxxx как формат конечных байтов в многобайтовой последовательности. Поскольку он может содержать только 5 бит, а не 6, кодировка UTF-8-Mod приведенных выше кодовых точек U+03FF больше, чем кодировка UTF-8.

Преобразование UTF-8-Mod оставляет данные в формате ASCII (например, U+0041 «A» по-прежнему кодируется как 0x41 ), поэтому каждый байт проходит через обратимую (один-к-одному) справочную таблицу для получения окончательной кодировки UTF-EBCDIC. Например, 0x41 в этой таблице соответствует 0xC1 ; таким образом, кодировка UTF-EBCDIC U+0041 (буква Юникода «А») — это 0xC1 (EBCDIC «A»).

UTF-EBCDIC используется редко, даже на мэйнфреймах на базе EBCDIC, для которых он был разработан. Операционные системы для мэйнфреймов на базе IBM EBCDIC, такие как z/OS , обычно используют UTF-16 для полной поддержки Unicode. Например, IBM Db2 , COBOL , PL/I , Java и набор инструментов IBM XML поддерживают UTF-16 на мэйнфреймах IBM.

Макет кодовой страницы [ править ]

В UTF-EBCDIC содержится 160 символов с однобайтовой кодировкой (по сравнению со 128 в UTF-8). Как видно, однобайтовая часть аналогична IBM-1047 вместо IBM-37 из-за расположения квадратных скобок. CCSID 37 имеет [] в шестнадцатеричных BA и BB вместо шестнадцатеричных AD и BD соответственно.

UTF-EBCDIC
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
0x НУЛЕВОЙ СОХ СТХ И Т. Д СТ ХТ ССА ПРИНАДЛЕЖАЩИЙ Агентство по охране окружающей среды РИ СС2 ВТ ФФ ЧР ТАК И
1x В СООТВЕТСТВИИ С DC1 DC2 DC3 ОСК НЧ БС ЧТО МОЖЕТ В ПУ2 СС3 ФС GS РС НАС
2x ПАД ПРЫГАТЬ ДГПЖ НБХ В В ЭТБ ЭКУ ХТС ХТДЖ СУДС ПЛД БОЛЕЕ ENQ ПОДТВЕРЖДЕНИЕ БЕЛ
3x DCS ПУ1 СИН СТС КСН МВт СПА EOT SOS СИГИ SCI CSI DC4 ХОТЕТЬ ВЕЧЕРА СУБ
4x  СП   . < ( + |
5x & ! $ * ) ; ^
6x - / , % _ > ?
7x 2 2 2 2 2 ` : # @ ' = "
8x 2 а б с д Это ж г час я 2 2 2 2 2 2
9x 2 дж к л м н О п д р 2 2 2 2 2 2
Топор 2 ~ с т в v В Икс и С 2 2 2 [ 2 2
Бх 2 2 2 2 2 2 2 3 3 3 3 3 3 ] 3 3
Сх { А Б С Д И Ф г ЧАС я 3 3 3 3 3 3
Дх } Дж К л М Н О п вопрос р 3 3 4 4 4 4
Бывший \ 4 С Т В V В Икс И С 4 4 4 5 5
Форекс 0 1 2 3 4 5 6 7 8 9 БТР
 Начальные байты для последовательности из такого количества байтов. Подсказка показывает наименьшую кодовую точку, закодированную с использованием этого начального байта.
  Начальный байт, в котором не все комбинации байтов продолжения допустимы, либо потому, что это недопустимая слишком длинная форма (подсказка показывает кодовую точку первой допустимой последовательности), либо потому, что он кодирует кодовую точку, большую, чем U+10FFFF.
 Байты продолжения. Подсказка показывает шестнадцатеричное значение пяти добавляемых битов.
 Неиспользуемые, включая ведущие байты, которые могут начинать только недопустимую слишком длинную форму. Например, 0x76, потому что даже 0x76 0x73 (который соответствует последовательности UTF-8-Mod 0xC2 0xBF) будет просто слишком длинной кодировкой U+005F (правильно закодированной как UTF-8-Mod 0x5F, UTF-EBCDIC 0x6D).

Oracle UTFE [ править ]

Oracle UTFE Unicode 3.0 UTF-8 — это вариант базы данных Oracle , аналогичный варианту UTF -8 CESU-8 , где дополнительные символы кодируются как два 4-байтовых символа, а не как один 4- или 5-байтовый символ. Он используется только на платформах EBCDIC. [2]

См. также [ править ]

Ссылки [ править ]

  1. ^ «UTR № 16: UTF-EBCDIC» . www.unicode.org . Проверено 23 февраля 2021 г. Вам необходимо выполнить поиск не более пяти байтов (семи байтов, если рассматривать полный диапазон в 31 бит ISO/IEC 10646) назад.
  2. ^ Бэрд, Кэти; Чиба, Дэн; Чу, Уинсон; Фан, Джессика; Хо, Клэр; Закон, Саймон; Ли, Джефф; Линсли, Питер; Мацуда, Кени; Оскрофт, Тэмзин; Такеда, Сиге; Танака, Лайнус; Тозава, Макото; Это правда, Барри; Цудзимото, Маюми; Ву, Ин; Яу, Майкл; Ю, Тим; Ван, Чао; Вонг, Саймон; Чжан, Вейран; Чжэн, Лэй; Чжу, Ян; Мур, Валари (2002) [1996]. «Приложение A: Региональные данные». Руководство по поддержке глобализации баз данных Oracle9i (PDF) (выпуск 2 (9.2) ред.). Корпорация Оракл . Оракул A96529-01. Архивировано (PDF) из оригинала 14 февраля 2017 г. Проверено 14 февраля 2017 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: BAF55287598937A62EB7B687F1214B79__1714931940
URL1:https://en.wikipedia.org/wiki/UTF-EBCDIC
Заголовок, (Title) документа по адресу, URL1:
UTF-EBCDIC - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)