МАРК-8
Кодировка MARC -8 — это стандарт MARC, используемый в записях библиотеки MARC-21 . [1] Форматы MARC являются стандартами представления и передачи библиографической и сопутствующей информации в машиночитаемой форме и часто используются в библиотечных системах баз данных . Кодировка символов, известная сейчас как MARC-8, была введена в 1968 году как часть формата MARC. Первоначально основанный на латинском алфавите , с 1979 по 1983 год инициатива JACKPHY расширила репертуар, включив в него японские, арабские, китайские и еврейские символы (среди прочих), с последующим добавлением кириллицы и греческого алфавита. Если символ не может быть представлен в MARC-8 записи MARC-21, UTF-8 вместо него необходимо использовать . UTF-8 поддерживает гораздо больше символов, чем MARC-8, который редко используется вне данных библиотеки.
Технические подробности [ править ]
MARC-8 использует вариант кодировки ISO-2022 . Он использует escape-символы для представления символов, выходящих за пределы 7-битного ASCII диапазона символов .
Обычно он использует тот же логический BiDi, порядок что и Unicode .
Комбинированные символы и базовые символы расположены в другом порядке, чем в Юникоде. Ниже приведены некоторые примеры. Комбинированные символы не всегда сохраняются в порядке, обратном нормализации Юникода . Стандарт MARC-21 более подробно описывает проблемы преобразования Unicode MARC-8.
Отображается
Характер |
Юникод | МАРК-8 |
---|---|---|
на | а́ | ́ а |
ах | а ̣ ̂ | ̂ ̣ а |
Структура кода [ править ]
Кодирование ISO/IEC 2022 определяет двухуровневое сопоставление между кодами символов и отображаемыми символами. В MARC-8 коды символов из 7-битного графического диапазона ASCII (0x20–0x7F) называются кодами «G0», а коды из диапазона «высокого ASCII» (0xA0–0xFF) называются «G1». "коды. Наборы графических символов обозначаются и вызываются с помощью многобайтовой escape-последовательности, состоящей из escape-символа, промежуточной последовательности символов и конечного символа в форме ESC I F .
В следующей таблице показан промежуточный байт после байта ESC (шестнадцатеричный 1B) и соответствующие символы ASCII.
G0 установлен | Набор G1 | |||||||
---|---|---|---|---|---|---|---|---|
СБКС | МБКС | СБКС | МБКС | |||||
Обычный ISO-2022 | 28 | ( | 24 | $ | 29 | ) | 24 29 | $) |
Альтернативный ISO-2022 (дополнительно 63+16 комплектов) | 2С | , | 24 2С | $, | 2D | - | 24 2Д | $- |
В следующей таблице показаны последние байты в шестнадцатеричном формате и соответствующие символы ASCII после промежуточных байтов.
Байты | Персонажи | Имя | Тип | Комментарий |
---|---|---|---|---|
31 | 1 | Китайский, японский, корейский ( EACC ) | МБКС | |
32 | 2 | Базовый иврит | СБКС | |
33 | 3 | Базовый арабский | СБКС | |
34 | 4 | Расширенный арабский | СБКС | |
42 | Б | Базовая латиница ( ASCII ) | СБКС | |
21 45 | !И | Расширенная латынь ( ANSEL ) | СБКС | Технически 21 (шестнадцатеричный) является вторым байтом промежуточного сегмента этой escape-последовательности. |
4Е | Н | Базовая кириллица | СБКС | |
51 | вопрос | Расширенная кириллица | СБКС | |
53 | С | Базовый греческий ( ISO 5428 ) | СБКС |
EACC — единственная многобайтовая кодировка MARC-8, она кодирует каждый символ CJK в трех байтах ASCII.
Например, для кодирования символа U+4EBA CJK (人) вам понадобятся следующие байты:
\x1B\x24\x31\x21\x30\x64
\x1B\x24\x31 переключается на EACC/CJK, а \x21\x30\x64 соответствует U+4EBA.
Расширение пользовательского набора [ править ]
Помимо наборов символов ISO-2022, также доступны следующие пользовательские наборы. Обозначение байта следует за escape-байтом (шестнадцатеричный 1B). Промежуточного байта нет.
Байты | Персонажи | Имя | Тип | Комментарий |
---|---|---|---|---|
62 | б | Набор индексов | СБКС | |
67 | г | Набор греческих символов | СБКС | Символы альфа, бета и гамма обычно не преобразуются в Unicode. |
70 | п | Набор надстрочных индексов | СБКС | |
73 | с | Базовая латиница ( ASCII ) | СБКС |
Коды управления C0 [ править ]
MARC 21 использует GS (0x1D) как терминатор записи, RS (0x1E) как терминатор поля и США (0x1F) в качестве разделителя подполя. [3]
Коды управления C1 [ править ]
Следующий альтернативный набор управляющих кодов C1 определен для библиографических приложений, таких как библиотечные системы . В основном он касается сопоставления строк и разметки библиографических полей. Немного другие варианты определены в немецком стандарте DIN 31626. [4] (опубликовано в 1978 г. и снято с производства) [5] и ISO стандарт 6630 , [6] [7] последний из которых также принят в Германии как DIN ISO 6630 . [8] Если они различаются, это указано в таблице ниже, где это применимо. MARC-8 использует кодировку НСБ и NSE из этого набора и добавляет некоторые дополнительные эффекторы формата в местах, не используемых версией ISO; однако MARC 21 использует этот набор элементов управления только в записях MARC-8, а не в записях формата Unicode. [3]
При использовании механизма расширения ISO/IEC 2022 набор DIN 31626 обозначается как активный набор управляющих символов C1 с последовательностью 0x1B 0x22 0x45
( ESC " E
), [4] а набор ISO 6630/DIN ISO 6630 обозначается последовательностью 0x1B 0x22 0x42
( ESC " B
). [6] Расширение набора ISO 6630 1985 года также можно явно указать с помощью последовательности 0x1B 0x26 0x40 0x1B 0x22 0x42
( ESC & @ ESC " B
). [7]
Esc+ | декабрь | Шестигранник | Акро | Имя | Описание [4] [6] [7] |
---|---|---|---|---|---|
Г | 135 | 87 | CUS | Крупный план для сортировки | (DIN 31626, ISO 6630) Заявляет, что две последовательные последовательности символов, разделенные пробелом или разделителем, должны рассматриваться как одно слово для целей сопоставления. |
ЧАС | 136 | 88 | НСБ | Несортирующиеся символы начинаются | (DIN 31626, ISO 6630, MARC 21) Отмечает начало последовательности символов, которая игнорируется при сопоставлении. MARC 21 использует этот символ в записях MARC-8, но использует 0x98 ( SOS ) в записях Юникода для той же цели. [3] [9] |
я | 137 | 89 | НШЭ | Несортирующиеся символы Конец | (DIN 31626, ISO 6630, MARC 21) Отмечает конец последовательности символов, которую следует игнорировать при сопоставлении. MARC 21 использует этот символ в записях MARC-8, но использует 0x9C ( ST ) в записях Юникода для той же цели. [3] [9] |
Дж | 138 | 8А | В | Персонаж-наполнитель | (DIN 31626) Заменяет обязательный буквенно-цифровой символ в поле. |
К | 139 | 8Б | тИЦ | Тег в индикаторе контекста | (DIN 31626) Внутри библиографического поля, используется для ссылки на данные в другом библиографическом поле по его номеру тега. |
ПЛД | Частичное опускание линии | (ISO 6630) Нет в оригинальной редакции ISO 6630. [6] В редакции ISO 6630 1985 г. [7] используется для частичного опускания линии (см. ПЛД ). | |||
л | 140 | 8С | ЗДЕСЬ | Идентификационный номер в индикаторе контекста | (DIN 31626) Внутри библиографического поля, используется для ссылки на данные в другой библиографической записи по ее идентификационному номеру. |
БОЛЕЕ | Частичный состав | (ISO 6630) Нет в оригинальной редакции ISO 6630. [6] В редакции ISO 6630 1985 г. [7] используется для частичного построения (см. БОЛЕЕ ). | |||
М | 141 | 8Д | ОСК [а] | Необязательное слогирование [б] Контроль | (DIN 31626) Обозначает границу слога в длинном слове. См. также мягкий дефис . |
ZWJ | Столяр | (MARC 21) В MARC-8 используется для соединения нулевой ширины , а U+200D используется в записях MARC в формате Юникода. [3] [9] | |||
Н | 142 | 8Е | СС2 | Односменный 2 | (DIN 31626) Код переключения без блокировки, см. СС2 . |
ZWNJ | Не присоединившийся | (MARC 21) В MARC-8 используется для необъединителя нулевой ширины , а U+200C используется в записях MARC в формате Юникода. [3] [9] | |||
ТО | 143 | 8F | СС3 | Односменный 3 | (DIN 31626) Код переключения без блокировки, см. СС3 . |
П | 144 | 90 | - | (сдержанный) | |
вопрос | 145 | 91 | ЕАБ | Начало встроенной аннотации | (DIN 31626, ISO 6630) Отмечает начало аннотации переменной длины, которая встроена в библиографическое поле, а не отделена с помощью обозначения содержания. |
Р | 146 | 92 | ЕАЭ | Конец встроенной аннотации | (DIN 31626, ISO 6630) Отмечает конец встроенной аннотации переменной длины. |
С | 147 | 93 | ИСБ | Спецификация товара | (DIN 31626) Отмечает начало строки конкретной информации некоторого описания, отличного от ключевого слова или строки перестановки. |
Т | 148 | 94 | ТОГДА КАК | Позиция Спецификация Конец | (DIN 31626) Обозначает конец строки конкретной информации. |
В | 149 | 95 | СИБ | Сортировка начала интерполяции | (ISO 6630) Отмечает начало последовательности символов, используемой только для целей сопоставления. |
V | 150 | 96 | ОНА | Сортировка конца интерполяции | (ISO 6630) Отмечает конец последовательности символов, используемой только для целей сопоставления. |
В | 151 | 97 | ССБ | Начало вторичной сортировки | (ISO 6630) Отмечает начало строки с подчиненным значением сортировки. |
Х | 152 | 98 | СШЭ | Конец значения вторичной сортировки | (ISO 6630) Отмечает конец строки с подчиненным значением сопоставления. |
И | 153 | 99 | ИНК | Индикатор нестандартного символа | (DIN 31626) Обозначает следующий нестандартный символ. |
С | 154 | 9А | - | (сдержанный) | |
[ | 155 | 9Б | - | (сдержанный) | |
\ | 156 | 9С | КВБ | Начало ключевого слова | (DIN 31626, ISO 6630) Отмечает начало ключевого слова в библиографическом поле. |
] | 157 | 9Д | ИЗ | Конец ключевого слова | (DIN 31626, ISO 6630) Отмечает конец ключевого слова в библиографическом поле. |
^ | 158 | 9Е | Промсвязьбанк | Начало строки перестановки | (DIN 31626, ISO 6630) Отмечает начало строки, которая должна быть переставлена в начало элемента при ссылок или индексов создании . Завершается PSE или концом элемента. |
_ | 159 | 9F | ПОЧЕМУ | Конец строки перестановки | (DIN 31626, ISO 6630) Обозначает конец строки, которую необходимо переставить в переднюю часть элемента. |
Примечания [ править ]
- ^ Не то же самое, что Команда операционной системы (OSC) в кодовом наборе ISO/IEC 6429 C1.
- ^ В документе ISO-IR-040 пишется «Слоговое письмо [ так в оригинале ]», а слог» пишется как «слог [ так в оригинале в описании « ]». Это предположительно опечатки.
Ссылки [ править ]
- ^ «Наборы символов: Введение: Спецификации MARC 21 для структуры записей, наборов символов и средств обмена (Библиотека Конгресса)» . Библиотека Конгресса .
- ↑ Перейти обратно: Перейти обратно: а б с «Наборы символов: среда кодирования MARC-8: спецификации MARC 21 для структуры записей, наборов символов и средств обмена (Библиотека Конгресса)» . Библиотека Конгресса .
- ↑ Перейти обратно: Перейти обратно: а б с д и ж «Коды функций управления» . MARC 21 Спецификации для структуры записи, наборов символов и носителей обмена . Библиотека Конгресса . 04.12.2007.
- ↑ Перейти обратно: Перейти обратно: а б с DIN (15 июля 1979 г.). Дополнительные коды контроля для библиографического использования в соответствии с немецким стандартом DIN 31626 (PDF) . ITSCJ/ IPSJ . ИСО-ИК -40.
- ^ «Обработка информации; символы библиографического контроля» . Бойт: издание DIN. DIN 31626:1978-12.
- ↑ Перейти обратно: Перейти обратно: а б с д и ИСО/ТК 46 (01.06.1983). Дополнительные коды контроля для библиографического использования в соответствии с международным стандартом ISO 6630 (PDF) . ITSCJ/ IPSJ . ИСО-ИК -67.
{{citation}}
: CS1 maint: числовые имена: список авторов ( ссылка ) - ↑ Перейти обратно: Перейти обратно: а б с д и ИСО/ТК 46 (1 февраля 1986 г.). Дополнительные коды контроля для библиографического использования в соответствии с международным стандартом ISO 6630 (PDF) . ITSCJ/ IPSJ . ИСО-ИК -124.
{{citation}}
: CS1 maint: числовые имена: список авторов ( ссылка ) - ^ «DIN ISO 6630, декабрь 1997 г.» . Интернет-магазин AFNOR Editions .
- ↑ Перейти обратно: Перейти обратно: а б с д «Кодовая таблица расширенной латиницы (ANSEL)» . MARC 21 Спецификации для структуры записи, наборов символов и носителей обмена . Библиотека Конгресса . 05.12.2007.
Внешние ссылки [ править ]
- Спецификации MARC 21 для структуры записей, наборов символов и средств обмена — официальный стандарт MARC-8, поддерживаемый Библиотекой Конгресса США.