Jump to content

МАРК-8

Кодировка MARC -8 — это стандарт MARC, используемый в записях библиотеки MARC-21 . [1] Форматы MARC являются стандартами представления и передачи библиографической и сопутствующей информации в машиночитаемой форме и часто используются в библиотечных системах баз данных . Кодировка символов, известная сейчас как MARC-8, была введена в 1968 году как часть формата MARC. Первоначально основанный на латинском алфавите , с 1979 по 1983 год инициатива JACKPHY ​​расширила репертуар, включив в него японские, арабские, китайские и еврейские символы (среди прочих), с последующим добавлением кириллицы и греческого алфавита. Если символ не может быть представлен в MARC-8 записи MARC-21, UTF-8 вместо него необходимо использовать . UTF-8 поддерживает гораздо больше символов, чем MARC-8, который редко используется вне данных библиотеки.

Технические подробности [ править ]

MARC-8 использует вариант кодировки ISO-2022 . Он использует escape-символы для представления символов, выходящих за пределы 7-битного ASCII диапазона символов .

Обычно он использует тот же логический BiDi, порядок что и Unicode .

Комбинированные символы и базовые символы расположены в другом порядке, чем в Юникоде. Ниже приведены некоторые примеры. Комбинированные символы не всегда сохраняются в порядке, обратном нормализации Юникода . Стандарт MARC-21 более подробно описывает проблемы преобразования Unicode MARC-8.

Отображается

Характер

Юникод

НФД

МАРК-8
на а́ ́ а
ах а ̣ ̂ ̂ ̣ а

Структура кода [ править ]

Кодирование ISO/IEC 2022 определяет двухуровневое сопоставление между кодами символов и отображаемыми символами. В MARC-8 коды символов из 7-битного графического диапазона ASCII (0x20–0x7F) называются кодами «G0», а коды из диапазона «высокого ASCII» (0xA0–0xFF) называются «G1». "коды. Наборы графических символов обозначаются и вызываются с помощью многобайтовой escape-последовательности, состоящей из escape-символа, промежуточной последовательности символов и конечного символа в форме ESC I F .

В следующей таблице показан промежуточный байт после байта ESC (шестнадцатеричный 1B) и соответствующие символы ASCII.

Промежуточные байты [2]
G0 установлен Набор G1
СБКС МБКС СБКС МБКС
Обычный ISO-2022 28 ( 24 $ 29 ) 24 29 $)
Альтернативный ISO-2022 (дополнительно 63+16 комплектов) , 24 2С $, 2D - 24 2Д $-

В следующей таблице показаны последние байты в шестнадцатеричном формате и соответствующие символы ASCII после промежуточных байтов.

Последние байты [2]
Байты Персонажи Имя Тип Комментарий
31 1 Китайский, японский, корейский ( EACC ) МБКС
32 2 Базовый иврит СБКС
33 3 Базовый арабский СБКС
34 4 Расширенный арабский СБКС
42 Б Базовая латиница ( ASCII ) СБКС
21 45 Расширенная латынь ( ANSEL ) СБКС Технически 21 (шестнадцатеричный) является вторым байтом промежуточного сегмента этой escape-последовательности.
Н Базовая кириллица СБКС
51 вопрос Расширенная кириллица СБКС
53 С Базовый греческий ( ISO 5428 ) СБКС

EACC — единственная многобайтовая кодировка MARC-8, она кодирует каждый символ CJK в трех байтах ASCII.

Например, для кодирования символа U+4EBA CJK (人) вам понадобятся следующие байты:

 \x1B\x24\x31\x21\x30\x64

\x1B\x24\x31 переключается на EACC/CJK, а \x21\x30\x64 соответствует U+4EBA.

Расширение пользовательского набора [ править ]

Помимо наборов символов ISO-2022, также доступны следующие пользовательские наборы. Обозначение байта следует за escape-байтом (шестнадцатеричный 1B). Промежуточного байта нет.

Последние байты [2]
Байты Персонажи Имя Тип Комментарий
62 б Набор индексов СБКС
67 г Набор греческих символов СБКС Символы альфа, бета и гамма обычно не преобразуются в Unicode.
70 п Набор надстрочных индексов СБКС
73 с Базовая латиница ( ASCII ) СБКС

Коды управления C0 [ править ]

MARC 21 использует GS (0x1D) как терминатор записи, RS (0x1E) как терминатор поля и США (0x1F) в качестве разделителя подполя. [3]

Коды управления C1 [ править ]

Следующий альтернативный набор управляющих кодов C1 определен для библиографических приложений, таких как библиотечные системы . В основном он касается сопоставления строк и разметки библиографических полей. Немного другие варианты определены в немецком стандарте DIN 31626. [4] (опубликовано в 1978 г. и снято с производства) [5] и ISO стандарт 6630 , [6] [7] последний из которых также принят в Германии как DIN ISO 6630 . [8] Если они различаются, это указано в таблице ниже, где это применимо. MARC-8 использует кодировку НСБ и NSE из этого набора и добавляет некоторые дополнительные эффекторы формата в местах, не используемых версией ISO; однако MARC 21 использует этот набор элементов управления только в записях MARC-8, а не в записях формата Unicode. [3]

При использовании механизма расширения ISO/IEC 2022 набор DIN 31626 обозначается как активный набор управляющих символов C1 с последовательностью 0x1B 0x22 0x45 ( ESC " E), [4] а набор ISO 6630/DIN ISO 6630 обозначается последовательностью 0x1B 0x22 0x42 ( ESC " B). [6] Расширение набора ISO 6630 1985 года также можно явно указать с помощью последовательности 0x1B 0x26 0x40 0x1B 0x22 0x42 ( ESC & @ ESC " B). [7]

Esc+ декабрь Шестигранник Акро Имя Описание [4] [6] [7]
Г 135 87 CUS Крупный план для сортировки (DIN 31626, ISO 6630) Заявляет, что две последовательные последовательности символов, разделенные пробелом или разделителем, должны рассматриваться как одно слово для целей сопоставления.
ЧАС 136 88 НСБ Несортирующиеся символы начинаются (DIN 31626, ISO 6630, MARC 21) Отмечает начало последовательности символов, которая игнорируется при сопоставлении. MARC 21 использует этот символ в записях MARC-8, но использует 0x98 ( SOS ) в записях Юникода для той же цели. [3] [9]
я 137 89 НШЭ Несортирующиеся символы Конец (DIN 31626, ISO 6630, MARC 21) Отмечает конец последовательности символов, которую следует игнорировать при сопоставлении. MARC 21 использует этот символ в записях MARC-8, но использует 0x9C ( ST ) в записях Юникода для той же цели. [3] [9]
Дж 138 В Персонаж-наполнитель (DIN 31626) Заменяет обязательный буквенно-цифровой символ в поле.
К 139 тИЦ Тег в индикаторе контекста (DIN 31626) Внутри библиографического поля, используется для ссылки на данные в другом библиографическом поле по его номеру тега.
ПЛД Частичное опускание линии (ISO 6630) Нет в оригинальной редакции ISO 6630. [6] В редакции ISO 6630 1985 г. [7] используется для частичного опускания линии (см. ПЛД ).
л 140 ЗДЕСЬ Идентификационный номер в индикаторе контекста (DIN 31626) Внутри библиографического поля, используется для ссылки на данные в другой библиографической записи по ее идентификационному номеру.
БОЛЕЕ Частичный состав (ISO 6630) Нет в оригинальной редакции ISO 6630. [6] В редакции ISO 6630 1985 г. [7] используется для частичного построения (см. БОЛЕЕ ).
М 141 ОСК [а] Необязательное слогирование [б] Контроль (DIN 31626) Обозначает границу слога в длинном слове. См. также мягкий дефис .
ZWJ Столяр (MARC 21) В MARC-8 используется для соединения нулевой ширины , а U+200D используется в записях MARC в формате Юникода. [3] [9]
Н 142 СС2 Односменный 2 (DIN 31626) Код переключения без блокировки, см. СС2 .
ZWNJ Не присоединившийся (MARC 21) В MARC-8 используется для необъединителя нулевой ширины , а U+200C используется в записях MARC в формате Юникода. [3] [9]
ТО 143 8F СС3 Односменный 3 (DIN 31626) Код переключения без блокировки, см. СС3 .
П 144 90 - (сдержанный)
вопрос 145 91 ЕАБ Начало встроенной аннотации (DIN 31626, ISO 6630) Отмечает начало аннотации переменной длины, которая встроена в библиографическое поле, а не отделена с помощью обозначения содержания.
Р 146 92 ЕАЭ Конец встроенной аннотации (DIN 31626, ISO 6630) Отмечает конец встроенной аннотации переменной длины.
С 147 93 ИСБ Спецификация товара (DIN 31626) Отмечает начало строки конкретной информации некоторого описания, отличного от ключевого слова или строки перестановки.
Т 148 94 ТОГДА КАК Позиция Спецификация Конец (DIN 31626) Обозначает конец строки конкретной информации.
В 149 95 СИБ Сортировка начала интерполяции (ISO 6630) Отмечает начало последовательности символов, используемой только для целей сопоставления.
V 150 96 ОНА Сортировка конца интерполяции (ISO 6630) Отмечает конец последовательности символов, используемой только для целей сопоставления.
В 151 97 ССБ Начало вторичной сортировки (ISO 6630) Отмечает начало строки с подчиненным значением сортировки.
Х 152 98 СШЭ Конец значения вторичной сортировки (ISO 6630) Отмечает конец строки с подчиненным значением сопоставления.
И 153 99 ИНК Индикатор нестандартного символа (DIN 31626) Обозначает следующий нестандартный символ.
С 154 - (сдержанный)
[ 155 - (сдержанный)
\ 156 КВБ Начало ключевого слова (DIN 31626, ISO 6630) Отмечает начало ключевого слова в библиографическом поле.
] 157 ИЗ Конец ключевого слова (DIN 31626, ISO 6630) Отмечает конец ключевого слова в библиографическом поле.
^ 158 Промсвязьбанк Начало строки перестановки (DIN 31626, ISO 6630) Отмечает начало строки, которая должна быть переставлена ​​в начало элемента при ссылок или индексов создании . Завершается PSE или концом элемента.
_ 159 9F ПОЧЕМУ Конец строки перестановки (DIN 31626, ISO 6630) Обозначает конец строки, которую необходимо переставить в переднюю часть элемента.

Примечания [ править ]

  1. ^ Не то же самое, что Команда операционной системы (OSC) в кодовом наборе ISO/IEC 6429 C1.
  2. ^ В документе ISO-IR-040 пишется «Слоговое письмо [ так в оригинале ]», а слог» пишется как «слог [ так в оригинале в описании « ]». Это предположительно опечатки.

Ссылки [ править ]

  1. ^ «Наборы символов: Введение: Спецификации MARC 21 для структуры записей, наборов символов и средств обмена (Библиотека Конгресса)» . Библиотека Конгресса .
  2. Перейти обратно: Перейти обратно: а б с «Наборы символов: среда кодирования MARC-8: спецификации MARC 21 для структуры записей, наборов символов и средств обмена (Библиотека Конгресса)» . Библиотека Конгресса .
  3. Перейти обратно: Перейти обратно: а б с д и ж «Коды функций управления» . MARC 21 Спецификации для структуры записи, наборов символов и носителей обмена . Библиотека Конгресса . 04.12.2007.
  4. Перейти обратно: Перейти обратно: а б с DIN (15 июля 1979 г.). Дополнительные коды контроля для библиографического использования в соответствии с немецким стандартом DIN 31626 (PDF) . ITSCJ/ IPSJ . ИСО-ИК -40.
  5. ^ «Обработка информации; символы библиографического контроля» . Бойт: издание DIN. DIN 31626:1978-12.
  6. Перейти обратно: Перейти обратно: а б с д и ИСО/ТК 46 (01.06.1983). Дополнительные коды контроля для библиографического использования в соответствии с международным стандартом ISO 6630 (PDF) . ITSCJ/ IPSJ . ИСО-ИК -67. {{citation}}: CS1 maint: числовые имена: список авторов ( ссылка )
  7. Перейти обратно: Перейти обратно: а б с д и ИСО/ТК 46 (1 февраля 1986 г.). Дополнительные коды контроля для библиографического использования в соответствии с международным стандартом ISO 6630 (PDF) . ITSCJ/ IPSJ . ИСО-ИК -124. {{citation}}: CS1 maint: числовые имена: список авторов ( ссылка )
  8. ^ «DIN ISO 6630, декабрь 1997 г.» . Интернет-магазин AFNOR Editions .
  9. Перейти обратно: Перейти обратно: а б с д «Кодовая таблица расширенной латиницы (ANSEL)» . MARC 21 Спецификации для структуры записи, наборов символов и носителей обмена . Библиотека Конгресса . 05.12.2007.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: fd385e28ca01bcc9f4be759de3a40d65__1712667540
URL1:https://arc.ask3.ru/arc/aa/fd/65/fd385e28ca01bcc9f4be759de3a40d65.html
Заголовок, (Title) документа по адресу, URL1:
MARC-8 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)