Анализируемый макет и текстовый объект
Эта статья нуждается в дополнительных цитатах для проверки . ( июль 2023 г. ) |
Анализируемый макет и текстовый объект ( ALTO ) — это открытая XML- схема, разработанная финансируемым ЕС проектом METAe. [1]
Стандарт изначально был разработан для описания оптического распознавания текста и информации о макете страниц оцифрованных материалов. Целью было описать макет и текст в форме, позволяющей восстановить исходный внешний вид на основе оцифрованной информации – аналогично подходу операции сохранения изображения без потерь.
ALTO часто используется в сочетании со стандартом кодирования и передачи метаданных (METS) для описания всего оцифрованного объекта и создания ссылок на файлы ALTO, например, описания последовательности чтения.
Стандарт хранится в Библиотеке Конгресса с 2010 года и поддерживается редакционной коллегией, созданной в то же время.
Со времени окончательной версии стандарта ALTO в июне 2004 года (версия 1.0) ALTO поддерживался CCS CCS Content Conversion Specialists GmbH, Гамбург, до версии 1.4.
Структура
[ редактировать ]Файл ALTO состоит из трех основных разделов, являющихся дочерними элементами корня. <alto>
элемент: [2]
<Description>
Раздел содержит метаданные о самом файле ALTO и информацию об обработке того, как файл был создан.<Styles>
раздел содержит стили текста и абзацев с их индивидуальными описаниями:<TextStyle>
есть описания шрифтов<ParagraphStyle>
содержит описания абзацев, например информацию о выравнивании
<Layout>
Раздел содержит информацию о содержимом. Он подразделяется на<Page>
элементы.
<?xml version="1.0"?>
<alto>
<Description>
<MeasurementUnit/>
<sourceImageInformation/>
<Processing/>
</Description>
<Styles>
<TextStyle/>
<ParagraphStyle/>
</Styles>
<Layout>
<Page>
<TopMargin/>
<LeftMargin/>
<RightMargin/>
<BottomMargin/>
<PrintSpace/>
</Page>
</Layout>
</alto>
Поддержка программного обеспечения
[ редактировать ]См. также
[ редактировать ]- Стандарт кодирования и передачи метаданных (METS)
- Dublin Core — стандарт метаданных ISO.
- Метаданные сохранения: стратегии реализации (PREMIS)
- Протокол Инициативы открытых архивов для сбора метаданных (OAI-PMH)
- HOCR
- СТРАНИЦА (XML)
Ссылки
[ редактировать ]- ^ Стехно, Биргит; Эггер, Александр; Ретти, Грегор (апрель 2003 г.). «METAe — автоматическое кодирование оцифрованных текстов». Литературно-лингвистическая информатика . 18 (1): 77–88. дои : 10.1093/llc/18.1.77 .
- ^ Структура файлов ALTO.
Внешние ссылки
[ редактировать ]- Стандарты ALTO (анализируемый макет и текстовый объект) на веб-сайте Библиотеки Конгресса
- https://altoxml.github.io/ соответственно. https://github.com/altoxml ALTOxml на GitHub
- Дополнительная информация о METS/ALTO от CCS GmbH
- Введение METS ALTO от CCS GmbH. Архивировано 4 сентября 2014 г. в Wayback Machine.
- XSLT-преобразования из и в ALTO