Jump to content

Структурированный документ

Структурированный документ — это электронный документ , в котором используется некоторый метод разметки для идентификации всего документа и его частей, имеющих различные значения, выходящие за рамки их форматирования. Например, в структурированном документе определенная часть может идентифицироваться как «название главы» (или «пример кода» или «четверостишие»), а не как «Helvetica полужирный шрифт 24» или «Курьер с отступом». Такие части обычно называют «компонентами» или «элементами» документа.

Обзор [ править ]

Структурированные документы обычно ориентированы на маркировку элементов, которые можно использовать для различных целей обработки, а не просто для форматирования. Например, явная маркировка «название главы» или «выделение» гораздо полезнее для систем для слабовидящих, чем просто «Helvetica жирный шрифт 24» или «курсив». Точно так же содержательная маркировка многих элементов в технической информации обеспечивает гораздо лучшую интеграцию с базами данных, поисковыми системами, онлайн-каталогами и т. д.

Структурированные документы обычно поддерживают как минимум иерархические структуры, например списки, а не просто элементы списков; разделы, а не просто заголовки разделов; и так далее. Это резко контрастирует с системами, ориентированными на форматирование. Высокопроизводительные системы также поддерживают несколько независимых и/или перекрывающихся наборов компонентов. [1]

Системы структурированной документации обычно позволяют создавать явные правила, определяющие типы компонентов и способы их комбинирования. Такой набор правил называется «схемой» по аналогии со схемами баз данных . Для их описания существует несколько формальных языков, таких как XSD , Relax NG и Schematron . Структурированный документ, подчиняющийся правилам схемы, обычно называют «действительным в соответствии с этой схемой». Некоторые системы также поддерживают документы с компонентами произвольных типов и комбинаций, но с синтаксическими правилами идентификации этих компонентов.

Ли и Саарела отметили, что « Стандартный обобщенный язык разметки (SGML) стал пионером концепции структурированных документов». [2] хотя более ранние системы, такие как Scribe , Augment и FRESS, потомку SGML XML- предоставляли множество функций и возможностей структурированных документов, сейчас предпочтение отдается .

Одним из очень широко используемых представлений структурированных документов является HTML , схема, определенная и описанная W3C . Однако в HTML есть не только теги для компонентов, ориентированных на смысл, таких как абзац, заголовок и код; но также и форматно-ориентированные, такие как курсив, жирный шрифт и большинство табличных. На практике HTML иногда используется как система структурированного документа, но часто используется как язык форматирования.

Многие домены используют структурированные документы посредством совместно разработанных ими специфичных для предметной области схем, таких как JATS для публикации журналов, TEI для литературных документов, UBL и EDI для делового обмена, XTCE для телеметрии космических кораблей, REST для веб-интерфейсов и многих других. Во всех этих случаях используются определенные схемы, основанные на XML .

XML — универсальный формат структурированных документов и данных в Интернете.

Структурная семантика [ править ]

При написании структурированных документов основное внимание уделяется кодированию логической структуры документа, при этом меньше или даже вообще не уделяется явной работы по его представлению людям на печатных страницах или экранах (в некоторых случаях такое использование даже не ожидается). Структурированные документы могут легко обрабатываться компьютерными системами для извлечения и представления производных форм документа. Например, в большинстве статей Википедии оглавление автоматически генерируется из различных тегов заголовков в теле документа. Поскольку преобразование Оксфордского словаря английского языка в SGML явно различает множество различных значений, связанных с использованием курсива в печатной версии, инструменты поиска могут находить записи на основе этимологии, цитат и многих других интересных особенностей. Когда HTML предоставляет структурную, а не просто форматирующую информацию, пользователи с ослабленным зрением могут легко получить более полезный интерфейс для чтения. Когда туристические компании предоставляют маршруты в виде структурированных документов, а не просто отображают их, пользовательские инструменты могут легко извлекать необходимые факты и передавать их в календарь или другие приложения.

В HTML частью логической структуры документа может быть тело документа; <body>, содержащий заголовок первого уровня; <h1>и абзац; <p>.

<body>

<h1>Structured document</h1>
<p>A <strong class="selflink">structured document</strong> is an <a href="/wiki/Electronic_document" title="Electronic document">electronic document</a> where some method of <a href="/wiki/Markup_language" title="Markup language">markup</a> is used to identify the whole and parts of the document as having various meanings beyond their formatting.</p>

</body>

Одной из наиболее привлекательных особенностей структурированных документов является то, что их можно повторно использовать во многих контекстах и ​​по-разному представлять на мобильных телефонах, экранах телевизоров, синтезаторах речи и любых других устройствах, которые можно запрограммировать для их обработки.

Другая семантика [ править ]

Другое значение можно приписать тексту, который не является «структурным» в том же смысле, что и более крупные объекты, но по-прежнему считается «структурой документа», поскольку он выражает утверждения об объеме и природе или онтологии частей документа, а не инструкции о его предъявлении. В HTML приведенном выше фрагменте <strong> элемент означает, что заключенный в нем текст является выразительным. Визуально это обычно выделяется жирным шрифтом, как и <b>; но вместо этого речевой интерфейс, скорее всего, будет использовать интонацию голоса. Термин семантическая разметка исключает разметку типа <b> который напрямую не выражает никакого значения, кроме инструкции для визуального отображения (хотя интеллектуальный агент может быть способен распознать структурное значение, скрывающееся за тегом). «Сильный» тег является «описательным» или «структурным» в том смысле, что он предназначен для обозначения абстрактного, квазилингвистического свойства его содержания, а не для описания соответствующего представления на каком-то конкретном носителе.

Некоторые другие структурные теги в HTML включают в себя <abbr>, <acronym>, <address>, <cite>, <del>, <dfn>, <ins>, <kbd>, and <q>. Другие схемы, такие как DocBook и TEI, имеют гораздо больший выбор.

Якорь <a> Тег используется для другого немного другого типа структуры, а именно для структуры взаимосвязей или перекрестных ссылок, а не для разделения интервальных секций. Это определенно структура, и фактически можно создавать альтернативную разметку для документов, которая выражает одни и те же конкретные структуры любым способом (например, используя включение для представления содержимого раздела, а не представления навигационных гиперссылок).

В HTML с самого начала также были теги, выражающие презентационную семантику, например, жирный ( <b>) или курсив ( <i>), или изменить размер шрифта , или иным образом повлиять на презентацию. [3] Современные версии языков разметки не рекомендуют такую ​​разметку в пользу описательной разметки, которая сопоставляется с конкретными презентациями с помощью таблиц стилей - метод, впервые предложенный такими системами, как Scribe и FRESS . Различные таблицы стилей могут быть прикреплены к любой разметке, семантической или презентационной, для создания различных презентаций, хотя сопоставление имени тега «курсив» с полужирным шрифтом не совсем интуитивно понятно.

Контекст и намерение [ править ]

В принципе, то, что представляет собой «структуру» и «неструктуру», может различаться. В книге, посвященной типографике, пометка чего-либо как «курсив» или «жирный» вполне может иметь решающее значение. Например, при обсуждении того, когда использовать определенные стили, скорее всего, потребуется привести примеры и контрпримеры, которые больше не будут иметь смысла, если рендеринг не синхронизирован с прозой. Аналогичным образом, конкретное издание документа может представлять интерес не только своим содержанием, но и своей типографской практикой, и в этом случае описание этой практики не только желательно, но и необходимо. Однако эта проблема не является уникальной для структуры документа; оно возникает и в грамматике при обсуждении грамматики и во многих других случаях.

См. также [ править ]

Ссылки [ править ]

  1. ^ ДеРоуз, Стивен (2004). Перекрытие разметки: обзор и лошадь . Экстремальные языки разметки, 2004. Монреаль. CiteSeerX   10.1.1.108.9959 . Проверено 14 октября 2014 г.
  2. ^ Хокон Виум Ли; Янне Саарела (1998). «Многоцелевая публикация с использованием HTML, XML и CSS» . W3.org . Ассоциация вычислительной техники .
  3. ^ «Пример экземпляра HTML» . Проверено 5 марта 2014 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4e1f72f7e01ec4d8b29890269908f131__1616854200
URL1:https://arc.ask3.ru/arc/aa/4e/31/4e1f72f7e01ec4d8b29890269908f131.html
Заголовок, (Title) документа по адресу, URL1:
Structured document - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)