Перекрывающаяся разметка

В языках разметки и цифровых гуманитарных науках перекрытие происходит , когда документ имеет две или более структуры, которые взаимодействуют неиерархически . Документ с перекрывающейся разметкой не может быть представлен в виде дерева . Это также известно как параллельная разметка . Перекрытие происходит, например, в поэзии , где может быть метрическая структура стоп и строк; языковая структура предложений и цитат; физическая структура томов, страниц и редакционных аннотаций. ^[1]^[2]

История

Структурные различия между несколькими изданиями *«Франкенштейна»* были проанализированы с использованием пересекающихся методов. ^[3]

Проблема неиерархической структуры документов признана с 1988 года; разрешение этой проблемы в соответствии с доминирующей парадигмой текста как единой иерархии ( упорядоченной иерархии объектов контента или OHCO ) изначально считалось просто технической проблемой, но на самом деле оказалось гораздо сложнее. ^[4] В 2008 году Джени Теннисон определила перекрытие разметки как «основную проблемную область для технологов разметки». ^[5] Перекрытие разметки по-прежнему остается основной проблемой в цифровом изучении богословских текстов в 2019 году и является основной причиной сохранения в этой области специализированных форматов разметки — Информационного стандарта Открытого Писания и языка богословской разметки — вместо совместимого кодирования текста . Инициативные форматы, общие для остальных цифровых гуманитарных наук . ^[6]

Свойства и типы

Существует различие между схемами, допускающими несмежное перекрытие, и схемами, допускающими только непрерывное перекрытие. Часто «перекрытие разметки» строго означает последнее. Непрерывное перекрытие всегда можно представить как линейный документ с вехами (обычно совмещенными маркерами начала и конца) без необходимости фрагментации (логического) компонента на несколько физических. Несмежное перекрытие может потребовать фрагментации документа. Еще одно различие в перекрывающихся схемах разметки заключается в том, могут ли элементы перекрываться с другими элементами того же типа ( self-overlap ). ^[2]

Схема может иметь привилегированную иерархию. Некоторые схемы на основе XML , например, представляют одну иерархию непосредственно в дереве документа XML, а другие, перекрывающиеся структуры представляют другими способами; они называются непривилегированными .

Шмидт (2012) выделяет трехстороннюю классификацию случаев перекрытия: 1. «Вариации содержания и структуры», 2. «Наложение нескольких точек зрения или наборов разметки» и 3. «Перекрытие отдельных начальных и конечных тегов в одной разметке». перспектива"; кроме того, некоторые очевидные случаи перекрытия на самом деле представляют собой проблемы определения схемы, которые можно решить иерархически. Он утверждает, что тип 1 лучше всего решается с помощью системы множества документов, внешних по отношению к разметке, но типы 2 и 3 требуют внутренней обработки.

Подходы и реализации

ДеРоуз (2004 , Критерии оценки) выделяет несколько критериев для оценки решений проблемы перекрытия:

читаемость и ремонтопригодность,
поддержка инструментов и совместимость с XML,
возможные схемы проверки и
простота обработки.

Суп тегов , строго говоря, не является перекрывающейся разметкой — это искаженный HTML , который является непересекающимся языком и может быть плохо определен. Некоторые веб-браузеры пытались представить перекрывающиеся начальный и конечный теги с помощью неиерархических объектных моделей документов (DOM), но это не было стандартизировано для всех браузеров и было несовместимо с изначально иерархической природой DOM. ^[7]^[8] HTML5 определяет, как процессоры должны обращаться с такой неправильной вложенной разметкой в синтаксисе HTML и превращать ее в единую иерархию. ^[9] Однако в HTML на основе XHTML и SGML неправильное вложение разметки является строгой ошибкой и делает невозможным обработку в системах, соответствующих стандартам. ^[10] Стандарт HTML определяет концепцию абзаца , которая может перекрываться с другими элементами и может быть несмежной. ^[11]

SGML , на котором основывались ранние версии HTML, имеет функцию CONCUR, которая позволяет сосуществовать нескольким независимым иерархиям без привилегий. Проверка DTD определяется только для каждой отдельной иерархии с помощью CONCUR. Проверка в иерархиях не определяется стандартом. CONCUR не поддерживает самоперекрытие и плохо взаимодействует с некоторыми аббревиатурами SGML. Эта функция плохо поддерживается инструментами и практически не используется; Согласно комментарию редактора стандарта, использование CONCUR для представления перекрытия документов не было рекомендуемым вариантом использования. ^[12]^[13]

Внутри иерархических языков

Существует несколько подходов к представлению перекрытия в непересекающемся языке. ^[14] Text Encoding Initiative , как схема разметки на основе XML, не может напрямую представлять перекрывающуюся разметку. Предлагаются все четыре из приведенных ниже подходов. ^[15] Информационный стандарт Открытого Писания — это еще одна схема, основанная на XML, предназначенная для разметки Библии . Он использует пустые элементы вех для кодирования непривилегированных компонентов. ^[16]

разметка предложений и строк фрагмента «Ричарда III» Уильяма Шекспира Для иллюстрации этих подходов в качестве рабочего примера будет использоваться . Там, где существует привилегированная иерархия, будут использоваться линии.

Несколько документов

Каждый из нескольких документов может обеспечивать разные внутренне согласованные иерархии. Преимущество этого подхода заключается в том, что каждый документ прост и может обрабатываться с помощью существующих инструментов, но требует сохранения избыточного контента, и может быть сложно создать перекрестные ссылки между различными представлениями. ^[17] При наличии нескольких документов перекрытие можно проанализировать с помощью методов сравнения данных и дельта-кодирования , а в контексте XML доступны специальные алгоритмы дифференцирования деревьев XML. ^[18]^[19]

Шмидт (2012 , 3.5 Вариация) рекомендует этот подход для кодирования нескольких вариантов одного текста и допускать дублирование частей, которые не изменяются, вместо того, чтобы пытаться создать структуру, которая представляет все имеющиеся варианты; кроме того, он предлагает, чтобы это выравнивание выполнялось автоматически и что смещение на практике встречается редко. ^[20]

Пример с размеченными строками:

  <line>I, by attorney, bless thee from thy mother,</line>
  <line>Who prays continually for Richmond's good.</line>
  <line>So much for that.—The silent hours steal on,</line>
  <line>And flaky darkness breaks within the east.</line>

С выделенными предложениями:

  <sentence>I, by attorney, bless thee from thy mother,
  Who prays continually for Richmond's good.</sentence>
  <sentence>So much for that.</sentence><sentence>—The silent hours steal on,
  And flaky darkness breaks within the east.</sentence>

Вехи

Вехи — это пустые элементы, которые отмечают начало и конец компонента, обычно с использованием механизма XML ID, чтобы указать, какой «начальный» элемент соответствует какому «конечному» элементу. Вехи могут использоваться для внедрения непривилегированной структуры в иерархический язык. В своей базовой форме они могут представлять собой только непрерывное перекрытие. Общий XML, конечно, может анализировать элементы вехи, но не понимает их особого значения и поэтому не может легко обрабатывать или проверять непривилегированную структуру. ^[21]^[22]

Преимущество Milestone заключается в том, что разметка перекрывающихся элементов располагается прямо на соответствующих границах, как и другая разметка. Это преимущество для удобства сопровождения и читаемости. ^[23] CLIX ( DeRose 2004 ) является примером такого подхода.

Пример:

  <line><sentence-start />I, by attorney, bless thee from thy mother,</line>
  <line>Who prays continually for Richmond's good.<sentence-end /></line>
  <line><sentence-start />So much for that.<sentence-end /><sentence-start />—The silent hours steal on,</line>
  <line>And flaky darkness breaks within the east.<sentence-end /></line>

Пунктуация и пробелы были идентифицированы как тип «криптоперекрытия» или «псевдоразметки» в стиле вех, поскольку границы слов, предложений, предложений и т.п. не обязательно совпадают с формальными границами разметки иерархически. ^[24]^[25]

Также возможно использовать более сложные вехи для представления несмежных структур. Например, семантика TAGML «приостановить» и «возобновить». ^[26] можно выразить с помощью вех, например, добавив атрибут, указывающий, представляет ли каждая веха начальную, приостановку, возобновление или конечную точку. Переупорядочения и даже самоперекрытия можно добиться аналогичным образом, аннотируя каждую веху ссылкой на «следующий фрагмент».

Присоединяется

Объединения — это указатели внутри привилегированной иерархии на другие компоненты привилегированной иерархии, которые могут использоваться для восстановления непривилегированного компонента, аналогично следованию связанному списку . Один непривилегированный элемент сегментируется на несколько частичных элементов в привилегированной иерархии; частичные элементы сами по себе не представляют собой единую единицу в непривилегированной иерархии, что может ввести в заблуждение и затруднить обработку. ^[27]^[28] Хотя этот подход может поддерживать некоторые несмежные структуры, он не позволяет переупорядочивать элементы. ^[29] Однако немного другой подход может выражать переупорядочение, выражая соединение вне содержимого, за счет прямоты и удобства сопровождения. ^[30]

Представления на основе соединений могут ввести возможность циклов между элементами; их обнаружение и отклонение усложняет реализацию. ^[31]

Пример:

  <line><sentence id="a">I, by attorney, bless thee from thy mother,</sentence></line>
  <line><sentence continues="a">Who prays continually for Richmond's good.</sentence></line>
  <line><sentence id="b">So much for that.</sentence><sentence id="c">—The silent hours steal on,</sentence></line>
  <line><sentence continues="c">And flaky darkness breaks within the east.</sentence></line>

Разметка противостояния

Отдельная разметка аналогична использованию объединений, за исключением того, что привилегированная иерархия может отсутствовать: каждой части документа присваивается метка (или на нее может ссылаться смещение), а структура документа выражается путем указания на содержимое. из разметки, которая «отделяется» от контента (возможно, в совершенно другом файле) и может не содержать самого контента. В рекомендациях TEI единство элементов определяется как основное преимущество изолированной разметки перед соединениями, а также возможность создавать и распространять аннотации отдельно от текста, возможно, даже разными авторами, применяющими разметку к документу, доступному только для чтения. ^[32] позволяя использовать совместные подходы к разметке с помощью стратегии «разделяй и властвуй» . ^[33]

Пример:

  <span id="a">I, by attorney, bless thee from thy mother,</span>
  <span id="b">Who prays continually for Richmond's good.</span>
  <span id="c">So much for that.</span><span id="d">—The silent hours steal on,</span>
  <span id="e">And flaky darkness breaks within the east.</span>
  ...
  <line contents="a" />
  <line contents="b" />
  <line contents="c d" />
  <line contents="e" />
  <sentence contents="a b" />
  <sentence contents="c" />
  <sentence contents="d e" />

Утверждалось, что разделение разметки и текста может привести к общему упрощению и повышению удобства сопровождения. ^[34] а к 2017 году «[текущий] уровень техники для [представления] (...) лингвистически аннотированных данных заключается в использовании графического представления, сериализованного как отдельный XML, в качестве основного формата», ^[35] то есть такое противостояние было наиболее широко распространенным подходом к решению проблемы перекрывающейся разметки.

Формализмы противостояния легли в основу стандарта ISO для лингвистических аннотаций. ^[36] они успешно применяются при разработке систем управления корпусом, ^[37] и (по состоянию на апрель 2020 г.) они активно разрабатываются в ТЭИ. ^[38] Один из опубликованных примеров успешной схемы изолированных аннотаций был разработан в рамках проекта по битекстовой документации на естественном языке, ориентированного на сохранение языков с ограниченными ресурсами или находящихся под угрозой исчезновения. ^[39]

Проблемы

Представление перекрывающейся разметки в иерархических языках является сложной задачей из-за избыточности и/или сложности. В 2000–2010-х годах формализм противостояния считался здесь наиболее перспективным подходом. ^[35] но недостатком противостояния является то, что проверка очень сложна. ^[40] Формализмы Standoff изначально не поддерживаются системами управления базами данных, поэтому (к 2017 году) было предложено «использовать... Standoff XML в качестве основного формата (...) и реляционных баз данных для запросов». ^[35] В практических приложениях это требует сложной архитектуры и/или трудоемкого преобразования между сводным форматом и внутренним представлением. В результате обслуживание становится проблематичным. ^[41] Это послужило мотивацией для разработки систем управления корпусами на основе графовых баз данных и использования устоявшихся формализмов на основе графов в качестве основных форматов.

Языки специального назначения

Для реализации вышеупомянутых стратегий можно либо расширить существующие языки разметки (такие как TEI), либо разработать языки специального назначения. Чтобы разработать совершенно новый язык разметки, позвольте отказаться ^{[ непонятно ]} поддержка инструмента на существующих языках для менее сложной семантической модели и более удобного синтаксиса.

Исторические формализмы

LMNL — это неиерархический язык разметки, впервые описанный в 2002 году Джени Теннисон и Венделлом Пьесом , который аннотирует диапазоны документа свойствами и допускает самоперекрытие. CLIX , который первоначально расшифровывался как «Канонический LMNL в XML», предоставляет метод представления любого документа LMNL в XML-документе в стиле вехи. ^[42] Он также имеет еще одну XML-сериализацию — xLMNL. ^[43]
MECS был разработан Бергенского университета Архивом Витгенштейна . Однако у него было несколько проблем: он допускал некоторые бессмысленные документы с перекрывающимися элементами, не мог поддерживать самоперекрытие и не имел возможности определять грамматику, подобную DTD. ^[44] Теория общих ациклических графов с упорядоченным потомком (GODDAG), хотя и не является строго языком разметки, представляет собой общую модель данных для неиерархической разметки. Ограниченные GODDAG были разработаны специально для соответствия семантике MECS; общие GODDAG могут быть несмежными и нуждаться в более мощном языке. ^[45] TexMECS является преемником MECS, который имеет формальную грамматику и предназначен для представления всех GODDAG и ничего, что не является GODDAG. ^[46]
XCONCUR (ранее MuLaX) представляет собой объединение XML и CONCUR SGML, а также содержит язык проверки XCONCUR-CL и SAX -подобный API. ^[47]^[48]^[49]
Маринелли, Витали и Закчироли разработали алгоритмы для преобразования между ограниченными GODDAG, ECLIX, LMNL, параллельными документами в XML, непрерывной разметкой и TexMECS. ^[50]

Ни один из этих формализмов, похоже, больше не поддерживается. Похоже, что консенсусное сообщество использует противоположный XML или формализм на основе графов.

Активно поддерживаемые языки XML противостояния

ГрАФ-XML, ^[51] сериализация Standoff-XML структуры лингвистических аннотаций (LAF), ^[36] используется, например, для Американского национального корпуса ^[52]
ПАУЛА-XML, ^[53] сериализация Standoff-XML модели данных, лежащей в основе системы управления корпусом ANNIS и пакета конвертеров SALT ^[54]
NAF (формат аннотаций NLP/формат аннотаций программы чтения новостей), ^[55] формат Standoff XML, первоначально разработанный в проекте NewsReader (FP7, 2013–2015 гг.). ^[56]), в настоящее время используется инструментами НЛП, такими как FreeLing ^[57] (с поддержкой английского, испанского, португальского, итальянского, французского, немецкого, русского, каталанского, галисийского, хорватского, словенского и т. д.) и EusTagger ^[58] (с поддержкой баскского, английского, испанского языков).
закодирован Критический архив Чарльза Харпура с использованием «мультиверсионных документов» (MVD) для представления различных версий документов и в качестве средства указания добавлений, удалений и исправлений с использованием тактической комбинации нескольких документов и диапазонов отклонений в базовом документе. графовая модель. MVD представлен как формат файла приложения, для просмотра или редактирования которого требуются специальные инструменты. ^[59]
Схема Standoff XML была разработана совместными усилиями Odin , Intent и XigtEdit , которая ориентирована на большой набор данных межлинейного глянцевого текста (IGT) для поддержки проектов ресурсов и документации на естественном языке. ^[60]

Подходы противостояния состоят из двух частей, обычно называемых «содержанием» и «аннотациями». Они могут быть выражены в несвязанных представлениях. Простые аннотации противостояния сами по себе включают не более чем список пар (местоположение, тип). Таким образом, в нескольких приложениях ^{[ нужен пример ]} аннотации противостояния выражаются в CSV, JSON (-LD ) или других представлениях (например, веб-аннотации ^[61]) или формализмы графов, основанные на строковых URI (см. ниже). Однако представление и проверка контента в таких представлениях гораздо сложнее и встречается гораздо реже.

Формализмы на основе графов

В разметке Standoff используется модель данных, основанная на ориентированных графах. ^[62] тем самым усложняя его представление при закреплении информации разметки в дереве. Представление перекрывающихся иерархий на графике устраняет эту проблему. Таким образом, аннотации противостояния могут быть более адекватно представлены в виде обобщенных направленных мультиграфов и использовать формализмы и технологии, разработанные для этой цели, в первую очередь те, которые основаны на структуре описания ресурсов (RDF) . ^[63]^[64] EARMARK — это раннее представление RDF / OWL , которое включает в себя общие ациклические графы с упорядоченным потомком (GODDAG). ^[14] Теория GODDAG, хотя и не является строго языком разметки, представляет собой общую модель данных для неиерархической разметки.

RDF — это семантическая модель данных, независимая от линеаризации, которая обеспечивает различные линеаризации, включая формат XML ( RDF/XML ), который можно смоделировать для отражения контрастного XML, линеаризацию, которая позволяет выражать RDF в атрибутах XML ( RDFa ), формат JSON ( JSON-LD ) и двоичные форматы, предназначенные для облегчения запросов или обработки (RDF-HDT, ^[65] РДФ-Бережливость ^[66]). RDF семантически эквивалентен графовым моделям данных, лежащим в основе разметки противостояния; он не требует специальной технологии для хранения, анализа и запросов. Несколько взаимосвязанных файлов RDF, представляющих документ или корпус, представляют собой пример лингвистически связанных открытых данных .

Общепринятым методом связывания произвольных графов с аннотированным документом является использование URI идентификаторов фрагментов для ссылки на части текста и/или документа, см. обзор в разделе Веб-аннотации . Стандарт веб-аннотаций предоставляет «селекторы» для конкретного формата в качестве дополнительных средств, например, селекторы на основе смещения, совпадения строк или XPath. ^[67]

Собственные словари RDF, способные представлять лингвистические аннотации, включают: ^[68]

Веб-аннотации ^[69]
Формат обмена НЛП (NIF) ^[70]
Формат обмена LAPPS (LIF) ^[71]

Связанные словари включают в себя

POWLA, сериализация PAULA-XML OWL2/DL ^[72]
RDF-NAF, RDF-сериализация формата аннотаций NLP. ^[73]

В начале 2020 года группа сообщества W3C LD4LT запустила инициативу по гармонизации этих словарей и разработке консолидированного словаря RDF для лингвистических аннотаций в Интернете. ^[74]

Примечания

^ Инициатива по кодированию текста .
^ Перейти обратно: ^а ^б ДеРоуз 2004 , Типы проблем.
^ По состоянию на 2014 год .
^ Ренер, Милонас и Дюран 1993 .
^ Tennison 2008 .
^ Моё сердце 2019 .
^ Хиксон 2002 .
^ Сивонен 2003 .
^ HTML , § 8.2.8 Введение в обработку ошибок и странные случаи в парсере .
^ Сперберг-Маккуин и Хуитфельдт 2000 , 2.1. Нотации, отличные от SGML.
^ HTML , § 3.2.5.4 Параграфы .
^ Сперберг-МакКуин и Хуитфельдт 2000 , 2.2. СОГЛАСЕН.
^ ДеРоуз 2004 , SGML CONCUR.
^ Перейти обратно: ^а ^б Ди Иорио, Перони и Витали 2009 .
^ Инициатива по кодированию текста , § 20 Неиерархические структуры .
^ Дурусау 2006 .
^ Инициатива по кодированию текста , § 20.1 Множественное кодирование одной и той же информации .
^ Шмидт 2009 .
^ Фонтан 2016 .
^ Шмидт 2012 , 4.1 Автоматизация изменений.
^ Инициатива по кодированию текста , § 20.2 Маркировка границ пустыми элементами .
^ Сперберг-МакКуин и Хуитфельдт 2000 , 2.4. Вехи.
^ ДеРоуз 2004 , Вехи в стиле TEI.
^ Бирнбаум и Торсен 2015 .
^ Хентьенс Деккер и Бирнбаум, 2017 .
^ Обложка 2018 года .
^ Инициатива по кодированию текста , § 20.3 Фрагментация и восстановление виртуальных элементов .
^ ДеРоуз 2004 , Сегментация.
^ Сперберг-МакКуин и Хуитфельдт 2000 , 2.5. Фрагментация.
^ ДеРоуз 2004 , Присоединяется.
^ Шмидт 2012 , 3.4 Взаимосвязь.
^ Инициатива по кодированию текста , § 20.4 Отдельная разметка .
^ Шмидт 2012 , 4.2 Разметка вне текста.
^ Эггерт и Шмидт 2019 , Заключение.
^ Перейти обратно: ^а ^б ^с Иде и др. 2017 , стр.99.
^ Перейти обратно: ^а ^б «ИСО 24612:2012» .
^ Кьяркос и др. 2008 год .
^ «Противостояние: микроструктура аннотации · Выпуск № 1745 · TEIC/TEI» . Гитхаб .
^ Ся, Ф., Льюис, В.Д., Гудман, М.В. и др. Пополнение огромной многоязычной базы данных подстрочного глянцевого текста. Lang Resources & Evaluation 50, 321–349 (2016). https://doi.org/10.1007/s10579-015-9325-4
^ Сперберг-МакКуин и Хуитфельдт 2000 , 2.6. Разметка противостояния.
^ ДеРоуз 2004 , Разметка противостояния.
^ ДеРоуз 2004 , CLIX и LMNL.
^ К 2012 году .
^ Сперберг-МакКуин и Хуитфельдт 2000 , 2.7. МЭКС.
^ Сперберг-МакКуин и Хуитфельдт 2000 .
^ Хуитфельдт и Сперберг-МакКуин 2003 .
^ Гильберт, Шонефельд и Витт 2005 .
^ Витт и др. 2007 .
^ Шенефельд 2008 .
^ Маринелли, Виталий и Закчироли 2008 .
^ «ИСО ГрАФ» . 7 марта 2015 г.
^ "Дом" . anc.org .
^ https://www.sfb632.uni-potsdam.de/en/paula.html. ^{[ только URL ]}
^ Зипсер, Флориан (18 ноября 2016 г.). "Соль" . body-tools.org. дои : 10.5281/zenodo.17557 . Проверено 11 сентября 2022 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ «НАФ» . Гитхаб . 30 июня 2021 г.
^ «Построение структурированных индексов событий больших объемов финансово-экономических данных для принятия решений» . Информационная служба общественных исследований и разработок (CORDIS) .
^ «Главная страница — Домашняя страница FreeLing» . Архивировано из оригинала 29 апреля 2012 г. Проверено 6 апреля 2020 г.
^ «Анализ текста | HiTZ Центр» .
^ Эггерт и Шмидт 2019 .
^ Ся, Ф., Льюис, В.Д., Гудман, М.В. и др. Пополнение огромной многоязычной базы данных подстрочного глянцевого текста. Lang Resources & Evaluation 50, 321–349 (2016). https://doi.org/10.1007/s10579-015-9325-4
^ «Модель данных веб-аннотаций» . 23 февраля 2017 г.
^ Иде и Судерман 2007 .
^ Кэссиди 2010 , Кэссиди.
^ Кьяркос 2012 , POWLA.
^ "Дом" . rdfhdt.org .
^ «Двоичный файл RDF с использованием Apache Thrift» .
^ «Селекторы и состояния» . 23 февраля 2017 г.
^ Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные. Представление, генерация и приложения . Чам: Спрингер.
^ Верспур, Карин; Ливингстон, Кевин (2012). «К адаптации лингвистических аннотаций к формализмам научных аннотаций в семантической сети» . Материалы шестого семинара по лингвистическим аннотациям, Чеджу, Республика Корея : 75–84 . Проверено 6 апреля 2020 г.
^ «Формат обмена NLP (NIF) 2.0 — обзор и документация» .
^ «Обзор ЛИФ» .
^ «ПАУЛА» . Январь 2022.
^ «Формат аннотации НЛП | Справочная информация о NAF» .
^ «На пути к объединенному словарю LOD для лингвистических аннотаций» . Гитхаб . 7 сентября 2021 г.

Ссылки

Бирнбаум, Дэвид Дж; Торсен, Элиза (2015). «Разметка и метр: использование инструментов XML, чтобы научить компьютер думать о стихосложении» . Труды Balisage: The Markup Conference 2015 . Балисаж: Конференция по разметке 2015. Том. 15. Монреаль. doi : 10.4242/BalisageVol15.Birnbaum01 . ISBN 978-1-935958-11-6 .
Кэссиди, Стив (2010). Реализация LAF в формате RDF на сервере аннотаций DADA (PDF) . Труды МСА-5. Гонконг. CiteSeerX 10.1.1.454.9146 .
Кьяркос, Кристиан (2012). «POWLA: Моделирование лингвистических корпусов в OWL/DL» (PDF) . Семантическая сеть: исследования и приложения . Материалы 9-й конференции по расширенной семантической сети (ESWC 2012, Ираклион, Крит; LNCS 7295). Конспекты лекций по информатике. Том. 7295. стр. 225–239. дои : 10.1007/978-3-642-30284-8_22 . ISBN 978-3-642-30283-1 . Проверено 24 мая 2016 г.
Кьяркос, Кристиан; Диппер, Стефани; Гетце, Майкл; Лезер, Ульф; Люделинг, Анке; Ритц, Джулия; Стеде, Манфред (2008). «Гибкая структура для интеграции аннотаций из разных инструментов и наборов тегов» . Traitement Automatique des Langues . 49 (2): 271–293.
Деккер, Рональд Хэнтьенс; Бликер, Элли; Бьютендейк, Брэм; Кулсдом, Астрид; Бирнбаум, Дэвид Дж (2018). «TAGML: многомерный язык разметки» . Труды Balisage: The Markup Conference 2018 . Balisage: Конференция по разметке 2018. Том. 21. Роквилл, Мэриленд. doi : 10.4242/BalisageVol21.HaentjensDekker01 . ISBN 978-1-935958-18-5 .

ДеРоуз, Стивен (2004). Перекрытие разметки: обзор и лошадь . Экстремальные языки разметки, 2004. Монреаль. CiteSeerX 10.1.1.108.9959 . Архивировано из оригинала 17 октября 2014 г. Проверено 14 октября 2014 г.
Ди Иорио, Анджело; Перони, Сильвио; Виталий, Фабио (август 2009 г.). «На пути к поддержке разметки для полных GODDAG и не только: подход EARMARK» . Труды Balisage: Конференция по разметке 2009 . Балисаж: Конференция по разметке 2009. Том. 3. Монреаль. doi : 10.4242/BalisageVol3.Peroni01 . ISBN 978-0-9824344-2-0 .
Эггерт, Пол; Шмидт, Десмонд А. (2019). «Критический архив Чарльза Харпура: история и технический отчет» . Международный журнал цифровых гуманитарных наук . 1 (1) . Проверено 25 марта 2019 г.
Хентьенс Деккер, Рональд; Бирнбаум, Дэвид Дж (2017). «Это больше, чем просто перекрытие: текст как график» . Труды Balisage: The Markup Conference 2017 . Балисаж: Конференция по разметке 2017. Том. 19. Монреаль. doi : 10.4242/BalisageVol19.Dekker01 . ISBN 978-1-935958-15-4 .
Дурусау, Патрик (2006). Руководство пользователя OSIS (схема OSIS 2.1.1) (PDF) . Архивировано из оригинала (PDF) 23 октября 2014 г. Проверено 14 октября 2014 г.
Ян Хиксон (21 ноября 2002 г.). «Суп тегов: как UA обрабатывают <x> <y> </x> </y>» . Проверено 5 ноября 2017 г.
Гильберт, Мирко; Шенефельд, Оливер; Витт, Андреас (2005). Заставить CONCUR работать . Экстремальные языки разметки, Монреаль. CiteSeerX 10.1.1.104.634 . Проверено 14 октября 2014 г.
Хуитфельдт, Клаус; Сперберг-МакКуин, CM (2003). «TexMECS: экспериментальный метаязык разметки для сложных документов» . Архивировано из оригинала 27 февраля 2017 г. Проверено 14 октября 2014 г.
Иде, Нэнси; Кьяркос, Кристиан; Стеде, Манфред; Кэссиди, Стив (2017). «Проектирование схем аннотаций: от модели к представлению». В Иде, Нэнси; Пустейовский, Джеймс (ред.). Справочник лингвистической аннотации . Дордрехт: Спрингер. п. 99. дои : 10.1007/978-94-024-0881-2_3 . ISBN 978-94-024-0879-9 .
Лафонтен, Робин (2016). «Представление перекрывающейся иерархии как изменения в XML» . Труды Balisage: The Markup Conference 2016 . Balisage: Конференция по разметке 2016. Том. 17. Монреаль. doi : 10.4242/BalisageVol17.LaFontaine01 . ISBN 978-1-935958-13-0 .
Маринелли, Паоло; Виталий, Фабио; Закчироли, Стефано (январь 2008 г.). «К унификации форматов перекрывающейся разметки» (PDF) . Новый обзор гипермедиа и мультимедиа . 14 (1): 57–94. CiteSeerX 10.1.1.383.1636 . дои : 10.1080/13614560802316145 . ISSN 1361-4568 . S2CID 16909224 . Проверено 14 октября 2014 г.
Мокриде, Race J (24 апреля 2019 г.). «Двадцать лет богословских языков разметки: ретро- и перспектива» . Богословское библиотечное дело . 12 (1). дои : 10.31046/tl.v12i1.523 . ISSN 1937-8904 . S2CID 171582852 . Проверено 15 июля 2019 г.
Пьес, Венделл (август 2012 г.). «Люминесцентный: анализ LMNL путем преобразования XSLT» . Труды Balisage: Конференция по разметке 2012 . Балисаж: Конференция по разметке 2012. Том. 8. Монреаль. doi : 10.4242/BalisageVol8.Piez01 . ISBN 978-1-935958-04-8 . Проверено 14 октября 2014 г.
Пьес, Венделл (2014). Иерархии в пространстве диапазонов: от LMNL до OHCO . Балисаж: Конференция по разметке 2014. Монреаль. doi : 10.4242/BalisageVol13.Piez01 .
Ренер, Аллен; Милонас, Элли; Дюран, Дэвид (6 января 1993 г.). «Уточнение нашего представления о том, что на самом деле представляет собой текст: проблема перекрывающихся иерархий» . CiteSeerX 10.1.1.172.9017 . hdl : 2142/9407 . Проверено 2 октября 2016 г.
Шенефельд, Оливер (август 2008 г.). Простой API для XCONCUR: параллельная обработка разметки с использованием событийно-ориентированного API . Балисаж: Конференция по разметке 2008. Монреаль. doi : 10.4242/BalisageVol1.Schonefeld01 . Проверено 14 октября 2014 г.
Сперберг-МакКуин, CM ; Хуитфельдт, Клаус (2004). «GODDAG: Структура данных для перекрывающихся иерархий» . Цифровые документы: системы и принципы . Конспекты лекций по информатике. Том. 2023. стр. 139–160. дои : 10.1007/978-3-540-39916-2_12 . ISBN 978-3-540-21070-2 . Проверено 14 октября 2014 г.
Шмидт, Десмонд (2009). «Объединение текстов с несколькими версиями: общее решение проблемы дублирования». Объединение многоверсионных текстов: общее решение проблемы перекрытия . Balisage: Конференция по разметке 2009. Труды Balisage: Конференция по разметке 2009. Том. 3. Монреаль. doi : 10.4242/BalisageVol3.Schmidt01 . ISBN 978-0-9824344-2-0 .
Шмидт, Десмонд (2012). «Роль разметки в цифровых гуманитарных науках». Историко-социальные исследования . 27 (3): 125–146. дои : 10.12759/hsr.37.2012.3.125-146 .
Анри Сивонен (16 августа 2003 г.). «Суп тегов: как Mac IE 5 и Safari обрабатывают <x> <y> </x> </y>» . Проверено 5 ноября 2017 г.
Иде, Нэнси; Судерман, Кейт (2007). GrAF: графический формат лингвистических аннотаций (PDF) . Материалы Первого семинара по лингвистической аннотации (LAW-2007, Прага, Чехия). стр. 1–8. CiteSeerX 10.1.1.146.4543 .
Теннисон, Дженни (6 декабря 2008 г.). «Перекрытие, сдерживание и доминирование» . Проверено 2 октября 2016 г.
Витт, Андреас; Шенефельд, Оливер; Рем, Георг; Ху, Джонатан; Эванг, Килиан (2007). О преобразовании без потерь однофайловых многослойных аннотаций в многокорневые деревья . Экстремальные языки разметки, 2007. Монреаль . Проверено 14 октября 2014 г.
Консорциум Инициативы по кодированию текста (16 сентября 2014 г.). «Руководство по электронному кодированию и обмену текстами» (5-е изд.) . Проверено 14 октября 2014 г.
ЧТОРГ . «HTML-уровень жизни» . Проверено 25 марта 2019 г.

[FOOTNOTEText_Encoding_Initiative-1] Инициатива по кодированию текста .

[FOOTNOTEDeRose2004The_problem_types-2] Перейти обратно: ^а ^б ДеРоуз 2004 , Типы проблем.

[FOOTNOTEPiez2014-3] По состоянию на 2014 год .

[FOOTNOTERenearMylonasDurand1993-4] Ренер, Милонас и Дюран 1993 .

[FOOTNOTETennison2008-5] Tennison 2008 .

[FOOTNOTEMoChridhe2019-6] Моё сердце 2019 .

[FOOTNOTEHickson2002-7] Хиксон 2002 .

[FOOTNOTESivonen2003-8] Сивонен 2003 .

[FOOTNOTEHTML[httpshtmlspecwhatwgorgmultipagesyntaxhtmlan-introduction-to-error-handling-and-strange-cases-in-the-parser_§_8.2.8_An_introduction_to_error_handling_and_strange_cases_in_the_parser]-9] HTML , § 8.2.8 Введение в обработку ошибок и странные случаи в парсере .

[FOOTNOTESperberg-McQueenHuitfeldt20002.1._Non-SGML_Notations-10] Сперберг-Маккуин и Хуитфельдт 2000 , 2.1. Нотации, отличные от SGML.

[FOOTNOTEHTML[httpshtmlspecwhatwgorgmultipagedomhtmlparagraphs_§_3.2.5.4_Paragraphs]-11] HTML , § 3.2.5.4 Параграфы .

[FOOTNOTESperberg-McQueenHuitfeldt20002.2._CONCUR-12] Сперберг-МакКуин и Хуитфельдт 2000 , 2.2. СОГЛАСЕН.

[FOOTNOTEDeRose2004SGML_CONCUR-13] ДеРоуз 2004 , SGML CONCUR.

[FOOTNOTEDi_IorioPeroniVitali2009-14] Перейти обратно: ^а ^б Ди Иорио, Перони и Витали 2009 .

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtml_§_20_Non-hierarchical_Structures]-15] Инициатива по кодированию текста , § 20 Неиерархические структуры .

[FOOTNOTEDurusau2006-16] Дурусау 2006 .

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtmlNHME_§_20.1_Multiple_Encodings_of_the_Same_Information]-17] Инициатива по кодированию текста , § 20.1 Множественное кодирование одной и той же информации .

[FOOTNOTESchmidt2009-18] Шмидт 2009 .

[FOOTNOTELa_Fontaine2016-19] Фонтан 2016 .

[FOOTNOTESchmidt20124.1_Automating_Variation-20] Шмидт 2012 , 4.1 Автоматизация изменений.

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtmlNHBM_§_20.2_Boundary_Marking_with_Empty_Elements]-21] Инициатива по кодированию текста , § 20.2 Маркировка границ пустыми элементами .

[FOOTNOTESperberg-McQueenHuitfeldt20002.4._Milestones-22] Сперберг-МакКуин и Хуитфельдт 2000 , 2.4. Вехи.

[FOOTNOTEDeRose2004TEI-style_milestones-23] ДеРоуз 2004 , Вехи в стиле TEI.

[FOOTNOTEBirnbaumThorsen2015-24] Бирнбаум и Торсен 2015 .

[FOOTNOTEHaentjens_DekkerBirnbaum2017-25] Хентьенс Деккер и Бирнбаум, 2017 .

[FOOTNOTEDekker2018-26] Обложка 2018 года .

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtmlNHVE_§_20.3_Fragmentation_and_Reconstitution_of_Virtual_Elements]-27] Инициатива по кодированию текста , § 20.3 Фрагментация и восстановление виртуальных элементов .

[FOOTNOTEDeRose2004Segmentation-28] ДеРоуз 2004 , Сегментация.

[FOOTNOTESperberg-McQueenHuitfeldt20002.5._Fragmentation-29] Сперберг-МакКуин и Хуитфельдт 2000 , 2.5. Фрагментация.

[FOOTNOTEDeRose2004Joins-30] ДеРоуз 2004 , Присоединяется.

[FOOTNOTESchmidt20123.4_Interlinking-31] Шмидт 2012 , 3.4 Взаимосвязь.

[FOOTNOTEText_Encoding_Initiative[httpstei-corgreleasedoctei-p5-docenhtmlNHhtmlNHSO_§_20.4_Stand-off_Markup]-32] Инициатива по кодированию текста , § 20.4 Отдельная разметка .

[FOOTNOTESchmidt20124.2_Markup_Outside_the_Text-33] Шмидт 2012 , 4.2 Разметка вне текста.

[FOOTNOTEEggertSchmidt2019Conclusion-34] Эггерт и Шмидт 2019 , Заключение.

[FOOTNOTEIdeChiarcosStedeCassidy2017p.99-35] Перейти обратно: ^а ^б ^с Иде и др. 2017 , стр.99.

[autogenerated1-36] Перейти обратно: ^а ^б «ИСО 24612:2012» .

[FOOTNOTEChiarcosDipperGötzeLeser2008-37] Кьяркос и др. 2008 год .

[38] «Противостояние: микроструктура аннотации · Выпуск № 1745 · TEIC/TEI» . Гитхаб .

[39] Ся, Ф., Льюис, В.Д., Гудман, М.В. и др. Пополнение огромной многоязычной базы данных подстрочного глянцевого текста. Lang Resources & Evaluation 50, 321–349 (2016). https://doi.org/10.1007/s10579-015-9325-4

[FOOTNOTESperberg-McQueenHuitfeldt20002.6._Standoff_Markup-40] Сперберг-МакКуин и Хуитфельдт 2000 , 2.6. Разметка противостояния.

[FOOTNOTEDeRose2004Standoff_markup-41] ДеРоуз 2004 , Разметка противостояния.

[FOOTNOTEDeRose2004CLIX_and_LMNL-42] ДеРоуз 2004 , CLIX и LMNL.

[FOOTNOTEPiez2012-43] К 2012 году .

[FOOTNOTESperberg-McQueenHuitfeldt20002.7._MECS-44] Сперберг-МакКуин и Хуитфельдт 2000 , 2.7. МЭКС.

[FOOTNOTESperberg-McQueenHuitfeldt2000-45] Сперберг-МакКуин и Хуитфельдт 2000 .

[FOOTNOTEHuitfeldtSperberg-McQueen2003-46] Хуитфельдт и Сперберг-МакКуин 2003 .

[FOOTNOTEHilbertSchonefeldWitt2005-47] Гильберт, Шонефельд и Витт 2005 .

[FOOTNOTEWittSchonefeldRehmKhoo2007-48] Витт и др. 2007 .

[FOOTNOTESchonefeld2008-49] Шенефельд 2008 .

[FOOTNOTEMarinelliVitaliZacchiroli2008-50] Маринелли, Виталий и Закчироли 2008 .

[51] «ИСО ГрАФ» . 7 марта 2015 г.

[52] "Дом" . anc.org .

[53] ttps://www.sfb632.uni-potsdam.de/en/paula.html. ^{[ только URL ]}

[54] Зипсер, Флориан (18 ноября 2016 г.). "Соль" . body-tools.org. дои : 10.5281/zenodo.17557 . Проверено 11 сентября 2022 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[55] «НАФ» . Гитхаб . 30 июня 2021 г.

[56] «Построение структурированных индексов событий больших объемов финансово-экономических данных для принятия решений» . Информационная служба общественных исследований и разработок (CORDIS) .

[57] «Главная страница — Домашняя страница FreeLing» . Архивировано из оригинала 29 апреля 2012 г. Проверено 6 апреля 2020 г.

[58] «Анализ текста | HiTZ Центр» .

[FOOTNOTEEggertSchmidt2019-59] Эггерт и Шмидт 2019 .

[60] Ся, Ф., Льюис, В.Д., Гудман, М.В. и др. Пополнение огромной многоязычной базы данных подстрочного глянцевого текста. Lang Resources & Evaluation 50, 321–349 (2016). https://doi.org/10.1007/s10579-015-9325-4

[61] «Модель данных веб-аннотаций» . 23 февраля 2017 г.

[FOOTNOTEIdeSuderman2007-62] Иде и Судерман 2007 .

[FOOTNOTECassidy2010cassidy-63] Кэссиди 2010 , Кэссиди.

[FOOTNOTEChiarcos2012POWLA-64] Кьяркос 2012 , POWLA.

[65] "Дом" . rdfhdt.org .

[66] «Двоичный файл RDF с использованием Apache Thrift» .

[67] «Селекторы и состояния» . 23 февраля 2017 г.

[lld-book-68] Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные. Представление, генерация и приложения . Чам: Спрингер.

[69] Верспур, Карин; Ливингстон, Кевин (2012). «К адаптации лингвистических аннотаций к формализмам научных аннотаций в семантической сети» . Материалы шестого семинара по лингвистическим аннотациям, Чеджу, Республика Корея : 75–84 . Проверено 6 апреля 2020 г.

[70] «Формат обмена NLP (NIF) 2.0 — обзор и документация» .

[71] «Обзор ЛИФ» .

[72] «ПАУЛА» . Январь 2022.

[73] «Формат аннотации НЛП | Справочная информация о NAF» .

[74] «На пути к объединенному словарю LOD для лингвистических аннотаций» . Гитхаб . 7 сентября 2021 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]