Перекрывающаяся разметка
В языках разметки и цифровых гуманитарных науках перекрытие происходит , когда документ имеет две или более структуры, которые взаимодействуют неиерархически . Документ с перекрывающейся разметкой не может быть представлен в виде дерева . Это также известно как параллельная разметка . Перекрытие происходит, например, в поэзии , где может быть метрическая структура стоп и строк; языковая структура предложений и цитат; физическая структура томов, страниц и редакционных аннотаций. [1] [2]
История
[ редактировать ]
Проблема неиерархической структуры документов признана с 1988 года; разрешение этой проблемы в соответствии с доминирующей парадигмой текста как единой иерархии ( упорядоченной иерархии объектов контента или OHCO ) изначально считалось просто технической проблемой, но на самом деле оказалось гораздо сложнее. [4] В 2008 году Джени Теннисон определила перекрытие разметки как «основную проблемную область для технологов разметки». [5] Перекрытие разметки по-прежнему остается основной проблемой в цифровом изучении богословских текстов в 2019 году и является основной причиной сохранения в этой области специализированных форматов разметки — Информационного стандарта Открытого Писания и языка богословской разметки — вместо совместимого кодирования текста . Инициативные форматы, общие для остальных цифровых гуманитарных наук . [6]
Свойства и типы
[ редактировать ]Существует различие между схемами, допускающими несмежное перекрытие, и схемами, допускающими только непрерывное перекрытие. Часто «перекрытие разметки» строго означает последнее. Непрерывное перекрытие всегда можно представить как линейный документ с вехами (обычно совмещенными маркерами начала и конца) без необходимости фрагментации (логического) компонента на несколько физических. Несмежное перекрытие может потребовать фрагментации документа. Еще одно различие в перекрывающихся схемах разметки заключается в том, могут ли элементы перекрываться с другими элементами того же типа ( self-overlap ). [2]
Схема может иметь привилегированную иерархию. Некоторые схемы на основе XML , например, представляют одну иерархию непосредственно в дереве документа XML, а другие, перекрывающиеся структуры представляют другими способами; они называются непривилегированными .
Шмидт (2012) выделяет трехстороннюю классификацию случаев перекрытия: 1. «Вариации содержания и структуры», 2. «Наложение нескольких точек зрения или наборов разметки» и 3. «Перекрытие отдельных начальных и конечных тегов в одной разметке». перспектива"; кроме того, некоторые очевидные случаи перекрытия на самом деле представляют собой проблемы определения схемы, которые можно решить иерархически. Он утверждает, что тип 1 лучше всего решается с помощью системы множества документов, внешних по отношению к разметке, но типы 2 и 3 требуют внутренней обработки.
Подходы и реализации
[ редактировать ]ДеРоуз (2004 , Критерии оценки) выделяет несколько критериев для оценки решений проблемы перекрытия:
- читаемость и ремонтопригодность,
- поддержка инструментов и совместимость с XML,
- возможные схемы проверки и
- простота обработки.
Суп тегов , строго говоря, не является перекрывающейся разметкой — это искаженный HTML , который является непересекающимся языком и может быть плохо определен. Некоторые веб-браузеры пытались представить перекрывающиеся начальный и конечный теги с помощью неиерархических объектных моделей документов (DOM), но это не было стандартизировано для всех браузеров и было несовместимо с изначально иерархической природой DOM. [7] [8] HTML5 определяет, как процессоры должны обращаться с такой неправильной вложенной разметкой в синтаксисе HTML и превращать ее в единую иерархию. [9] Однако в HTML на основе XHTML и SGML неправильное вложение разметки является строгой ошибкой и делает невозможным обработку в системах, соответствующих стандартам. [10] Стандарт HTML определяет концепцию абзаца , которая может перекрываться с другими элементами и может быть несмежной. [11]
SGML , на котором основывались ранние версии HTML, имеет функцию CONCUR, которая позволяет сосуществовать нескольким независимым иерархиям без привилегий. Проверка DTD определяется только для каждой отдельной иерархии с помощью CONCUR. Проверка в иерархиях не определяется стандартом. CONCUR не поддерживает самоперекрытие и плохо взаимодействует с некоторыми аббревиатурами SGML. Эта функция плохо поддерживается инструментами и практически не используется; Согласно комментарию редактора стандарта, использование CONCUR для представления перекрытия документов не было рекомендуемым вариантом использования. [12] [13]
Внутри иерархических языков
[ редактировать ]Существует несколько подходов к представлению перекрытия в непересекающемся языке. [14] Text Encoding Initiative , как схема разметки на основе XML, не может напрямую представлять перекрывающуюся разметку. Предлагаются все четыре из приведенных ниже подходов. [15] Информационный стандарт Открытого Писания — это еще одна схема, основанная на XML, предназначенная для разметки Библии . Он использует пустые элементы вех для кодирования непривилегированных компонентов. [16]
разметка предложений и строк фрагмента «Ричарда III» Уильяма Шекспира Для иллюстрации этих подходов в качестве рабочего примера будет использоваться . Там, где существует привилегированная иерархия, будут использоваться линии.
Несколько документов
[ редактировать ]Каждый из нескольких документов может обеспечивать разные внутренне согласованные иерархии. Преимущество этого подхода заключается в том, что каждый документ прост и может обрабатываться с помощью существующих инструментов, но требует сохранения избыточного контента, и может быть сложно создать перекрестные ссылки между различными представлениями. [17] При наличии нескольких документов перекрытие можно проанализировать с помощью методов сравнения данных и дельта-кодирования , а в контексте XML доступны специальные алгоритмы дифференцирования деревьев XML. [18] [19]
Шмидт (2012 , 3.5 Вариация) рекомендует этот подход для кодирования нескольких вариантов одного текста и допускать дублирование частей, которые не изменяются, вместо того, чтобы пытаться создать структуру, которая представляет все имеющиеся варианты; кроме того, он предлагает, чтобы это выравнивание выполнялось автоматически и что смещение на практике встречается редко. [20]
Пример с размеченными строками:
<line>I, by attorney, bless thee from thy mother,</line>
<line>Who prays continually for Richmond's good.</line>
<line>So much for that.—The silent hours steal on,</line>
<line>And flaky darkness breaks within the east.</line>
С выделенными предложениями:
<sentence>I, by attorney, bless thee from thy mother,
Who prays continually for Richmond's good.</sentence>
<sentence>So much for that.</sentence><sentence>—The silent hours steal on,
And flaky darkness breaks within the east.</sentence>
Вехи
[ редактировать ]Вехи — это пустые элементы, которые отмечают начало и конец компонента, обычно с использованием механизма XML ID, чтобы указать, какой «начальный» элемент соответствует какому «конечному» элементу. Вехи могут использоваться для внедрения непривилегированной структуры в иерархический язык. В своей базовой форме они могут представлять собой только непрерывное перекрытие. Общий XML, конечно, может анализировать элементы вехи, но не понимает их особого значения и поэтому не может легко обрабатывать или проверять непривилегированную структуру. [21] [22]
Преимущество Milestone заключается в том, что разметка перекрывающихся элементов располагается прямо на соответствующих границах, как и другая разметка. Это преимущество для удобства сопровождения и читаемости. [23] CLIX ( DeRose 2004 ) является примером такого подхода.
Пример:
<line><sentence-start />I, by attorney, bless thee from thy mother,</line>
<line>Who prays continually for Richmond's good.<sentence-end /></line>
<line><sentence-start />So much for that.<sentence-end /><sentence-start />—The silent hours steal on,</line>
<line>And flaky darkness breaks within the east.<sentence-end /></line>
Пунктуация и пробелы были идентифицированы как тип «криптоперекрытия» или «псевдоразметки» в стиле вех, поскольку границы слов, предложений, предложений и т.п. не обязательно совпадают с формальными границами разметки иерархически. [24] [25]
Также возможно использовать более сложные вехи для представления несмежных структур. Например, семантика TAGML «приостановить» и «возобновить». [26] можно выразить с помощью вех, например, добавив атрибут, указывающий, представляет ли каждая веха начальную, приостановку, возобновление или конечную точку. Переупорядочения и даже самоперекрытия можно добиться аналогичным образом, аннотируя каждую веху ссылкой на «следующий фрагмент».
Присоединяется
[ редактировать ]Объединения — это указатели внутри привилегированной иерархии на другие компоненты привилегированной иерархии, которые могут использоваться для восстановления непривилегированного компонента, аналогично следованию связанному списку . Один непривилегированный элемент сегментируется на несколько частичных элементов в привилегированной иерархии; частичные элементы сами по себе не представляют собой единую единицу в непривилегированной иерархии, что может ввести в заблуждение и затруднить обработку. [27] [28] Хотя этот подход может поддерживать некоторые несмежные структуры, он не позволяет переупорядочивать элементы. [29] Однако немного другой подход может выражать переупорядочение, выражая соединение вне содержимого, за счет прямоты и удобства сопровождения. [30]
Представления на основе соединений могут ввести возможность циклов между элементами; их обнаружение и отклонение усложняет реализацию. [31]
Пример:
<line><sentence id="a">I, by attorney, bless thee from thy mother,</sentence></line>
<line><sentence continues="a">Who prays continually for Richmond's good.</sentence></line>
<line><sentence id="b">So much for that.</sentence><sentence id="c">—The silent hours steal on,</sentence></line>
<line><sentence continues="c">And flaky darkness breaks within the east.</sentence></line>
Разметка противостояния
[ редактировать ]Отдельная разметка аналогична использованию объединений, за исключением того, что привилегированная иерархия может отсутствовать: каждой части документа присваивается метка (или на нее может ссылаться смещение), а структура документа выражается путем указания на содержимое. из разметки, которая «отделяется» от контента (возможно, в совершенно другом файле) и может не содержать самого контента. В рекомендациях TEI единство элементов определяется как основное преимущество изолированной разметки перед соединениями, а также возможность создавать и распространять аннотации отдельно от текста, возможно, даже разными авторами, применяющими разметку к документу, доступному только для чтения. [32] позволяя использовать совместные подходы к разметке с помощью стратегии «разделяй и властвуй» . [33]
Пример:
<span id="a">I, by attorney, bless thee from thy mother,</span>
<span id="b">Who prays continually for Richmond's good.</span>
<span id="c">So much for that.</span><span id="d">—The silent hours steal on,</span>
<span id="e">And flaky darkness breaks within the east.</span>
...
<line contents="a" />
<line contents="b" />
<line contents="c d" />
<line contents="e" />
<sentence contents="a b" />
<sentence contents="c" />
<sentence contents="d e" />
Утверждалось, что разделение разметки и текста может привести к общему упрощению и повышению удобства сопровождения. [34] а к 2017 году «[текущий] уровень техники для [представления] (...) лингвистически аннотированных данных заключается в использовании графического представления, сериализованного как отдельный XML, в качестве основного формата», [35] то есть такое противостояние было наиболее широко распространенным подходом к решению проблемы перекрывающейся разметки.
Формализмы противостояния легли в основу стандарта ISO для лингвистических аннотаций. [36] они успешно применяются при разработке систем управления корпусом, [37] и (по состоянию на апрель 2020 г.) они активно разрабатываются в ТЭИ. [38] Один из опубликованных примеров успешной схемы изолированных аннотаций был разработан в рамках проекта по битекстовой документации на естественном языке, ориентированного на сохранение языков с ограниченными ресурсами или находящихся под угрозой исчезновения. [39]
Проблемы
[ редактировать ]Представление перекрывающейся разметки в иерархических языках является сложной задачей из-за избыточности и/или сложности. В 2000–2010-х годах формализм противостояния считался здесь наиболее перспективным подходом. [35] но недостатком противостояния является то, что проверка очень сложна. [40] Формализмы Standoff изначально не поддерживаются системами управления базами данных, поэтому (к 2017 году) было предложено «использовать... Standoff XML в качестве основного формата (...) и реляционных баз данных для запросов». [35] В практических приложениях это требует сложной архитектуры и/или трудоемкого преобразования между сводным форматом и внутренним представлением. В результате обслуживание становится проблематичным. [41] Это послужило мотивацией для разработки систем управления корпусами на основе графовых баз данных и использования устоявшихся формализмов на основе графов в качестве основных форматов.
Языки специального назначения
[ редактировать ]Для реализации вышеупомянутых стратегий можно либо расширить существующие языки разметки (такие как TEI), либо разработать языки специального назначения. Чтобы разработать совершенно новый язык разметки, позвольте отказаться [ непонятно ] поддержка инструмента на существующих языках для менее сложной семантической модели и более удобного синтаксиса.
Исторические формализмы
[ редактировать ]- LMNL — это неиерархический язык разметки, впервые описанный в 2002 году Джени Теннисон и Венделлом Пьесом , который аннотирует диапазоны документа свойствами и допускает самоперекрытие. CLIX , который первоначально расшифровывался как «Канонический LMNL в XML», предоставляет метод представления любого документа LMNL в XML-документе в стиле вехи. [42] Он также имеет еще одну XML-сериализацию — xLMNL. [43]
- MECS был разработан Бергенского университета Архивом Витгенштейна . Однако у него было несколько проблем: он допускал некоторые бессмысленные документы с перекрывающимися элементами, не мог поддерживать самоперекрытие и не имел возможности определять грамматику, подобную DTD. [44] Теория общих ациклических графов с упорядоченным потомком (GODDAG), хотя и не является строго языком разметки, представляет собой общую модель данных для неиерархической разметки. Ограниченные GODDAG были разработаны специально для соответствия семантике MECS; общие GODDAG могут быть несмежными и нуждаться в более мощном языке. [45] TexMECS является преемником MECS, который имеет формальную грамматику и предназначен для представления всех GODDAG и ничего, что не является GODDAG. [46]
- XCONCUR (ранее MuLaX) представляет собой объединение XML и CONCUR SGML, а также содержит язык проверки XCONCUR-CL и SAX -подобный API. [47] [48] [49]
- Маринелли, Витали и Закчироли разработали алгоритмы для преобразования между ограниченными GODDAG, ECLIX, LMNL, параллельными документами в XML, непрерывной разметкой и TexMECS. [50]
Ни один из этих формализмов, похоже, больше не поддерживается. Похоже, что консенсусное сообщество использует противоположный XML или формализм на основе графов.
Активно поддерживаемые языки XML противостояния
[ редактировать ]- ГрАФ-XML, [51] сериализация Standoff-XML структуры лингвистических аннотаций (LAF), [36] используется, например, для Американского национального корпуса [52]
- ПАУЛА-XML, [53] сериализация Standoff-XML модели данных, лежащей в основе системы управления корпусом ANNIS и пакета конвертеров SALT [54]
- NAF (формат аннотаций NLP/формат аннотаций программы чтения новостей), [55] формат Standoff XML, первоначально разработанный в проекте NewsReader (FP7, 2013–2015 гг.). [56] ), в настоящее время используется инструментами НЛП, такими как FreeLing [57] (с поддержкой английского, испанского, португальского, итальянского, французского, немецкого, русского, каталанского, галисийского, хорватского, словенского и т. д.) и EusTagger [58] (с поддержкой баскского, английского, испанского языков).
- закодирован Критический архив Чарльза Харпура с использованием «мультиверсионных документов» (MVD) для представления различных версий документов и в качестве средства указания добавлений, удалений и исправлений с использованием тактической комбинации нескольких документов и диапазонов отклонений в базовом документе. графовая модель. MVD представлен как формат файла приложения, для просмотра или редактирования которого требуются специальные инструменты. [59]
- Схема Standoff XML была разработана совместными усилиями Odin , Intent и XigtEdit , которая ориентирована на большой набор данных межлинейного глянцевого текста (IGT) для поддержки проектов ресурсов и документации на естественном языке. [60]
Подходы противостояния состоят из двух частей, обычно называемых «содержанием» и «аннотациями». Они могут быть выражены в несвязанных представлениях. Простые аннотации противостояния сами по себе включают не более чем список пар (местоположение, тип). Таким образом, в нескольких приложениях [ нужен пример ] аннотации противостояния выражаются в CSV, JSON (-LD ) или других представлениях (например, веб-аннотации [61] ) или формализмы графов, основанные на строковых URI (см. ниже). Однако представление и проверка контента в таких представлениях гораздо сложнее и встречается гораздо реже.
Формализмы на основе графов
[ редактировать ]В разметке Standoff используется модель данных, основанная на ориентированных графах. [62] тем самым усложняя его представление при закреплении информации разметки в дереве. Представление перекрывающихся иерархий на графике устраняет эту проблему. Таким образом, аннотации противостояния могут быть более адекватно представлены в виде обобщенных направленных мультиграфов и использовать формализмы и технологии, разработанные для этой цели, в первую очередь те, которые основаны на структуре описания ресурсов (RDF) . [63] [64] EARMARK — это раннее представление RDF / OWL , которое включает в себя общие ациклические графы с упорядоченным потомком (GODDAG). [14] Теория GODDAG, хотя и не является строго языком разметки, представляет собой общую модель данных для неиерархической разметки.
RDF — это семантическая модель данных, независимая от линеаризации, которая обеспечивает различные линеаризации, включая формат XML ( RDF/XML ), который можно смоделировать для отражения контрастного XML, линеаризацию, которая позволяет выражать RDF в атрибутах XML ( RDFa ), формат JSON ( JSON-LD ) и двоичные форматы, предназначенные для облегчения запросов или обработки (RDF-HDT, [65] РДФ-Бережливость [66] ). RDF семантически эквивалентен графовым моделям данных, лежащим в основе разметки противостояния; он не требует специальной технологии для хранения, анализа и запросов. Несколько взаимосвязанных файлов RDF, представляющих документ или корпус, представляют собой пример лингвистически связанных открытых данных .
Общепринятым методом связывания произвольных графов с аннотированным документом является использование URI идентификаторов фрагментов для ссылки на части текста и/или документа, см. обзор в разделе Веб-аннотации . Стандарт веб-аннотаций предоставляет «селекторы» для конкретного формата в качестве дополнительных средств, например, селекторы на основе смещения, совпадения строк или XPath. [67]
Собственные словари RDF, способные представлять лингвистические аннотации, включают: [68]
Связанные словари включают в себя
В начале 2020 года группа сообщества W3C LD4LT запустила инициативу по гармонизации этих словарей и разработке консолидированного словаря RDF для лингвистических аннотаций в Интернете. [74]
Примечания
[ редактировать ]- ^ Инициатива по кодированию текста .
- ^ Перейти обратно: а б ДеРоуз 2004 , Типы проблем.
- ^ По состоянию на 2014 год .
- ^ Ренер, Милонас и Дюран 1993 .
- ^ Tennison 2008 .
- ^ Моё сердце 2019 .
- ^ Хиксон 2002 .
- ^ Сивонен 2003 .
- ^ HTML , § 8.2.8 Введение в обработку ошибок и странные случаи в парсере .
- ^ Сперберг-Маккуин и Хуитфельдт 2000 , 2.1. Нотации, отличные от SGML.
- ^ HTML , § 3.2.5.4 Параграфы .
- ^ Сперберг-МакКуин и Хуитфельдт 2000 , 2.2. СОГЛАСЕН.
- ^ ДеРоуз 2004 , SGML CONCUR.
- ^ Перейти обратно: а б Ди Иорио, Перони и Витали 2009 .
- ^ Инициатива по кодированию текста , § 20 Неиерархические структуры .
- ^ Дурусау 2006 .
- ^ Инициатива по кодированию текста , § 20.1 Множественное кодирование одной и той же информации .
- ^ Шмидт 2009 .
- ^ Фонтан 2016 .
- ^ Шмидт 2012 , 4.1 Автоматизация изменений.
- ^ Инициатива по кодированию текста , § 20.2 Маркировка границ пустыми элементами .
- ^ Сперберг-МакКуин и Хуитфельдт 2000 , 2.4. Вехи.
- ^ ДеРоуз 2004 , Вехи в стиле TEI.
- ^ Бирнбаум и Торсен 2015 .
- ^ Хентьенс Деккер и Бирнбаум, 2017 .
- ^ Обложка 2018 года .
- ^ Инициатива по кодированию текста , § 20.3 Фрагментация и восстановление виртуальных элементов .
- ^ ДеРоуз 2004 , Сегментация.
- ^ Сперберг-МакКуин и Хуитфельдт 2000 , 2.5. Фрагментация.
- ^ ДеРоуз 2004 , Присоединяется.
- ^ Шмидт 2012 , 3.4 Взаимосвязь.
- ^ Инициатива по кодированию текста , § 20.4 Отдельная разметка .
- ^ Шмидт 2012 , 4.2 Разметка вне текста.
- ^ Эггерт и Шмидт 2019 , Заключение.
- ^ Перейти обратно: а б с Иде и др. 2017 , стр.99.
- ^ Перейти обратно: а б «ИСО 24612:2012» .
- ^ Кьяркос и др. 2008 год .
- ^ «Противостояние: микроструктура аннотации · Выпуск № 1745 · TEIC/TEI» . Гитхаб .
- ^ Ся, Ф., Льюис, В.Д., Гудман, М.В. и др. Пополнение огромной многоязычной базы данных подстрочного глянцевого текста. Lang Resources & Evaluation 50, 321–349 (2016). https://doi.org/10.1007/s10579-015-9325-4
- ^ Сперберг-МакКуин и Хуитфельдт 2000 , 2.6. Разметка противостояния.
- ^ ДеРоуз 2004 , Разметка противостояния.
- ^ ДеРоуз 2004 , CLIX и LMNL.
- ^ К 2012 году .
- ^ Сперберг-МакКуин и Хуитфельдт 2000 , 2.7. МЭКС.
- ^ Сперберг-МакКуин и Хуитфельдт 2000 .
- ^ Хуитфельдт и Сперберг-МакКуин 2003 .
- ^ Гильберт, Шонефельд и Витт 2005 .
- ^ Витт и др. 2007 .
- ^ Шенефельд 2008 .
- ^ Маринелли, Виталий и Закчироли 2008 .
- ^ «ИСО ГрАФ» . 7 марта 2015 г.
- ^ "Дом" . anc.org .
- ^ https://www.sfb632.uni-potsdam.de/en/paula.html. [ только URL ]
- ^ Зипсер, Флориан (18 ноября 2016 г.). "Соль" . body-tools.org. дои : 10.5281/zenodo.17557 . Проверено 11 сентября 2022 г.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ «НАФ» . Гитхаб . 30 июня 2021 г.
- ^ «Построение структурированных индексов событий больших объемов финансово-экономических данных для принятия решений» . Информационная служба общественных исследований и разработок (CORDIS) .
- ^ «Главная страница — Домашняя страница FreeLing» . Архивировано из оригинала 29 апреля 2012 г. Проверено 6 апреля 2020 г.
- ^ «Анализ текста | HiTZ Центр» .
- ^ Эггерт и Шмидт 2019 .
- ^ Ся, Ф., Льюис, В.Д., Гудман, М.В. и др. Пополнение огромной многоязычной базы данных подстрочного глянцевого текста. Lang Resources & Evaluation 50, 321–349 (2016). https://doi.org/10.1007/s10579-015-9325-4
- ^ «Модель данных веб-аннотаций» . 23 февраля 2017 г.
- ^ Иде и Судерман 2007 .
- ^ Кэссиди 2010 , Кэссиди.
- ^ Кьяркос 2012 , POWLA.
- ^ "Дом" . rdfhdt.org .
- ^ «Двоичный файл RDF с использованием Apache Thrift» .
- ^ «Селекторы и состояния» . 23 февраля 2017 г.
- ^ Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные. Представление, генерация и приложения . Чам: Спрингер.
- ^ Верспур, Карин; Ливингстон, Кевин (2012). «К адаптации лингвистических аннотаций к формализмам научных аннотаций в семантической сети» . Материалы шестого семинара по лингвистическим аннотациям, Чеджу, Республика Корея : 75–84 . Проверено 6 апреля 2020 г.
- ^ «Формат обмена NLP (NIF) 2.0 — обзор и документация» .
- ^ «Обзор ЛИФ» .
- ^ «ПАУЛА» . Январь 2022.
- ^ «Формат аннотации НЛП | Справочная информация о NAF» .
- ^ «На пути к объединенному словарю LOD для лингвистических аннотаций» . Гитхаб . 7 сентября 2021 г.
Ссылки
[ редактировать ]- Бирнбаум, Дэвид Дж; Торсен, Элиза (2015). «Разметка и метр: использование инструментов XML, чтобы научить компьютер думать о стихосложении» . Труды Balisage: The Markup Conference 2015 . Балисаж: Конференция по разметке 2015. Том. 15. Монреаль. doi : 10.4242/BalisageVol15.Birnbaum01 . ISBN 978-1-935958-11-6 .
- Кэссиди, Стив (2010). Реализация LAF в формате RDF на сервере аннотаций DADA (PDF) . Труды МСА-5. Гонконг. CiteSeerX 10.1.1.454.9146 .
- Кьяркос, Кристиан (2012). «POWLA: Моделирование лингвистических корпусов в OWL/DL» (PDF) . Семантическая сеть: исследования и приложения . Материалы 9-й конференции по расширенной семантической сети (ESWC 2012, Ираклион, Крит; LNCS 7295). Конспекты лекций по информатике. Том. 7295. стр. 225–239. дои : 10.1007/978-3-642-30284-8_22 . ISBN 978-3-642-30283-1 . Проверено 24 мая 2016 г.
- Кьяркос, Кристиан; Диппер, Стефани; Гетце, Майкл; Лезер, Ульф; Люделинг, Анке; Ритц, Джулия; Стеде, Манфред (2008). «Гибкая структура для интеграции аннотаций из разных инструментов и наборов тегов» . Traitement Automatique des Langues . 49 (2): 271–293.
- Деккер, Рональд Хэнтьенс; Бликер, Элли; Бьютендейк, Брэм; Кулсдом, Астрид; Бирнбаум, Дэвид Дж (2018). «TAGML: многомерный язык разметки» . Труды Balisage: The Markup Conference 2018 . Balisage: Конференция по разметке 2018. Том. 21. Роквилл, Мэриленд. doi : 10.4242/BalisageVol21.HaentjensDekker01 . ISBN 978-1-935958-18-5 .
- ДеРоуз, Стивен (2004). Перекрытие разметки: обзор и лошадь . Экстремальные языки разметки, 2004. Монреаль. CiteSeerX 10.1.1.108.9959 . Архивировано из оригинала 17 октября 2014 г. Проверено 14 октября 2014 г.
- Ди Иорио, Анджело; Перони, Сильвио; Виталий, Фабио (август 2009 г.). «На пути к поддержке разметки для полных GODDAG и не только: подход EARMARK» . Труды Balisage: Конференция по разметке 2009 . Балисаж: Конференция по разметке 2009. Том. 3. Монреаль. doi : 10.4242/BalisageVol3.Peroni01 . ISBN 978-0-9824344-2-0 .
- Эггерт, Пол; Шмидт, Десмонд А. (2019). «Критический архив Чарльза Харпура: история и технический отчет» . Международный журнал цифровых гуманитарных наук . 1 (1) . Проверено 25 марта 2019 г.
- Хентьенс Деккер, Рональд; Бирнбаум, Дэвид Дж (2017). «Это больше, чем просто перекрытие: текст как график» . Труды Balisage: The Markup Conference 2017 . Балисаж: Конференция по разметке 2017. Том. 19. Монреаль. doi : 10.4242/BalisageVol19.Dekker01 . ISBN 978-1-935958-15-4 .
- Дурусау, Патрик (2006). Руководство пользователя OSIS (схема OSIS 2.1.1) (PDF) . Архивировано из оригинала (PDF) 23 октября 2014 г. Проверено 14 октября 2014 г.
- Ян Хиксон (21 ноября 2002 г.). «Суп тегов: как UA обрабатывают <x> <y> </x> </y>» . Проверено 5 ноября 2017 г.
- Гильберт, Мирко; Шенефельд, Оливер; Витт, Андреас (2005). Заставить CONCUR работать . Экстремальные языки разметки, Монреаль. CiteSeerX 10.1.1.104.634 . Проверено 14 октября 2014 г.
- Хуитфельдт, Клаус; Сперберг-МакКуин, CM (2003). «TexMECS: экспериментальный метаязык разметки для сложных документов» . Архивировано из оригинала 27 февраля 2017 г. Проверено 14 октября 2014 г.
- Иде, Нэнси; Кьяркос, Кристиан; Стеде, Манфред; Кэссиди, Стив (2017). «Проектирование схем аннотаций: от модели к представлению». В Иде, Нэнси; Пустейовский, Джеймс (ред.). Справочник лингвистической аннотации . Дордрехт: Спрингер. п. 99. дои : 10.1007/978-94-024-0881-2_3 . ISBN 978-94-024-0879-9 .
- Лафонтен, Робин (2016). «Представление перекрывающейся иерархии как изменения в XML» . Труды Balisage: The Markup Conference 2016 . Balisage: Конференция по разметке 2016. Том. 17. Монреаль. doi : 10.4242/BalisageVol17.LaFontaine01 . ISBN 978-1-935958-13-0 .
- Маринелли, Паоло; Виталий, Фабио; Закчироли, Стефано (январь 2008 г.). «К унификации форматов перекрывающейся разметки» (PDF) . Новый обзор гипермедиа и мультимедиа . 14 (1): 57–94. CiteSeerX 10.1.1.383.1636 . дои : 10.1080/13614560802316145 . ISSN 1361-4568 . S2CID 16909224 . Проверено 14 октября 2014 г.
- Мокриде, Race J (24 апреля 2019 г.). «Двадцать лет богословских языков разметки: ретро- и перспектива» . Богословское библиотечное дело . 12 (1). дои : 10.31046/tl.v12i1.523 . ISSN 1937-8904 . S2CID 171582852 . Проверено 15 июля 2019 г.
- Пьес, Венделл (август 2012 г.). «Люминесцентный: анализ LMNL путем преобразования XSLT» . Труды Balisage: Конференция по разметке 2012 . Балисаж: Конференция по разметке 2012. Том. 8. Монреаль. doi : 10.4242/BalisageVol8.Piez01 . ISBN 978-1-935958-04-8 . Проверено 14 октября 2014 г.
- Пьес, Венделл (2014). Иерархии в пространстве диапазонов: от LMNL до OHCO . Балисаж: Конференция по разметке 2014. Монреаль. doi : 10.4242/BalisageVol13.Piez01 .
- Ренер, Аллен; Милонас, Элли; Дюран, Дэвид (6 января 1993 г.). «Уточнение нашего представления о том, что на самом деле представляет собой текст: проблема перекрывающихся иерархий» . CiteSeerX 10.1.1.172.9017 . hdl : 2142/9407 . Проверено 2 октября 2016 г.
- Шенефельд, Оливер (август 2008 г.). Простой API для XCONCUR: параллельная обработка разметки с использованием событийно-ориентированного API . Балисаж: Конференция по разметке 2008. Монреаль. doi : 10.4242/BalisageVol1.Schonefeld01 . Проверено 14 октября 2014 г.
- Сперберг-МакКуин, CM ; Хуитфельдт, Клаус (2004). «GODDAG: Структура данных для перекрывающихся иерархий» . Цифровые документы: системы и принципы . Конспекты лекций по информатике. Том. 2023. стр. 139–160. дои : 10.1007/978-3-540-39916-2_12 . ISBN 978-3-540-21070-2 . Проверено 14 октября 2014 г.
- Шмидт, Десмонд (2009). «Объединение текстов с несколькими версиями: общее решение проблемы дублирования». Объединение многоверсионных текстов: общее решение проблемы перекрытия . Balisage: Конференция по разметке 2009. Труды Balisage: Конференция по разметке 2009. Том. 3. Монреаль. doi : 10.4242/BalisageVol3.Schmidt01 . ISBN 978-0-9824344-2-0 .
- Шмидт, Десмонд (2012). «Роль разметки в цифровых гуманитарных науках». Историко-социальные исследования . 27 (3): 125–146. дои : 10.12759/hsr.37.2012.3.125-146 .
- Анри Сивонен (16 августа 2003 г.). «Суп тегов: как Mac IE 5 и Safari обрабатывают <x> <y> </x> </y>» . Проверено 5 ноября 2017 г.
- Иде, Нэнси; Судерман, Кейт (2007). GrAF: графический формат лингвистических аннотаций (PDF) . Материалы Первого семинара по лингвистической аннотации (LAW-2007, Прага, Чехия). стр. 1–8. CiteSeerX 10.1.1.146.4543 .
- Теннисон, Дженни (6 декабря 2008 г.). «Перекрытие, сдерживание и доминирование» . Проверено 2 октября 2016 г.
- Витт, Андреас; Шенефельд, Оливер; Рем, Георг; Ху, Джонатан; Эванг, Килиан (2007). О преобразовании без потерь однофайловых многослойных аннотаций в многокорневые деревья . Экстремальные языки разметки, 2007. Монреаль . Проверено 14 октября 2014 г.
- Консорциум Инициативы по кодированию текста (16 сентября 2014 г.). «Руководство по электронному кодированию и обмену текстами» (5-е изд.) . Проверено 14 октября 2014 г.
- ЧТОРГ . «HTML-уровень жизни» . Проверено 25 марта 2019 г.