Инициатива по кодированию текста
![](http://upload.wikimedia.org/wikipedia/commons/thumb/3/39/TEI_Logo_2024.svg/220px-TEI_Logo_2024.svg.png)
Text Encoding Initiative ( TEI ) — это текстоцентрическое сообщество практиков в академической области цифровых гуманитарных наук , непрерывно действующее с 1980-х годов. В настоящее время сообщество ведет список рассылки, проводит встречи и серии конференций, а также поддерживает технический стандарт TEI , журнал . [1] вики , репозиторий GitHub и набор инструментов .
Рекомендации TEI [ править ]
в Рекомендации TEI совокупности определяют тип формата XML и являются определяющим результатом сообщества практиков. Этот формат отличается от других известных открытых форматов текста (таких как HTML и OpenDocument ) тем, что он в первую очередь семантический, а не презентационный: указаны семантика и интерпретация каждого тега и атрибута. Существует около 500 различных текстовых компонентов и понятий: слово , [2] предложение , [3] характер , [4] глиф , [5] человек , [6] и т. д. Каждый из них основан на одной или нескольких академических дисциплинах и приводятся примеры.
Технические подробности [ править ]
Стандарт разделен на две части: дискурсивное текстовое описание с расширенными примерами и обсуждением, а также набор определений по тегам. Схемы в большинстве современных форматов ( DTD , RELAX NG и XML Schema (W3C) ) генерируются автоматически на основе пометочных определений. Ряд инструментов поддерживает разработку руководств и их применение к конкретным проектам.
Ряд специальных тегов используется для обхода ограничений, налагаемых базовым Unicode ; глиф , позволяющий представлять символы, которые не подлежат включению в Юникод. [2] и выбор , позволяющий преодолеть требуемую строгую линейность. [7]
Большинство пользователей формата не используют полный набор тегов, а производят настройку, используя подмножество тегов и атрибутов, специфичных для проекта, определенных Руководящими принципами. Для этой цели TEI определяет сложный механизм настройки, известный как ODD. Помимо документирования и описания каждого тега TEI, спецификация ODD определяет его модель контента и другие ограничения использования, которые могут быть выражены с помощью Schematron .
TEI Lite — пример такой настройки. на основе XML Он определяет формат файла для обмена текстами. Это удобный выбор из обширного набора элементов, доступных в полной версии Руководства TEI.
Будучи форматом на основе XML, TEI не может напрямую работать с перекрывающейся разметкой и неиерархическими структурами. В руководящих принципах предлагаются различные варианты представления такого рода данных. [8]
Примеры [ править ]
Текст рекомендаций TEI богат примерами. На вики TEI также есть страница с образцами: [9] в котором приводятся примеры реальных проектов, раскрывающих лежащий в их основе TEI.
Теги прозы [ править ]
TEI позволяет синтаксически размечать тексты на любом уровне детализации или смешанном уровне детализации. Например, этот абзац (p) разбит на предложения (s) и пункты (cl). [10]
<s>
<cl> Это было примерно в начале сентября , 1664 года
<cl> что , среди остальных соседей моих , я
слышно в обычном разговоре
<cl> что чума вернулась снова ; в Голландию </cl>
</cl>
</cl>
<cl> потому что было жестоко очень в , и особенно там
Амстердам и Роттердам, в , 1663 году </cl> <cl>
куда , <cl> говорят , </cl> его привезли ,
<cl> одни сказали </cl> из Италии, другие из Леванта , среди некоторых товаров
<cl> которые были доставлены домой их ; турецким флотом </cl>
</cl>
<cl> другие говорили, его привезли что из Кандии;
другие с Кипра. </cl>
</s>
<s>
<cl> Не имело значения , <cl> откуда пришло оно ; </cl>
</cl>
<cl> но все согласились <cl> он снова прибыл , что в Голландию . </cl>
</cl>
</s>
Стих [ править ]
В TEI есть теги для разметки стихов. В этом примере (взятом из французского перевода Руководства TEI) показан сонет. [11]
<div type= sonnet" >
<lg = "quatrain" <l>
Пылкие и , любители строгие </l> учёные Также <l>
любят type в их пору , " </l>
<l> Кошек > сильных и нежных , гордость дома , , </l>
<l> Кто любит их зябок образ и любит сидячий жизни. </l>
</lg>
lg type катрен >
<l> Друзья науки ; и развлечений </l> < тишины
<l> Они ищут ужаса и тьмы " " = </l>
<l> Эреб их бы принял за своих погребальных коней , </l>
<l> Если бы они могли гордость к крепостному праву склонить свою . </l>
</lg>
lg type= tercet >
<l> Они вспоминают , " благородные позы < </l>
<l> Великих </l> сфинксов лежащих в глубине уединения , "
< > Которые словно засыпают бесконечным сном ; l </l>
</lg>
<lg type= "tercet" <l>
Их плодородные полны чресла волшебных <l> искр , </l>
И также частиц мелкого золота, > а , песка </l>
<l> звёзды Смутно их мистических зрачков . </l>
</lg>
</div>
Выбор тега [ править ]
The Тег выбора используется для представления разделов текста, которые могут быть закодированы или помечены более чем одним возможным способом. В следующем примере, основанном на стандарте, выбор используется дважды: один раз для обозначения исходного и исправленного номера и один раз для обозначения исходного и упорядоченного написания. [12]
<p xml:id= p23" > Наконец, , под своей торжественной клятвой соблюдать " все вышеизложенное что
статей, указанный гора человек- должен иметь суточное в содержание размере
мяса и питья достаточных для поддержания <choice> <sic>
, 1724 </sic>
<corr> 1728 </corr>
</choice> наших подданных ,
со свободным доступом к нашей королевской персоне и другим знакам нашей
<choice>
<orig> предпочтение </orig>
<reg> предпочтение </reg>
</choice> .
ЧЕТ [ править ]
One Document Does it all («ODD») — это грамотный язык программирования для XML-схем . [13] [14] [15] [16]
В стиле грамотного программирования документы ODD сочетают в себе удобочитаемую документацию и машиночитаемые модели с использованием модуля «Элементы документации» Инициативы по кодированию текста. Инструменты генерируют локализованный и интернационализированный формате HTML , ePub или PDF, удобочитаемый вывод в DTD , W3C XML Schema , Relax NG а также машиночитаемый вывод Compact Syntax или Relax NG XML Syntax.
Веб-приложение Roma [17] построен на основе формата ODD и может использовать его для создания схем в форматах DTD , W3C XML Schema , Relax NG Compact Syntax или Relax NG XML Syntax, которые используются многими инструментами и службами проверки XML.
ODD — это формат, используемый внутри компании Text Encoding Initiative для технического стандарта TEI . [18] Хотя файлы ODD обычно описывают разницу между настроенным форматом XML и полной моделью TEI, ODD также можно использовать для описания форматов XML, которые полностью отделены от TEI. Одним из примеров этого является W3C набор тегов интернационализации , который использует формат ODD для создания схем и документирования своего словаря. [19] [20]
Настройки TEI [ править ]
Настройки TEI — это специализация спецификации TEI XML для использования в определенных областях или определенными сообществами.
- ЭпиДок (Эпиграфические документы)
- Инициатива по кодированию уставов [21]
- Средневековый скандинавский текстовый архив (Менота) [22]
Настройка в TEI осуществляется с помощью механизма ODD, упомянутого выше. На самом деле, начиная с версии P5, все так называемые «TEI-совместимые» варианты использования Руководства TEI основаны на настройке TEI, задокументированной в файле TEI ODD. Даже когда пользователи выбирают для проверки одну из готовых предварительно созданных схем, они создаются из свободно доступных файлов настройки.
Проекты [ править ]
Этот формат используется многими проектами по всему миру. Практически все проекты связаны с одним или несколькими университетами. Некоторые известные проекты, кодирующие тексты с использованием TEI, включают:
История [ править ]
До создания TEI у ученых-гуманитариев не было единых стандартов кодирования электронных текстов, которые могли бы служить их академическим целям ( Хоккей , 1993, стр. 41). В 1987 году группа ученых, представляющих области гуманитарных наук, лингвистики и информатики, собралась в колледже Вассар, чтобы выдвинуть набор руководящих принципов, известных как «Принципы Покипси». Эти рекомендации направили разработку первого стандарта TEI «P1». [23] [24]
- 1987 – Начало работы Ассоциации компьютеров и гуманитарных наук . [25] Ассоциация компьютерной лингвистики и Ассоциация литературных и лингвистических вычислений о том, что впоследствии станет TEI. [26] Кульминацией этого стало заключительное заявление конференции по планированию в Вассаре . [27]
- 1994 г. - выпущен TEI P3, [28] под совместной редакцией Лу Бернарда (в Оксфордском университете ) и Майкла Сперберга-МакКуина (тогда в Университете Иллинойса в Чикаго , позже в W3C ).
- 1999 г. - обновлен TEI P3.
- 2002 г. – выпущен TEI P4 с переходом от SGML к XML; принятие Unicode , который должны поддерживать парсеры XML. [29]
- 2007 г. – выпущен TEI P5, включая интеграцию с
xml:lang
иxml:id
атрибуты из W3C [30] (ранее это были атрибуты в пространстве имен TEI), регуляризация локальных указывающих атрибутов для использования хеша (как используется в HTML) и унификация тегов ptr и xptr. Вместе эти изменения со многими новыми дополнениями делают P5 более регулярным и приближают его к современной практике работы с XML, продвигаемой W3C и используемой другими вариантами XML. Версии обслуживания и обновления функций TEI P5 выпускаются не реже двух раз в год с 2007 года. - 2011 — выпущен TEI P5 v2.0.1 с поддержкой генетического редактирования. [31] (среди многих других дополнений функции генетического редактирования позволяют кодировать тексты без интерпретации их конкретной семантики).
- 2017 г. - TEI был награжден премией Антонио Замполли от Альянса цифровых гуманитарных организаций. [32]
Ссылки [ править ]
- ^ «Журнал Инициативы по кодированию текста» . Открытые издания журналов . Проверено 29 июня 2022 г.
- ^ Перейти обратно: а б «Элемент TEI w (слово)» . tei-c.org .
- ^ «Элемент TEI s (s-единица)» . tei-c.org .
- ^ «TEI элемент c (символ)» . tei-c.org .
- ^ «Элемент TEI g (символ или глиф)» . tei-c.org .
- ^ «Элемент ТЭИ лицо (человек)» . tei-c.org .
- ^ «Выбор элемента» . www.tei-c.org .
- ^ «20 неиерархических структур — TEI P5: — Рекомендации по электронному кодированию и обмену текстом» . tei-c.org . 2019 . Проверено 19 марта 2019 г.
- ^ «Образцы текстов ТЭИ» . wiki.tei-c.org . 2011 . Проверено 17 апреля 2012 г.
- ^ «17 простых аналитических механизмов - TEI P5: — Рекомендации по электронному кодированию текста и обмену» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
- ^ «Элемент TEI lg (группа версий)» . tei-c.org . 2012. Архивировано из оригинала 6 июня 2012 года . Проверено 15 апреля 2012 г.
- ^ «Выбор элемента ТЭИ» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
- ^ Бауман, Сид; Фландерс, Джулия (2004), «Настройки ODD», Extreme Markup Languages 2004 , заархивировано из оригинала 29 марта 2012 г. , получено 15 апреля 2012 г.
- ^ Бернард, Лу; Рахц, Себастьян (2004), «RelaxNG с Son of ODD», Extreme Markup Languages 2004 , заархивировано из оригинала 29 марта 2012 г. , получено 15 апреля 2012 г.
- ^ Рейсс, Кевин М. (2007), Грамотная документация для XML (PDF) , Урбана-Шампейн, Иллинойс: Digital Humanities 2007, заархивировано из оригинала (PDF) 03 марта 2016 г. , получено 15 апреля 2012 г.
- ^ Бернард, Лу; Рахц, Себастьян (июнь 2013 г.). «Полный язык определения схемы для инициативы по кодированию текста» . XML Лондон 2013 : 152–161. doi : 10.14337/XMLLondon13.Rahtz01 (неактивен 27 февраля 2024 г.). ISBN 978-0-9926471-0-0 .
{{cite journal}}
: CS1 maint: DOI неактивен по состоянию на февраль 2024 г. ( ссылка ) - ^ Веб-приложение Ромы
- ^ Бернард, Лу; Бауман, Сид, ред. (2007), TEI P5: Рекомендации по электронному кодированию и обмену текстом , Шарлоттсвилл, Вирджиния, США: Консорциум TEI .
- ^ Файл W3C ITS и TEI ODD. Архивировано 15 июля 2017 г. на Wayback Machine.
- ^ Савурель, Ив; Косек, Йирка; Исида, Ричард, ред. (2008), «5.2 ITS и TEI», Лучшие практики интернационализации XML , Рабочая группа W3C .
- ^ «Инициатива по кодированию уставов - Мюнхенский университет Людвига-Максимилиана» . www.cei.lmu.de.
- ^ «Средневековый скандинавский текстовый архив (Менота)» . www.menota.org .
- ^ Аронхейм, младший (1998). «Описательные метаданные: новые стандарты». Журнал академического библиотечного дела . 24 (5): 395–403. дои : 10.1016/S0099-1333(98)90079-9 .
- ^ Кантара, Л. (2005). «Инициатива по кодированию текста: Часть 1». OCLC Системы и услуги . 21 (1): 36–39. дои : 10.1108/10650750510578136 .
- ^ «Ассоциация компьютеров и гуманитарных наук |» . ach.org .
- ^ «Историческая справка», раздел iv.2 TEI P5: Рекомендации по электронному кодированию текста и обмену ими.
- ^ «Заключительное заявление конференции по планированию Вассара» . tei-c.org . 2009 . Проверено 15 апреля 2012 г.
- ^ «Руководство ТЭИ» . Проверено 18 июня 2010 г.
- ^ "2" , Основы XML , получено 9 июля 2011 г.
- ^ «Расширяемый язык разметки (XML) 1.0 (пятое издание)» . w3.org .
- ^ «Примечания к выпуску P5 версии 2.0.1» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
- ^ «TEI: Инициатива по кодированию текста» .
Внешние ссылки [ править ]
- Веб-сайт Консорциума TEI со списком проектов TEI , формой для добавления вашего проекта. Архивировано 5 марта 2017 г. на Wayback Machine и вики.
- Журнал TEI. Архивировано 18 января 2019 г. в Wayback Machine.
- TEI Lite: введение в кодирование текста для обмена
- TEI @ Oxford. Архивировано 13 апреля 2021 г. на Wayback Machine (размещено в Оксфордском университете ) с версиями для разработки и резервными копиями большей части основного контента.
- Сайт TEI GitHub (размещен на GitHub ) с репозиторием и системой отслеживания проблем.
- Большой список проектов TEI
- Что такое ТЭИ? (Вводный обзор Лу Бернарда)