Инициатива по кодированию текста

Text Encoding Initiative ( TEI ) — это текстоцентрическое сообщество практиков в академической области цифровых гуманитарных наук , непрерывно действующее с 1980-х годов. В настоящее время сообщество ведет список рассылки, проводит серии встреч и конференций, а также поддерживает технический стандарт TEI , журнал . [1] вики . , GitHub и набор инструментов репозиторий
Рекомендации TEI
[ редактировать ]Рекомендации TEI в совокупности определяют тип формата XML и являются определяющим результатом сообщества практиков. Этот формат отличается от других известных открытых форматов текста (таких как HTML и OpenDocument ) тем, что он в первую очередь семантический, а не презентационный: указаны семантика и интерпретация каждого тега и атрибута. Существует около 500 различных текстовых компонентов и понятий: слово , [2] предложение , [3] характер , [4] глиф , [5] человек , [6] и т. д. Каждый из них основан на одной или нескольких академических дисциплинах и приводятся примеры.
Технические детали
[ редактировать ]Стандарт разделен на две части: дискурсивное текстовое описание с расширенными примерами и обсуждением, а также набор определений по тегам. Схемы в большинстве современных форматов ( DTD , RELAX NG и XML Schema (W3C) ) генерируются автоматически на основе пометочных определений. Ряд инструментов поддерживает разработку руководств и их применение к конкретным проектам.
Ряд специальных тегов используется для обхода ограничений, налагаемых базовым Unicode ; глиф, позволяющий представлять символы, которые не подлежат включению в Юникод. [2] и выбор , позволяющий преодолеть требуемую строгую линейность. [7]
Большинство пользователей формата не используют полный набор тегов, а производят настройку, используя подмножество тегов и атрибутов, специфичных для проекта, определенных Руководящими принципами. Для этой цели TEI определяет сложный механизм настройки, известный как ODD. Помимо документирования и описания каждого тега TEI, спецификация ODD определяет его модель контента и другие ограничения использования, которые могут быть выражены с помощью Schematron .
TEI Lite — пример такой настройки. на основе XML Он определяет формат файла для обмена текстами. Это удобный выбор из обширного набора элементов, доступных в полной версии Руководства TEI.
Будучи форматом на основе XML, TEI не может напрямую работать с перекрывающейся разметкой и неиерархическими структурами. В руководящих принципах предлагаются различные варианты представления такого рода данных. [8]
Примеры
[ редактировать ]Текст рекомендаций TEI богат примерами. На вики TEI также есть страница с образцами: [9] в котором приводятся примеры реальных проектов, раскрывающих лежащий в их основе TEI.
Проза Теги
[ редактировать ]TEI позволяет синтаксически размечать тексты на любом уровне детализации или смешанном уровне детализации. Например, этот абзац (p) разбит на предложения (s) и пункты (cl). [10]
<s>
<cl>It was about the beginning of September, 1664,
<cl>that I, among the rest of my neighbours,
heard in ordinary discourse
<cl>that the plague was returned again to Holland; </cl>
</cl>
</cl>
<cl>for it had been very violent there, and particularly at
Amsterdam and Rotterdam, in the year 1663, </cl>
<cl>whither, <cl>they say,</cl> it was brought,
<cl>some said</cl> from Italy, others from the Levant, among some goods
<cl>which were brought home by their Turkey fleet;</cl>
</cl>
<cl>others said it was brought from Candia;
others from Cyprus. </cl>
</s>
<s>
<cl>It mattered not <cl>from whence it came;</cl>
</cl>
<cl>but all agreed <cl>it was come into Holland again.</cl>
</cl>
</s>
Стих
[ редактировать ]В TEI есть теги для разметки стихов. В этом примере (взятом из французского перевода Руководства TEI) показан сонет. [11]
<div type="sonnet">
<lg type="quatrain">
<l>Les amoureux fervents et les savants austères</l>
<l> Aiment également, dans leur mûre saison,</l>
<l> Les chats puissants et doux, orgueil de la maison,</l>
<l> Qui comme eux sont frileux et comme eux sédentaires.</l>
</lg>
<lg type="quatrain">
<l>Amis de la science et de la volupté</l>
<l> Ils cherchent le silence et l'horreur des ténèbres ;</l>
<l> L'Érèbe les eût pris pour ses coursiers funèbres,</l>
<l> S'ils pouvaient au servage incliner leur fierté.</l>
</lg>
<lg type="tercet">
<l>Ils prennent en songeant les nobles attitudes</l>
<l>Des grands sphinx allongés au fond des solitudes,</l>
<l>Qui semblent s'endormir dans un rêve sans fin ;</l>
</lg>
<lg type="tercet">
<l>Leurs reins féconds sont pleins d'étincelles magiques,</l>
<l> Et des parcelles d'or, ainsi qu'un sable fin,</l>
<l>Étoilent vaguement leurs prunelles mystiques.</l>
</lg>
</div>
Выбор тега
[ редактировать ]The Тег выбора используется для представления разделов текста, которые могут быть закодированы или помечены более чем одним возможным способом. В следующем примере, основанном на стандарте, выбор используется дважды: один раз для обозначения исходного и исправленного номера и один раз для обозначения исходного и упорядоченного написания. [12]
<p xml:id="p23">Lastly, That, upon his solemn oath to observe all the above
articles, the said man-mountain shall have a daily allowance of
meat and drink sufficient for the support of <choice>
<sic>1724</sic>
<corr>1728</corr>
</choice> of our subjects,
with free access to our royal person, and other marks of our
<choice>
<orig>favour</orig>
<reg>favor</reg>
</choice>.
СТРАННЫЙ
[ редактировать ]One Document Does it all («ODD») — это грамотный язык программирования для XML-схем . [13] [14] [15] [16]
В стиле грамотного программирования документы ODD сочетают в себе удобочитаемую документацию и машиночитаемые модели с использованием модуля «Элементы документации» Инициативы по кодированию текста. Инструменты генерируют локализованный и интернационализированный в формате HTML , ePub или PDF, удобочитаемый вывод DTD , W3C XML Schema , Relax NG а также машиночитаемый вывод Compact Syntax или Relax NG XML Syntax.
Веб-приложение Roma [17] построен на основе формата ODD и может использовать его для создания схем в форматах DTD , W3C XML Schema , Relax NG Compact Syntax или Relax NG XML Syntax, которые используются многими инструментами и службами проверки XML.
ODD — это формат, используемый внутри компании Text Encoding Initiative для технического стандарта TEI . [18] Хотя файлы ODD обычно описывают разницу между настроенным форматом XML и полной моделью TEI, ODD также можно использовать для описания форматов XML, которые полностью отделены от TEI. Одним из примеров этого является W3C набор тегов интернационализации , который использует формат ODD для создания схем и документирования своего словаря. [19] [20]
Настройки TEI
[ редактировать ]Настройки TEI — это специализация спецификации TEI XML для использования в определенных областях или определенными сообществами.
- ЭпиДок (Эпиграфические документы)
- Инициатива по кодированию уставов [21]
- Средневековый скандинавский текстовый архив (Менота) [22]
Настройка в TEI осуществляется с помощью механизма ODD, упомянутого выше. На самом деле, начиная с версии P5, все так называемые «TEI-совместимые» варианты использования Руководства TEI основаны на настройке TEI, задокументированной в файле TEI ODD. Даже когда пользователи выбирают для проверки одну из готовых предварительно созданных схем, они создаются из свободно доступных файлов настройки.
Проекты
[ редактировать ]Этот формат используется многими проектами по всему миру. Практически все проекты связаны с одним или несколькими университетами. Некоторые известные проекты, кодирующие тексты с использованием TEI, включают:
История
[ редактировать ]До создания TEI у ученых-гуманитариев не было единых стандартов кодирования электронных текстов, которые бы отвечали их академическим целям ( Хоккей , 1993, стр. 41). В 1987 году группа ученых, представляющих области гуманитарных наук, лингвистики и информатики, собралась в колледже Вассар, чтобы выдвинуть набор руководящих принципов, известных как «Принципы Покипси». Эти рекомендации направили разработку первого стандарта TEI «P1». [23] [24]
- 1987 – Начало работы Ассоциации компьютеров и гуманитарных наук . [25] Ассоциация компьютерной лингвистики и Ассоциация литературных и лингвистических вычислений о том, что впоследствии станет TEI. [26] Кульминацией этого стало заключительное заявление конференции по планированию в Вассаре . [27]
- 1994 г. - выпущен TEI P3, [28] под совместным редактированием Лу Бернарда (в Оксфордском университете ) и Майкла Сперберга-МакКуина (тогда в Университете Иллинойса в Чикаго , позже в W3C ).
- 1999 г. - обновлен TEI P3.
- 2002 г. – выпущен TEI P4 с переходом от SGML к XML; принятие Unicode , который должны поддерживать парсеры XML. [29]
- 2007 г. – выпущен TEI P5, включая интеграцию с
xml:lang
иxml:id
атрибуты из W3C [30] (ранее это были атрибуты в пространстве имен TEI), регуляризация локальных указывающих атрибутов для использования хеша (как используется в HTML) и унификация тегов ptr и xptr. Вместе эти изменения со многими новыми дополнениями делают P5 более регулярным и приближают его к текущей практике работы с XML, пропагандируемой W3C и используемой другими вариантами XML. Версии обслуживания и обновления функций TEI P5 выпускаются не реже двух раз в год с 2007 года. - 2011 — выпущен TEI P5 v2.0.1 с поддержкой генетического редактирования. [31] (среди многих других дополнений функции генетического редактирования позволяют кодировать тексты без интерпретации их конкретной семантики).
- 2017 г. - TEI был награжден премией Антонио Замполли от Альянса цифровых гуманитарных организаций. [32]
Ссылки
[ редактировать ]- ^ «Журнал Инициативы по кодированию текста» . Открытые издания журналов . Проверено 29 июня 2022 г.
- ^ Jump up to: а б «Элемент TEI w (слово)» . tei-c.org .
- ^ «Элемент TEI s (s-единица)» . tei-c.org .
- ^ «TEI элемент c (символ)» . tei-c.org .
- ^ «Элемент TEI g (символ или глиф)» . tei-c.org .
- ^ «Элемент ТЭИ лицо (человек)» . tei-c.org .
- ^ «Выбор элемента» . www.tei-c.org .
- ^ «20 неиерархических структур — TEI P5: — Рекомендации по электронному кодированию текста и обмену им» . tei-c.org . 2019 . Проверено 19 марта 2019 г.
- ^ «Образцы текстов ТЭИ» . wiki.tei-c.org . 2011 . Проверено 17 апреля 2012 г.
- ^ «17 простых аналитических механизмов - TEI P5: — Рекомендации по электронному кодированию текста и обмену им» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
- ^ «Элемент TEI lg (группа версий)» . tei-c.org . 2012. Архивировано из оригинала 6 июня 2012 года . Проверено 15 апреля 2012 г.
- ^ «Выбор элемента ТЭИ» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
- ^ Бауман, Сид; Фландерс, Джулия (2004), «Настройки ODD», Extreme Markup Languages 2004 , заархивировано из оригинала 29 марта 2012 г. , получено 15 апреля 2012 г.
- ^ Бернард, Лу; Рахц, Себастьян (2004), «RelaxNG с Son of ODD», Extreme Markup Languages 2004 , заархивировано из оригинала 29 марта 2012 г. , получено 15 апреля 2012 г.
- ^ Рейсс, Кевин М. (2007), Грамотная документация для XML (PDF) , Урбана-Шампейн, Иллинойс: Digital Humanities 2007, заархивировано из оригинала (PDF) 03 марта 2016 г. , получено 15 апреля 2012 г.
- ^ Бернард, Лу; Рахц, Себастьян (июнь 2013 г.). «Полный язык определения схемы для инициативы по кодированию текста» . XML Лондон 2013 : 152–161. doi : 10.14337/XMLLondon13.Rahtz01 (неактивен 27 февраля 2024 г.). ISBN 978-0-9926471-0-0 .
{{cite journal}}
: CS1 maint: DOI неактивен по состоянию на февраль 2024 г. ( ссылка ) - ^ Веб-приложение Ромы
- ^ Бернард, Лу; Бауман, Сид, ред. (2007), TEI P5: Рекомендации по электронному кодированию и обмену текстом , Шарлоттсвилл, Вирджиния, США: Консорциум TEI .
- ^ W3C ITS и Файл TEI ODD. Архивировано 15 июля 2017 г. на Wayback Machine.
- ^ Савурель, Ив; Косек, Йирка; Исида, Ричард, ред. (2008), «5.2 ITS и TEI», Лучшие практики интернационализации XML , Рабочая группа W3C .
- ^ «Инициатива по кодированию уставов - Мюнхенский университет Людвига-Максимилиана» . www.cei.lmu.de.
- ^ «Средневековый скандинавский текстовый архив (Менота)» . www.menota.org .
- ^ Аронхейм, младший (1998). «Описательные метаданные: новые стандарты». Журнал академического библиотечного дела . 24 (5): 395–403. дои : 10.1016/S0099-1333(98)90079-9 .
- ^ Кантара, Л. (2005). «Инициатива по кодированию текста: Часть 1». OCLC Системы и услуги . 21 (1): 36–39. дои : 10.1108/10650750510578136 .
- ^ «Ассоциация компьютеров и гуманитарных наук |» . ach.org .
- ^ «Историческая справка», раздел iv.2 TEI P5: Рекомендации по электронному кодированию текста и обмену ими.
- ^ «Заключительное заявление конференции по планированию Вассара» . tei-c.org . 2009 . Проверено 15 апреля 2012 г.
- ^ «Руководство ТЭИ» . Проверено 18 июня 2010 г.
- ^ "2" , Основы XML , получено 9 июля 2011 г.
- ^ «Расширяемый язык разметки (XML) 1.0 (пятое издание)» . w3.org .
- ^ «Примечания к выпуску P5 версии 2.0.1» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
- ^ «TEI: Инициатива по кодированию текста» .
Внешние ссылки
[ редактировать ]- Веб-сайт Консорциума TEI со списком проектов TEI , формой для добавления вашего проекта. Архивировано 5 марта 2017 г. на Wayback Machine и вики.
- Журнал TEI. Архивировано 18 января 2019 г. в Wayback Machine.
- TEI Lite: введение в кодирование текста для обмена
- TEI @ Oxford. Архивировано 13 апреля 2021 г. на Wayback Machine (размещено в Оксфордском университете ) с версиями для разработки и резервными копиями большей части основного контента.
- Сайт TEI GitHub (размещен на GitHub ) с репозиторием и системой отслеживания проблем.
- Большой список проектов TEI
- Что такое ТЭИ? (Вводный обзор Лу Бернарда)