Jump to content

Инициатива по кодированию текста

Text Encoding Initiative ( TEI ) — это текстоцентрическое сообщество практиков в академической области цифровых гуманитарных наук , непрерывно действующее с 1980-х годов. В настоящее время сообщество ведет список рассылки, проводит серии встреч и конференций, а также поддерживает технический стандарт TEI , журнал . [1] вики . , GitHub и набор инструментов репозиторий

Рекомендации TEI

[ редактировать ]

Рекомендации TEI в совокупности определяют тип формата XML и являются определяющим результатом сообщества практиков. Этот формат отличается от других известных открытых форматов текста (таких как HTML и OpenDocument ) тем, что он в первую очередь семантический, а не презентационный: указаны семантика и интерпретация каждого тега и атрибута. Существует около 500 различных текстовых компонентов и понятий: слово , [2] предложение , [3] характер , [4] глиф , [5] человек , [6] и т. д. Каждый из них основан на одной или нескольких академических дисциплинах и приводятся примеры.

Технические детали

[ редактировать ]

Стандарт разделен на две части: дискурсивное текстовое описание с расширенными примерами и обсуждением, а также набор определений по тегам. Схемы в большинстве современных форматов ( DTD , RELAX NG и XML Schema (W3C) ) генерируются автоматически на основе пометочных определений. Ряд инструментов поддерживает разработку руководств и их применение к конкретным проектам.

Ряд специальных тегов используется для обхода ограничений, налагаемых базовым Unicode ; глиф, позволяющий представлять символы, которые не подлежат включению в Юникод. [2] и выбор , позволяющий преодолеть требуемую строгую линейность. [7]

Большинство пользователей формата не используют полный набор тегов, а производят настройку, используя подмножество тегов и атрибутов, специфичных для проекта, определенных Руководящими принципами. Для этой цели TEI определяет сложный механизм настройки, известный как ODD. Помимо документирования и описания каждого тега TEI, спецификация ODD определяет его модель контента и другие ограничения использования, которые могут быть выражены с помощью Schematron .

TEI Lite — пример такой настройки. на основе XML Он определяет формат файла для обмена текстами. Это удобный выбор из обширного набора элементов, доступных в полной версии Руководства TEI.

Будучи форматом на основе XML, TEI не может напрямую работать с перекрывающейся разметкой и неиерархическими структурами. В руководящих принципах предлагаются различные варианты представления такого рода данных. [8]

Текст рекомендаций TEI богат примерами. На вики TEI также есть страница с образцами: [9] в котором приводятся примеры реальных проектов, раскрывающих лежащий в их основе TEI.

Проза Теги

[ редактировать ]

TEI позволяет синтаксически размечать тексты на любом уровне детализации или смешанном уровне детализации. Например, этот абзац (p) разбит на предложения (s) и пункты (cl). [10]

 <s>
  <cl>It was about the beginning of September, 1664,
  <cl>that I, among the rest of my neighbours,
       heard in ordinary discourse
   <cl>that the plague was returned again to Holland; </cl>
   </cl>
  </cl>
  <cl>for it had been very violent there, and particularly at
     Amsterdam and Rotterdam, in the year 1663, </cl>
  <cl>whither, <cl>they say,</cl> it was brought,
  <cl>some said</cl> from Italy, others from the Levant, among some goods
  <cl>which were brought home by their Turkey fleet;</cl>
  </cl>
  <cl>others said it was brought from Candia;
     others from Cyprus. </cl>
 </s>
 <s>
  <cl>It mattered not <cl>from whence it came;</cl>
  </cl>
  <cl>but all agreed <cl>it was come into Holland again.</cl>
  </cl>
 </s>

В TEI есть теги для разметки стихов. В этом примере (взятом из французского перевода Руководства TEI) показан сонет. [11]

<div type="sonnet">
 <lg type="quatrain">
  <l>Les amoureux fervents et les savants austères</l>
  <l> Aiment également, dans leur mûre saison,</l>
  <l> Les chats puissants et doux, orgueil de la maison,</l>
  <l> Qui comme eux sont frileux et comme eux sédentaires.</l>
 </lg>
 <lg type="quatrain">
  <l>Amis de la science et de la volupté</l>
  <l> Ils cherchent le silence et l'horreur des ténèbres ;</l>
  <l> L'Érèbe les eût pris pour ses coursiers funèbres,</l>
  <l> S'ils pouvaient au servage incliner leur fierté.</l>
 </lg>
 <lg type="tercet">
  <l>Ils prennent en songeant les nobles attitudes</l>
  <l>Des grands sphinx allongés au fond des solitudes,</l>
  <l>Qui semblent s'endormir dans un rêve sans fin ;</l>
 </lg>
 <lg type="tercet">
  <l>Leurs reins féconds sont pleins d'étincelles magiques,</l>
  <l> Et des parcelles d'or, ainsi qu'un sable fin,</l>
  <l>Étoilent vaguement leurs prunelles mystiques.</l>
 </lg>
</div>

Выбор тега

[ редактировать ]

The Тег выбора используется для представления разделов текста, которые могут быть закодированы или помечены более чем одним возможным способом. В следующем примере, основанном на стандарте, выбор используется дважды: один раз для обозначения исходного и исправленного номера и один раз для обозначения исходного и упорядоченного написания. [12]

<p xml:id="p23">Lastly, That, upon his solemn oath to observe all the above
articles, the said man-mountain shall have a daily allowance of
meat and drink sufficient for the support of <choice>
  <sic>1724</sic>
  <corr>1728</corr>
 </choice> of our subjects,
with free access to our royal person, and other marks of our
<choice>
  <orig>favour</orig>
  <reg>favor</reg>
 </choice>.

СТРАННЫЙ

[ редактировать ]

One Document Does it all («ODD») — это грамотный язык программирования для XML-схем . [13] [14] [15] [16]

В стиле грамотного программирования документы ODD сочетают в себе удобочитаемую документацию и машиночитаемые модели с использованием модуля «Элементы документации» Инициативы по кодированию текста. Инструменты генерируют локализованный и интернационализированный в формате HTML , ePub или PDF, удобочитаемый вывод DTD , W3C XML Schema , Relax NG а также машиночитаемый вывод Compact Syntax или Relax NG XML Syntax.

Веб-приложение Roma [17] построен на основе формата ODD и может использовать его для создания схем в форматах DTD , W3C XML Schema , Relax NG Compact Syntax или Relax NG XML Syntax, которые используются многими инструментами и службами проверки XML.

ODD — это формат, используемый внутри компании Text Encoding Initiative для технического стандарта TEI . [18] Хотя файлы ODD обычно описывают разницу между настроенным форматом XML и полной моделью TEI, ODD также можно использовать для описания форматов XML, которые полностью отделены от TEI. Одним из примеров этого является W3C набор тегов интернационализации , который использует формат ODD для создания схем и документирования своего словаря. [19] [20]

Настройки TEI

[ редактировать ]

Настройки TEI — это специализация спецификации TEI XML для использования в определенных областях или определенными сообществами.

  • ЭпиДок (Эпиграфические документы)
  • Инициатива по кодированию уставов [21]
  • Средневековый скандинавский текстовый архив (Менота) [22]

Настройка в TEI осуществляется с помощью механизма ODD, упомянутого выше. На самом деле, начиная с версии P5, все так называемые «TEI-совместимые» варианты использования Руководства TEI основаны на настройке TEI, задокументированной в файле TEI ODD. Даже когда пользователи выбирают для проверки одну из готовых предварительно созданных схем, они создаются из свободно доступных файлов настройки.

Этот формат используется многими проектами по всему миру. Практически все проекты связаны с одним или несколькими университетами. Некоторые известные проекты, кодирующие тексты с использованием TEI, включают:

ТЭИ проекты
Проект URL-адрес Тема(ы)
Британский национальный корпус http://www.natcorp.ox.ac.uk Снимок текущего использования английского языка на 100 миллионов слов
Оксфордский текстовый архив https://ota.bodleian.ox.ac.uk/repository/xmlui/ >1 ГБ лингвистических данных и электронных текстов на 25 языках
Проект Персей https://www.perseus.tufts.edu/ Греческие и латинские тексты
ЭпиДок https://sourceforge.net/p/epidoc/wiki/Home/ Эпиграфия и папирология
Проект женщин-писателей https://wwp.northeastern.edu/ Ранние современные женщины-писательницы ( Маргарет Кавендиш , Элиза Хейвуд и др.)
Электронный текстовый центр Новой Зеландии http://www.nzetc.org/ Новой Зеландии и островов Тихого океана Тексты
Проект МЕЧ https://www.crosswire.org/sword/ Библейское программное обеспечение , словари, христианская литература
FreeDict https://freedict.org/ Двуязычные словари
Партнерство по созданию текста https://textcreationpartnership.org/ Ранние британские и американские книги
КЕЛЬТ https://celt.ucc.ie/publishd.html Древние и средневековые ирландские рукописи
ИСТЕКС https://www.istex.fr/ Архивы научных публикаций
ТАКСИ https://cab.geschkult.fu-berlin.de/ Издание зороастрийских ритуалов Авесты на авестийских языках .

До создания TEI у ученых-гуманитариев не было единых стандартов кодирования электронных текстов, которые бы отвечали их академическим целям ( Хоккей , 1993, стр. 41). В 1987 году группа ученых, представляющих области гуманитарных наук, лингвистики и информатики, собралась в колледже Вассар, чтобы выдвинуть набор руководящих принципов, известных как «Принципы Покипси». Эти рекомендации направили разработку первого стандарта TEI «P1». [23] [24]

  • 1987 – Начало работы Ассоциации компьютеров и гуманитарных наук . [25] Ассоциация компьютерной лингвистики и Ассоциация литературных и лингвистических вычислений о том, что впоследствии станет TEI. [26] Кульминацией этого стало заключительное заявление конференции по планированию в Вассаре . [27]
  • 1994 г. - выпущен TEI P3, [28] под совместным редактированием Лу Бернарда Оксфордском университете ) и Майкла Сперберга-МакКуина (тогда в Университете Иллинойса в Чикаго , позже в W3C ).
  • 1999 г. - обновлен TEI P3.
  • 2002 г. – выпущен TEI P4 с переходом от SGML к XML; принятие Unicode , который должны поддерживать парсеры XML. [29]
  • 2007 г. – выпущен TEI P5, включая интеграцию с xml:lang и xml:id атрибуты из W3C [30] (ранее это были атрибуты в пространстве имен TEI), регуляризация локальных указывающих атрибутов для использования хеша (как используется в HTML) и унификация тегов ptr и xptr. Вместе эти изменения со многими новыми дополнениями делают P5 более регулярным и приближают его к текущей практике работы с XML, пропагандируемой W3C и используемой другими вариантами XML. Версии обслуживания и обновления функций TEI P5 выпускаются не реже двух раз в год с 2007 года.
  • 2011 — выпущен TEI P5 v2.0.1 с поддержкой генетического редактирования. [31] (среди многих других дополнений функции генетического редактирования позволяют кодировать тексты без интерпретации их конкретной семантики).
  • 2017 г. - TEI был награжден премией Антонио Замполли от Альянса цифровых гуманитарных организаций. [32]
  1. ^ «Журнал Инициативы по кодированию текста» . Открытые издания журналов . Проверено 29 июня 2022 г.
  2. ^ Jump up to: а б «Элемент TEI w (слово)» . tei-c.org .
  3. ^ «Элемент TEI s (s-единица)» . tei-c.org .
  4. ^ «TEI элемент c (символ)» . tei-c.org .
  5. ^ «Элемент TEI g (символ или глиф)» . tei-c.org .
  6. ^ «Элемент ТЭИ лицо (человек)» . tei-c.org .
  7. ^ «Выбор элемента» . www.tei-c.org .
  8. ^ «20 неиерархических структур — TEI P5: — Рекомендации по электронному кодированию текста и обмену им» . tei-c.org . 2019 . Проверено 19 марта 2019 г.
  9. ^ «Образцы текстов ТЭИ» . wiki.tei-c.org . 2011 . Проверено 17 апреля 2012 г.
  10. ^ «17 простых аналитических механизмов - TEI P5: — Рекомендации по электронному кодированию текста и обмену им» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
  11. ^ «Элемент TEI lg (группа версий)» . tei-c.org . 2012. Архивировано из оригинала 6 июня 2012 года . Проверено 15 апреля 2012 г.
  12. ^ «Выбор элемента ТЭИ» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
  13. ^ Бауман, Сид; Фландерс, Джулия (2004), «Настройки ODD», Extreme Markup Languages ​​2004 , заархивировано из оригинала 29 марта 2012 г. , получено 15 апреля 2012 г.
  14. ^ Бернард, Лу; Рахц, Себастьян (2004), «RelaxNG с Son of ODD», Extreme Markup Languages ​​2004 , заархивировано из оригинала 29 марта 2012 г. , получено 15 апреля 2012 г.
  15. ^ Рейсс, Кевин М. (2007), Грамотная документация для XML (PDF) , Урбана-Шампейн, Иллинойс: Digital Humanities 2007, заархивировано из оригинала (PDF) 03 марта 2016 г. , получено 15 апреля 2012 г.
  16. ^ Бернард, Лу; Рахц, Себастьян (июнь 2013 г.). «Полный язык определения схемы для инициативы по кодированию текста» . XML Лондон 2013 : 152–161. doi : 10.14337/XMLLondon13.Rahtz01 (неактивен 27 февраля 2024 г.). ISBN  978-0-9926471-0-0 . {{cite journal}}: CS1 maint: DOI неактивен по состоянию на февраль 2024 г. ( ссылка )
  17. ^ Веб-приложение Ромы
  18. ^ Бернард, Лу; Бауман, Сид, ред. (2007), TEI P5: Рекомендации по электронному кодированию и обмену текстом , Шарлоттсвилл, Вирджиния, США: Консорциум TEI .
  19. ^ W3C ITS и Файл TEI ODD. Архивировано 15 июля 2017 г. на Wayback Machine.
  20. ^ Савурель, Ив; Косек, Йирка; Исида, Ричард, ред. (2008), «5.2 ITS и TEI», Лучшие практики интернационализации XML , Рабочая группа W3C .
  21. ^ «Инициатива по кодированию уставов - Мюнхенский университет Людвига-Максимилиана» . www.cei.lmu.de.
  22. ^ «Средневековый скандинавский текстовый архив (Менота)» . www.menota.org .
  23. ^ Аронхейм, младший (1998). «Описательные метаданные: новые стандарты». Журнал академического библиотечного дела . 24 (5): 395–403. дои : 10.1016/S0099-1333(98)90079-9 .
  24. ^ Кантара, Л. (2005). «Инициатива по кодированию текста: Часть 1». OCLC Системы и услуги . 21 (1): 36–39. дои : 10.1108/10650750510578136 .
  25. ^ «Ассоциация компьютеров и гуманитарных наук |» . ach.org .
  26. ^ «Историческая справка», раздел iv.2 TEI P5: Рекомендации по электронному кодированию текста и обмену ими.
  27. ^ «Заключительное заявление конференции по планированию Вассара» . tei-c.org . 2009 . Проверено 15 апреля 2012 г.
  28. ^ «Руководство ТЭИ» . Проверено 18 июня 2010 г.
  29. ^ "2" , Основы XML , получено 9 июля 2011 г.
  30. ^ «Расширяемый язык разметки (XML) 1.0 (пятое издание)» . w3.org .
  31. ^ «Примечания к выпуску P5 версии 2.0.1» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
  32. ^ «TEI: Инициатива по кодированию текста» .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0ad16e112e518772789f7bc0a85331a0__1719083280
URL1:https://arc.ask3.ru/arc/aa/0a/a0/0ad16e112e518772789f7bc0a85331a0.html
Заголовок, (Title) документа по адресу, URL1:
Text Encoding Initiative - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)