~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 5EC1ADBAB7CFE855292AD6556244FEDC__1713941820 ✰
Заголовок документа оригинал.:
✰ Text Encoding Initiative - Wikipedia ✰
Заголовок документа перевод.:
✰ Инициатива по кодированию текста — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Text_Encoding_Initiative ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/5e/dc/5ec1adbab7cfe855292ad6556244fedc.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/5e/dc/5ec1adbab7cfe855292ad6556244fedc__translat.html ✰
Дата и время сохранения документа:
✰ 15.06.2024 22:42:57 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 24 April 2024, at 09:57 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Инициатива по кодированию текста — Википедия Jump to content

Инициатива по кодированию текста

Из Википедии, бесплатной энциклопедии

Text Encoding Initiative ( TEI ) — это текстоцентрическое сообщество практиков в академической области цифровых гуманитарных наук , непрерывно действующее с 1980-х годов. В настоящее время сообщество ведет список рассылки, проводит встречи и серии конференций, а также поддерживает технический стандарт TEI , журнал . [1] вики , репозиторий GitHub и набор инструментов .

Рекомендации TEI [ править ]

в Рекомендации TEI совокупности определяют тип формата XML и являются определяющим результатом сообщества практиков. Этот формат отличается от других известных открытых форматов текста (таких как HTML и OpenDocument ) тем, что он в первую очередь семантический, а не презентационный: указаны семантика и интерпретация каждого тега и атрибута. Существует около 500 различных текстовых компонентов и понятий: слово , [2] предложение , [3] характер , [4] глиф , [5] человек , [6] и т. д. Каждый из них основан на одной или нескольких академических дисциплинах и приводятся примеры.

Технические подробности [ править ]

Стандарт разделен на две части: дискурсивное текстовое описание с расширенными примерами и обсуждением, а также набор определений по тегам. Схемы в большинстве современных форматов ( DTD , RELAX NG и XML Schema (W3C) ) генерируются автоматически на основе пометочных определений. Ряд инструментов поддерживает разработку руководств и их применение к конкретным проектам.

Ряд специальных тегов используется для обхода ограничений, налагаемых базовым Unicode ; глиф , позволяющий представлять символы, которые не подлежат включению в Юникод. [2] и выбор , позволяющий преодолеть требуемую строгую линейность. [7]

Большинство пользователей формата не используют полный набор тегов, а производят настройку, используя подмножество тегов и атрибутов, специфичных для проекта, определенных Руководящими принципами. Для этой цели TEI определяет сложный механизм настройки, известный как ODD. Помимо документирования и описания каждого тега TEI, спецификация ODD определяет его модель контента и другие ограничения использования, которые могут быть выражены с помощью Schematron .

TEI Lite — пример такой настройки. на основе XML Он определяет формат файла для обмена текстами. Это удобный выбор из обширного набора элементов, доступных в полной версии Руководства TEI.

Будучи форматом на основе XML, TEI не может напрямую работать с перекрывающейся разметкой и неиерархическими структурами. В руководящих принципах предлагаются различные варианты представления такого рода данных. [8]

Примеры [ править ]

Текст рекомендаций TEI богат примерами. На вики TEI также есть страница с образцами: [9] в котором приводятся примеры реальных проектов, раскрывающих лежащий в их основе TEI.

Теги прозы [ править ]

TEI позволяет синтаксически размечать тексты на любом уровне детализации или смешанном уровне детализации. Например, этот абзац (p) разбит на предложения (s) и пункты (cl). [10]

 <s> 
   <cl>  Это   было   примерно   в   начале   сентября   ,   1664 года 
    <cl>  что   ,   среди   остальных   соседей   моих   ,   я 
         слышно   в   обычном   разговоре 
     <cl>  что   чума    вернулась   снова   ;   в   Голландию    </cl> 
    </cl> 
   </cl> 
   <cl>  потому   что   было   жестоко   очень   в   ,   и   особенно   там 
       Амстердам   и   Роттердам,   в   ,   1663 году   </cl>   <cl> 
   куда  ,   <cl>  говорят   ,  </cl>   его   привезли   , 
    <cl>  одни   сказали  </cl>   из   Италии,   другие   из   Леванта   ,   среди   некоторых   товаров 
    <cl>  которые   были   доставлены   домой   их   ;   турецким   флотом   </cl> 
   </cl> 
   <cl>  другие   говорили,   его   привезли   что   из   Кандии; 
       другие   с   Кипра.    </cl> 
  </s> 
  <s> 
   <cl>  Не   имело значения   ,   <cl>  откуда   пришло   оно   ;   </cl> 
   </cl> 
   <cl>  но   все   согласились   <cl>  он   снова прибыл   , что   в   Голландию   .   </cl> 
   </cl> 
  </s> 

Стих [ править ]

В TEI есть теги для разметки стихов. В этом примере (взятом из французского перевода Руководства TEI) показан сонет. [11]

<div   type=  sonnet"  > 
  <lg   =  "quatrain"  <l> 
   Пылкие  и   ,   любители   строгие   </l>   учёные   Также  <l> 
   любят   type   в   их   пору   ,   "  </l> 
   <l>   Кошек   >   сильных   и   нежных ,   гордость   дома   ,   ,  </l> 
   <l>   Кто   любит   их   зябок   образ   и   любит   сидячий   жизни.   </l> 
  </lg> 
  lg   type  катрен  > 
   <l>  Друзья   науки    ;   и   развлечений   </l>   <  тишины 
   <l>   Они   ищут   ужаса    и   тьмы   "   "   =   </l> 
   <l>   Эреб   их   бы   принял   за   своих   погребальных коней   ,  </l> 
   <l>   Если бы они   могли   гордость к   крепостному праву   склонить   свою   .   </l> 
  </lg> 
  lg   type=  tercet  > 
   <l>  Они   вспоминают   ,   "   благородные   позы   <  </l> 
   <l>  Великих   </l>   сфинксов   лежащих   в   глубине   уединения   ,  " 
   <  >  Которые   словно   засыпают   бесконечным   сном     ;   l   </l> 
  </lg> 
  <lg   type=  "tercet"  <l> 
   Их  плодородные   полны   чресла   волшебных   <l>   искр   ,  </l> 
   И   также   частиц   мелкого   золота,   >   а   ,   песка  </l> 
   <l>  звёзды   Смутно   их   мистических зрачков   .   </l> 
  </lg> 
 </div> 

Выбор тега [ править ]

The Тег выбора используется для представления разделов текста, которые могут быть закодированы или помечены более чем одним возможным способом. В следующем примере, основанном на стандарте, выбор используется дважды: один раз для обозначения исходного и исправленного номера и один раз для обозначения исходного и упорядоченного написания. [12]

<p   xml:id=  p23"  >  Наконец,   ,   под   своей   торжественной   клятвой   соблюдать   "   все   вышеизложенное   что 
  статей,   указанный   гора   человек-   должен   иметь   суточное   в   содержание   размере 
  мяса   и   питья   достаточных   для   поддержания    <choice>   <sic> 
   ,  1724  </sic> 
   <corr>  1728  </corr> 
  </choice>   наших   подданных   , 
  со   свободным   доступом   к   нашей   королевской   персоне   и   другим   знакам   нашей   <choice> 
   <orig>  предпочтение  </orig> 
   <reg>  предпочтение  </reg> 
  </choice>  . 
 

ЧЕТ [ править ]

One Document Does it all («ODD») — это грамотный язык программирования для XML-схем . [13] [14] [15] [16]

В стиле грамотного программирования документы ODD сочетают в себе удобочитаемую документацию и машиночитаемые модели с использованием модуля «Элементы документации» Инициативы по кодированию текста. Инструменты генерируют локализованный и интернационализированный формате HTML , ePub или PDF, удобочитаемый вывод в DTD , W3C XML Schema , Relax NG а также машиночитаемый вывод Compact Syntax или Relax NG XML Syntax.

Веб-приложение Roma [17] построен на основе формата ODD и может использовать его для создания схем в форматах DTD , W3C XML Schema , Relax NG Compact Syntax или Relax NG XML Syntax, которые используются многими инструментами и службами проверки XML.

ODD — это формат, используемый внутри компании Text Encoding Initiative для технического стандарта TEI . [18] Хотя файлы ODD обычно описывают разницу между настроенным форматом XML и полной моделью TEI, ODD также можно использовать для описания форматов XML, которые полностью отделены от TEI. Одним из примеров этого является W3C набор тегов интернационализации , который использует формат ODD для создания схем и документирования своего словаря. [19] [20]

Настройки TEI [ править ]

Настройки TEI — это специализация спецификации TEI XML для использования в определенных областях или определенными сообществами.

  • ЭпиДок (Эпиграфические документы)
  • Инициатива по кодированию уставов [21]
  • Средневековый скандинавский текстовый архив (Менота) [22]

Настройка в TEI осуществляется с помощью механизма ODD, упомянутого выше. На самом деле, начиная с версии P5, все так называемые «TEI-совместимые» варианты использования Руководства TEI основаны на настройке TEI, задокументированной в файле TEI ODD. Даже когда пользователи выбирают для проверки одну из готовых предварительно созданных схем, они создаются из свободно доступных файлов настройки.

Проекты [ править ]

Этот формат используется многими проектами по всему миру. Практически все проекты связаны с одним или несколькими университетами. Некоторые известные проекты, кодирующие тексты с использованием TEI, включают:

проекты ТЭИ
Проект URL-адрес Сильные стороны
Британский национальный корпус http://www.natcorp.ox.ac.uk Снимок современного английского языка на 100 миллионов слов
Оксфордский текстовый архив https://ota.bodleian.ox.ac.uk/repository/xmlui/ >1 ГБ лингвистических данных и электронных текстов на 25 языках.
Проект Персей https://www.perseus.tufts.edu/ Греческие и латинские тексты
ЭпиДок https://sourceforge.net/p/epidoc/wiki/Home/ Эпиграфика и папирология
Проект женщин-писателей https://wwp.northeastern.edu/ Ранние современные женщины-писательницы ( Маргарет Кавендиш , Элиза Хейвуд и др.)
Электронный текстовый центр Новой Зеландии http://www.nzetc.org/ Новой Зеландии и островов Тихого океана Тексты
Проект МЕЧ https://www.crosswire.org/sword/ Библейское программное обеспечение , словари, христианская литература
FreeDict https://freedict.org/ Двуязычные словари
Партнерство по созданию текста https://textcreationpartnership.org/ Ранние английские и американские книги
КЕЛЬТ https://celt.ucc.ie/publishd.html Древние и средневековые ирландские рукописи
ИСТЕКС https://www.istex.fr/ Архивы научных публикаций
ТАКСИ https://cab.geschkult.fu-berlin.de/ Издание зороастрийских ритуалов на авестийском языке

История [ править ]

До создания TEI у ученых-гуманитариев не было единых стандартов кодирования электронных текстов, которые могли бы служить их академическим целям ( Хоккей , 1993, стр. 41). В 1987 году группа ученых, представляющих области гуманитарных наук, лингвистики и информатики, собралась в колледже Вассар, чтобы выдвинуть набор руководящих принципов, известных как «Принципы Покипси». Эти рекомендации направили разработку первого стандарта TEI «P1». [23] [24]

  • 1987 – Начало работы Ассоциации компьютеров и гуманитарных наук . [25] Ассоциация компьютерной лингвистики и Ассоциация литературных и лингвистических вычислений о том, что впоследствии станет TEI. [26] Кульминацией этого стало заключительное заявление конференции по планированию в Вассаре . [27]
  • 1994 г. - выпущен TEI P3, [28] под совместной редакцией Лу Бернарда Оксфордском университете ) и Майкла Сперберга-МакКуина (тогда в Университете Иллинойса в Чикаго , позже в W3C ).
  • 1999 г. - обновлен TEI P3.
  • 2002 г. – выпущен TEI P4 с переходом от SGML к XML; принятие Unicode , который должны поддерживать парсеры XML. [29]
  • 2007 г. – выпущен TEI P5, включая интеграцию с xml:lang и xml:id атрибуты из W3C [30] (ранее это были атрибуты в пространстве имен TEI), регуляризация локальных указывающих атрибутов для использования хеша (как используется в HTML) и унификация тегов ptr и xptr. Вместе эти изменения со многими новыми дополнениями делают P5 более регулярным и приближают его к современной практике работы с XML, продвигаемой W3C и используемой другими вариантами XML. Версии обслуживания и обновления функций TEI P5 выпускаются не реже двух раз в год с 2007 года.
  • 2011 — выпущен TEI P5 v2.0.1 с поддержкой генетического редактирования. [31] (среди многих других дополнений функции генетического редактирования позволяют кодировать тексты без интерпретации их конкретной семантики).
  • 2017 г. - TEI был награжден премией Антонио Замполли от Альянса цифровых гуманитарных организаций. [32]

Ссылки [ править ]

  1. ^ «Журнал Инициативы по кодированию текста» . Открытые издания журналов . Проверено 29 июня 2022 г.
  2. ^ Перейти обратно: а б «Элемент TEI w (слово)» . tei-c.org .
  3. ^ «Элемент TEI s (s-единица)» . tei-c.org .
  4. ^ «TEI элемент c (символ)» . tei-c.org .
  5. ^ «Элемент TEI g (символ или глиф)» . tei-c.org .
  6. ^ «Элемент ТЭИ лицо (человек)» . tei-c.org .
  7. ^ «Выбор элемента» . www.tei-c.org .
  8. ^ «20 неиерархических структур — TEI P5: — Рекомендации по электронному кодированию и обмену текстом» . tei-c.org . 2019 . Проверено 19 марта 2019 г.
  9. ^ «Образцы текстов ТЭИ» . wiki.tei-c.org . 2011 . Проверено 17 апреля 2012 г.
  10. ^ «17 простых аналитических механизмов - TEI P5: — Рекомендации по электронному кодированию текста и обмену» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
  11. ^ «Элемент TEI lg (группа версий)» . tei-c.org . 2012. Архивировано из оригинала 6 июня 2012 года . Проверено 15 апреля 2012 г.
  12. ^ «Выбор элемента ТЭИ» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
  13. ^ Бауман, Сид; Фландерс, Джулия (2004), «Настройки ODD», Extreme Markup Languages ​​2004 , заархивировано из оригинала 29 марта 2012 г. , получено 15 апреля 2012 г.
  14. ^ Бернард, Лу; Рахц, Себастьян (2004), «RelaxNG с Son of ODD», Extreme Markup Languages ​​2004 , заархивировано из оригинала 29 марта 2012 г. , получено 15 апреля 2012 г.
  15. ^ Рейсс, Кевин М. (2007), Грамотная документация для XML (PDF) , Урбана-Шампейн, Иллинойс: Digital Humanities 2007, заархивировано из оригинала (PDF) 03 марта 2016 г. , получено 15 апреля 2012 г.
  16. ^ Бернард, Лу; Рахц, Себастьян (июнь 2013 г.). «Полный язык определения схемы для инициативы по кодированию текста» . XML Лондон 2013 : 152–161. doi : 10.14337/XMLLondon13.Rahtz01 (неактивен 27 февраля 2024 г.). ISBN  978-0-9926471-0-0 . {{cite journal}}: CS1 maint: DOI неактивен по состоянию на февраль 2024 г. ( ссылка )
  17. ^ Веб-приложение Ромы
  18. ^ Бернард, Лу; Бауман, Сид, ред. (2007), TEI P5: Рекомендации по электронному кодированию и обмену текстом , Шарлоттсвилл, Вирджиния, США: Консорциум TEI .
  19. ^ Файл W3C ITS и TEI ODD. Архивировано 15 июля 2017 г. на Wayback Machine.
  20. ^ Савурель, Ив; Косек, Йирка; Исида, Ричард, ред. (2008), «5.2 ITS и TEI», Лучшие практики интернационализации XML , Рабочая группа W3C .
  21. ^ «Инициатива по кодированию уставов - Мюнхенский университет Людвига-Максимилиана» . www.cei.lmu.de.
  22. ^ «Средневековый скандинавский текстовый архив (Менота)» . www.menota.org .
  23. ^ Аронхейм, младший (1998). «Описательные метаданные: новые стандарты». Журнал академического библиотечного дела . 24 (5): 395–403. дои : 10.1016/S0099-1333(98)90079-9 .
  24. ^ Кантара, Л. (2005). «Инициатива по кодированию текста: Часть 1». OCLC Системы и услуги . 21 (1): 36–39. дои : 10.1108/10650750510578136 .
  25. ^ «Ассоциация компьютеров и гуманитарных наук |» . ach.org .
  26. ^ «Историческая справка», раздел iv.2 TEI P5: Рекомендации по электронному кодированию текста и обмену ими.
  27. ^ «Заключительное заявление конференции по планированию Вассара» . tei-c.org . 2009 . Проверено 15 апреля 2012 г.
  28. ^ «Руководство ТЭИ» . Проверено 18 июня 2010 г.
  29. ^ "2" , Основы XML , получено 9 июля 2011 г.
  30. ^ «Расширяемый язык разметки (XML) 1.0 (пятое издание)» . w3.org .
  31. ^ «Примечания к выпуску P5 версии 2.0.1» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
  32. ^ «TEI: Инициатива по кодированию текста» .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 5EC1ADBAB7CFE855292AD6556244FEDC__1713941820
URL1:https://en.wikipedia.org/wiki/Text_Encoding_Initiative
Заголовок, (Title) документа по адресу, URL1:
Text Encoding Initiative - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)