Jump to content

Партнерство по созданию текста

Text Creation Partnership ( TCP ) — некоммерческая организация, базирующаяся в библиотеке Мичиганского университета с 2000 года . . Его цель состоит в том, чтобы производить крупномасштабные полнотекстовые электронные ресурсы (особенно по гуманитарным наукам) от имени как учреждений-членов (особенно академических библиотек), так и научных издателей, в соответствии с соглашением, рассчитанным на удовлетворение потребностей обоих и при этом продемонстрировать ценность бизнес-модели, которая рассматривает корпоративных и некоммерческих поставщиков информации как потенциально дружелюбных сотрудников, а не как антагонистических поставщиков и клиентов соответственно. [1]

На сегодняшний день TCP спонсировал четыре проекта по созданию текстов. Первым и самым крупным является «EEBO-TCP (Фаза I)» (2001–2009 гг.), попытка создать структурно размеченные полнотекстовые транскрипции более чем 25 000 из примерно 125 000 книг, которые можно найти либо в Полларде, либо в Редгрейве. и каталоги Wing с короткими названиями ранних английских печатных книг или среди Thomason Tracts , то есть из почти всех книг, брошюр и рекламных листовок, опубликованных на английском языке или в Англии до 1700 года. Книги были отобраны и расшифрованы с цифровых сканирований. производится компанией ProQuest Information and Learning и распространяется ими в виде веб-продукта под названием « Ранние английские книги в Интернете » (EEBO). Сканирования, с которых были расшифрованы тексты, сами были сделаны с копий микрофильмов, сделанных на протяжении многих лет компанией ProQuest и ее предшествующими компаниями, включая оригинальную версию University Microfilms, Inc. [2] Фаза I EEBO-TCP завершилась в конце 2009 года, расшифровав около 25 300 наименований, и сразу же перешла к фазе II EEBO-TCP (2009–), продолжению проекта, посвященному преобразованию всех оставшихся уникальных англоязычных монографий (примерно 45 000 дополнительных титулы).

Третьим проектом TCP был Evans-TCP (2003–2007 гг., некоторые работы продолжались до 2010 г.), попытка расшифровать 6000 из 36 000 наименований до 1800 года, перечисленных в Американской библиографии Чарльза Эванса, и распространяться, опять же, в виде изображений страниц, отсканированных из копии микрофильмов, выпущенные Readex , подразделением NewsBank, Inc., под названием « Архив Америки » («Ранние американские отпечатки, серия I: Эванс, 1639–1800»). Evans-TCP выпустила электронные тексты почти 5000 книг.

Последним проектом TCP был ECCO-TCP (2005–2010 гг., некоторые работы продолжаются), попытка расшифровать 10 000 книг восемнадцатого века из 136 000 наименований, доступных на Томсона-Гейла веб-ресурсе «Коллекции восемнадцатого века». Онлайн» (ECCO). В 2010 году у ECCO-TCP закончилось финансирование после расшифровки около 3000 (и редактирования около 2400) наименований.

Общие черты проекта

[ редактировать ]

Все четыре текстовых проекта TCP очень похожи. В каждом случае:

  1. TCP создает текст из коммерческих файлов изображений, которые, в свою очередь, были созданы из микрофильмов ранних книг.
  2. Поставщики коммерческих изображений получают то, что по сути является полнотекстовым индексом их графического продукта, за гораздо меньшую цену, чем стоило бы его производство самостоятельно: добавленную стоимость к их продукту.
  3. Библиотеки-партнеры фактически владеют полученными текстами, а не просто лицензируют их, и могут (при соблюдении некоторых условий) свободно монтировать тексты в любую систему по своему усмотрению или использовать их внутри себя в качестве инструмента обучения и преподавания.
  4. Тексты создаются в соответствии со стандартами, установленными библиотекой, едиными для нескольких наборов данных и потенциально пригодными для перекрестного поиска.
  5. Поскольку они создаются совместно, тексты относительно недороги (в расчете на одну книгу) и становятся все дороже с каждой библиотекой, присоединяющейся к партнерству.
  6. В конечном итоге тексты станут доступны широкой публике.
  7. Отбор текстов для конвертации, хотя и различается от проекта к проекту, в каждом случае следует схожим принципам: разнообразие, значимость, репрезентативность, избежание дублирования; конкретные запросы преподавателей или научные инициативы вузов-членов также обычно учитываются.
  8. До сих пор TCP в первую очередь интересовался созданием текстов, а не созданием «продукта»; хотя тексты всех трех проектов монтируются или будут размещены на серверах библиотеки Мичиганского университета, сайт Мичигана не является официальным сайтом TCP: любая партнерская библиотека, располагающая соответствующими ресурсами и средствами защиты, может сделать то же самое. Тексты EEBO-TCP, например, обслуживаются Мичиганом, ProQuest, Цифровой библиотекой Оксфордского университета и Чикагским университетом.

Организация

[ редактировать ]

ПТС контролируется Советом директоров, состоящим в основном из старших администраторов библиотек партнерских учреждений, представителей корпоративных партнеров и Совета по библиотечным и информационным ресурсам (CLIR). В вопросах отбора и стипендий Совету помогает академическая консультативная группа, в которую входят преподаватели в области ранних современных исследований английского и Америки.

TCP имеет неофициальные связи с рядом университетских научных текстовых проектов, особенно помогая им предоставлять исходные тексты для работы. Представленные учреждения включают Северо-Западный университет , Оксфордский университет , Вашингтонский университет в Сент-Луисе , Сиднейский университет , Университет Торонто и Университет Виктории . TCP также работал со студентами, ежегодно спонсируя конкурс эссе для студентов, созывая целевые группы по использованию текстов TCP в педагогике и обращаясь к ученым и студентам с идеями по выбору и использованию.

Производством текста управляет Служба производства цифровых библиотек (DLPS) Мичиганского университета, имеющая обширный опыт в производстве электронных текстов в кодировке SGML/XML. DLPS поддерживается компанией Bodleian Digital Libraries Systems & Services (BDLSS) Оксфордского университета, в том числе покойным Себастьяном Рацем . Небольшие производственные операции с частичной занятостью также были начаты в двух других библиотеках: Центре исследований Реформации и Возрождения в библиотеке Пратта (Университет Виктории в Университете Торонто), специализирующемся на латинских книгах; и Национальная библиотека Уэльса (Llyfrgell Genedlaethol Cymru) в Аберистуите, специализирующаяся на валлийских книгах.

Стандарты

[ редактировать ]

Все четыре текстовых проекта TCP создаются одинаковым образом и по одним и тем же стандартам, которые, по крайней мере частично, документированы на веб-сайте TCP. [3]

  1. Точность. TCP стремится создавать тексты, которые расшифровываются как можно точнее, с установленным общим уровнем точности 99,995% или выше (т.е. одна ошибка или меньше на 20 000 символов).
  2. Ключевое слово. Учитывая характер материала, единственным найденным методом обеспечения такой точности с экономической точки зрения было использование ключей фирмами по преобразованию данных по контракту.
  3. Контроль качества. Точность транскрипции и правильность разметки во всех случаях оцениваются группой библиотечных корректоров и рецензентов под управлением DLPS Мичиганского университета.
  4. Кодирование. Все результирующие текстовые файлы размечаются в допустимом SGML или XML (SGML архивируется, XML экспортируется) в соответствии с собственным «Описанием типа документа» (DTD), полученным из версии P3/P4 стандарта Text Encoding Initiative (TEI).
  5. Целенаправленная разметка. По сравнению с полным TEI, TCP DTD очень прост и предназначен для сбора только тех функций, которые наиболее полезны для понятного отображения, интеллектуальной навигации и продуктивного поиска. Практика TCP заключается в том, чтобы, насколько это возможно, фиксировать общую иерархическую структуру каждой книги (части, разделы, главы и т. д.); элементы, которые имеют тенденцию обозначать начало и конец разделов (заголовки, пояснения, приветствия, прощальные слова, строки дат, подписи, эпиграфы и т. д.); наиболее значимые элементы речи и организации (абзацы в прозе, строки и строфы в стихах, речи, ораторы и ремарки в драме, примечания, цитаты, последовательные нумерации всех видов); и только самые важные аспекты физического форматирования (разрывы страниц, списки, таблицы, изменения шрифтов).
  6. Верность оригиналу. В каждом случае текст должен представлять книгу в том виде, в каком она была первоначально напечатана, насколько это возможно. Ошибки принтера сохраняются, рукописные изменения игнорируются, дублирующиеся сканы опускаются, изображения, расположенные не по порядку, вводятся в заданном порядке, а большинство необычных символов оригинала сохраняются.
  7. Удобство чтения и поиска. В то же время, хотя транскрипция осуществляется посимвольно, TCP, исходя из теории, согласно которой любая транскрипция является своего рода переводом из одной символической системы в другую, имеет тенденцию определять символы скорее с точки зрения их значения, чем их значения. форму и сопоставлять эксцентричные формы букв со значимыми современными эквивалентами, как правило, в соответствии с определением «символа» в Юникоде.
  8. Языки. Хотя большая часть текстов TCP написана на английском языке, многие из них — нет. Книги и разделы книг не на английском языке помечаются соответствующим языковым кодом, но иным образом не выделяются.
  9. Пропущенный материал. TCP создает текст в латинском алфавите . Нетекстовый материал, такой как ноты, математические формулы и иллюстрации (за исключением любого текста, который они могут содержать), опускается, а их расположение отмечается специальным тегом. Расширенный текст, написанный нелатинскими алфавитами (греческим, ивритом, персидским и т. д.), также опускается.

Достижения и перспективы

[ редактировать ]

По состоянию на апрель 2011 года TCP создал около 40 000 доступных для поиска и навигации полнотекстовых транскрипций ранних книг - базу данных непревзойденного объема, масштаба и полезности для студентов во многих областях. [ нужна ссылка ] Сможет ли она продолжать производить оставшиеся 38 000 текстов, включенных в ее амбициозные недавние планы (для фазы II EEBO-TCP), будет зависеть от обоснованности ее первоначального видения, вытекающего из теории, согласно которой библиотеки могут и должны сотрудничать, чтобы стать производители и разработчики стандартов, а не потребители; и что университеты и коммерческие фирмы, несмотря на очень разные жизненные циклы, ограничения и мотивы, могут объединиться в долгосрочные партнерские отношения, приносящие пользу всем сторонам.

По состоянию на 1 января 2015 г. полный текст фазы I EEBO был выпущен под лицензией Creative Commons и может быть свободно загружен и распространен.

В 2014 году на этапе II было доступно 28 466 наименований. По состоянию на июль 2015 года ProQuest имела эксклюзивное право на распространение коллекции EEBO-TCP Phase II в течение пяти лет. В 2020 году тексты стали доступны широкой публике. [4]

См. также

[ редактировать ]
  1. ^ Блюменстик, Голди (10 августа 2001 г.). «Проект направлен на оцифровку тысяч ранних английских текстов» . Хроника высшей школы : А47 . Проверено 4 января 2007 г.
  2. ^ Бимиш, Рита (29 июля 1999 г.). «Онлайн-архив сохранит самые ранние английские книги» . Нью-Йорк Таймс . Проверено 4 января 2007 г.
  3. ^ «Производственные файлы» . Партнерство по созданию текста . Проверено 12 марта 2020 г.
  4. ^ «Часто задаваемые вопросы» . Партнерство по созданию текста . Библиотека Мичиганского университета . Проверено 1 мая 2024 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 73667673c55be07abbe4913ba79195cd__1714561740
URL1:https://arc.ask3.ru/arc/aa/73/cd/73667673c55be07abbe4913ba79195cd.html
Заголовок, (Title) документа по адресу, URL1:
Text Creation Partnership - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)