Партнерство по созданию текста
Эта статья нуждается в дополнительных цитатах для проверки . ( январь 2016 г. ) |
Text Creation Partnership ( TCP ) — некоммерческая организация, базирующаяся в библиотеке Мичиганского университета с 2000 года . [update]. Его цель состоит в том, чтобы производить крупномасштабные полнотекстовые электронные ресурсы (особенно по гуманитарным наукам) от имени как учреждений-членов (особенно академических библиотек), так и научных издателей, в соответствии с соглашением, рассчитанным на удовлетворение потребностей обоих и при этом продемонстрировать ценность бизнес-модели, которая рассматривает корпоративных и некоммерческих поставщиков информации как потенциально дружелюбных сотрудников, а не как антагонистических поставщиков и клиентов соответственно. [1]
Проекты
[ редактировать ]На сегодняшний день TCP спонсировал четыре проекта по созданию текстов. Первым и самым крупным является «EEBO-TCP (Фаза I)» (2001–2009 гг.), попытка создать структурно размеченные полнотекстовые транскрипции более чем 25 000 из примерно 125 000 книг, которые можно найти либо в Полларде, либо в Редгрейве. и каталоги Wing с короткими названиями ранних английских печатных книг или среди Thomason Tracts , то есть из почти всех книг, брошюр и рекламных листовок, опубликованных на английском языке или в Англии до 1700 года. Книги были отобраны и расшифрованы с цифровых сканирований. производится компанией ProQuest Information and Learning и распространяется ими в виде веб-продукта под названием « Ранние английские книги в Интернете » (EEBO). Сканирования, с которых были расшифрованы тексты, сами были сделаны с копий микрофильмов, сделанных на протяжении многих лет компанией ProQuest и ее предшествующими компаниями, включая оригинальную версию University Microfilms, Inc. [2] Фаза I EEBO-TCP завершилась в конце 2009 года, расшифровав около 25 300 наименований, и сразу же перешла к фазе II EEBO-TCP (2009–), продолжению проекта, посвященному преобразованию всех оставшихся уникальных англоязычных монографий (примерно 45 000 дополнительных титулы).
Третьим проектом TCP был Evans-TCP (2003–2007 гг., некоторые работы продолжались до 2010 г.), попытка расшифровать 6000 из 36 000 наименований до 1800 года, перечисленных в Американской библиографии Чарльза Эванса, и распространяться, опять же, в виде изображений страниц, отсканированных из копии микрофильмов, выпущенные Readex , подразделением NewsBank, Inc., под названием « Архив Америки » («Ранние американские отпечатки, серия I: Эванс, 1639–1800»). Evans-TCP выпустила электронные тексты почти 5000 книг.
Последним проектом TCP был ECCO-TCP (2005–2010 гг., некоторые работы продолжаются), попытка расшифровать 10 000 книг восемнадцатого века из 136 000 наименований, доступных на Томсона-Гейла веб-ресурсе «Коллекции восемнадцатого века». Онлайн» (ECCO). В 2010 году у ECCO-TCP закончилось финансирование после расшифровки около 3000 (и редактирования около 2400) наименований.
Общие черты проекта
[ редактировать ]Все четыре текстовых проекта TCP очень похожи. В каждом случае:
- TCP создает текст из коммерческих файлов изображений, которые, в свою очередь, были созданы из микрофильмов ранних книг.
- Поставщики коммерческих изображений получают то, что по сути является полнотекстовым индексом их графического продукта, за гораздо меньшую цену, чем стоило бы его производство самостоятельно: добавленную стоимость к их продукту.
- Библиотеки-партнеры фактически владеют полученными текстами, а не просто лицензируют их, и могут (при соблюдении некоторых условий) свободно монтировать тексты в любую систему по своему усмотрению или использовать их внутри себя в качестве инструмента обучения и преподавания.
- Тексты создаются в соответствии со стандартами, установленными библиотекой, едиными для нескольких наборов данных и потенциально пригодными для перекрестного поиска.
- Поскольку они создаются совместно, тексты относительно недороги (в расчете на одну книгу) и становятся все дороже с каждой библиотекой, присоединяющейся к партнерству.
- В конечном итоге тексты станут доступны широкой публике.
- Отбор текстов для конвертации, хотя и различается от проекта к проекту, в каждом случае следует схожим принципам: разнообразие, значимость, репрезентативность, избежание дублирования; конкретные запросы преподавателей или научные инициативы вузов-членов также обычно учитываются.
- До сих пор TCP в первую очередь интересовался созданием текстов, а не созданием «продукта»; хотя тексты всех трех проектов монтируются или будут размещены на серверах библиотеки Мичиганского университета, сайт Мичигана не является официальным сайтом TCP: любая партнерская библиотека, располагающая соответствующими ресурсами и средствами защиты, может сделать то же самое. Тексты EEBO-TCP, например, обслуживаются Мичиганом, ProQuest, Цифровой библиотекой Оксфордского университета и Чикагским университетом.
Организация
[ редактировать ]ПТС контролируется Советом директоров, состоящим в основном из старших администраторов библиотек партнерских учреждений, представителей корпоративных партнеров и Совета по библиотечным и информационным ресурсам (CLIR). В вопросах отбора и стипендий Совету помогает академическая консультативная группа, в которую входят преподаватели в области ранних современных исследований английского и Америки.
TCP имеет неофициальные связи с рядом университетских научных текстовых проектов, особенно помогая им предоставлять исходные тексты для работы. Представленные учреждения включают Северо-Западный университет , Оксфордский университет , Вашингтонский университет в Сент-Луисе , Сиднейский университет , Университет Торонто и Университет Виктории . TCP также работал со студентами, ежегодно спонсируя конкурс эссе для студентов, созывая целевые группы по использованию текстов TCP в педагогике и обращаясь к ученым и студентам с идеями по выбору и использованию.
Производством текста управляет Служба производства цифровых библиотек (DLPS) Мичиганского университета, имеющая обширный опыт в производстве электронных текстов в кодировке SGML/XML. DLPS поддерживается компанией Bodleian Digital Libraries Systems & Services (BDLSS) Оксфордского университета, в том числе покойным Себастьяном Рацем . Небольшие производственные операции с частичной занятостью также были начаты в двух других библиотеках: Центре исследований Реформации и Возрождения в библиотеке Пратта (Университет Виктории в Университете Торонто), специализирующемся на латинских книгах; и Национальная библиотека Уэльса (Llyfrgell Genedlaethol Cymru) в Аберистуите, специализирующаяся на валлийских книгах.
Стандарты
[ редактировать ]Все четыре текстовых проекта TCP создаются одинаковым образом и по одним и тем же стандартам, которые, по крайней мере частично, документированы на веб-сайте TCP. [3]
- Точность. TCP стремится создавать тексты, которые расшифровываются как можно точнее, с установленным общим уровнем точности 99,995% или выше (т.е. одна ошибка или меньше на 20 000 символов).
- Ключевое слово. Учитывая характер материала, единственным найденным методом обеспечения такой точности с экономической точки зрения было использование ключей фирмами по преобразованию данных по контракту.
- Контроль качества. Точность транскрипции и правильность разметки во всех случаях оцениваются группой библиотечных корректоров и рецензентов под управлением DLPS Мичиганского университета.
- Кодирование. Все результирующие текстовые файлы размечаются в допустимом SGML или XML (SGML архивируется, XML экспортируется) в соответствии с собственным «Описанием типа документа» (DTD), полученным из версии P3/P4 стандарта Text Encoding Initiative (TEI).
- Целенаправленная разметка. По сравнению с полным TEI, TCP DTD очень прост и предназначен для сбора только тех функций, которые наиболее полезны для понятного отображения, интеллектуальной навигации и продуктивного поиска. Практика TCP заключается в том, чтобы, насколько это возможно, фиксировать общую иерархическую структуру каждой книги (части, разделы, главы и т. д.); элементы, которые имеют тенденцию обозначать начало и конец разделов (заголовки, пояснения, приветствия, прощальные слова, строки дат, подписи, эпиграфы и т. д.); наиболее значимые элементы речи и организации (абзацы в прозе, строки и строфы в стихах, речи, ораторы и ремарки в драме, примечания, цитаты, последовательные нумерации всех видов); и только самые важные аспекты физического форматирования (разрывы страниц, списки, таблицы, изменения шрифтов).
- Верность оригиналу. В каждом случае текст должен представлять книгу в том виде, в каком она была первоначально напечатана, насколько это возможно. Ошибки принтера сохраняются, рукописные изменения игнорируются, дублирующиеся сканы опускаются, изображения, расположенные не по порядку, вводятся в заданном порядке, а большинство необычных символов оригинала сохраняются.
- Удобство чтения и поиска. В то же время, хотя транскрипция осуществляется посимвольно, TCP, исходя из теории, согласно которой любая транскрипция является своего рода переводом из одной символической системы в другую, имеет тенденцию определять символы скорее с точки зрения их значения, чем их значения. форму и сопоставлять эксцентричные формы букв со значимыми современными эквивалентами, как правило, в соответствии с определением «символа» в Юникоде.
- Языки. Хотя большая часть текстов TCP написана на английском языке, многие из них — нет. Книги и разделы книг не на английском языке помечаются соответствующим языковым кодом, но иным образом не выделяются.
- Пропущенный материал. TCP создает текст в латинском алфавите . Нетекстовый материал, такой как ноты, математические формулы и иллюстрации (за исключением любого текста, который они могут содержать), опускается, а их расположение отмечается специальным тегом. Расширенный текст, написанный нелатинскими алфавитами (греческим, ивритом, персидским и т. д.), также опускается.
Достижения и перспективы
[ редактировать ]По состоянию на апрель 2011 года TCP создал около 40 000 доступных для поиска и навигации полнотекстовых транскрипций ранних книг - базу данных непревзойденного объема, масштаба и полезности для студентов во многих областях. [ нужна ссылка ] Сможет ли она продолжать производить оставшиеся 38 000 текстов, включенных в ее амбициозные недавние планы (для фазы II EEBO-TCP), будет зависеть от обоснованности ее первоначального видения, вытекающего из теории, согласно которой библиотеки могут и должны сотрудничать, чтобы стать производители и разработчики стандартов, а не потребители; и что университеты и коммерческие фирмы, несмотря на очень разные жизненные циклы, ограничения и мотивы, могут объединиться в долгосрочные партнерские отношения, приносящие пользу всем сторонам.
По состоянию на 1 января 2015 г. полный текст фазы I EEBO был выпущен под лицензией Creative Commons и может быть свободно загружен и распространен.
В 2014 году на этапе II было доступно 28 466 наименований. По состоянию на июль 2015 года ProQuest имела эксклюзивное право на распространение коллекции EEBO-TCP Phase II в течение пяти лет. В 2020 году тексты стали доступны широкой публике. [4]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Блюменстик, Голди (10 августа 2001 г.). «Проект направлен на оцифровку тысяч ранних английских текстов» . Хроника высшей школы : А47 . Проверено 4 января 2007 г.
- ^ Бимиш, Рита (29 июля 1999 г.). «Онлайн-архив сохранит самые ранние английские книги» . Нью-Йорк Таймс . Проверено 4 января 2007 г.
- ^ «Производственные файлы» . Партнерство по созданию текста . Проверено 12 марта 2020 г.
- ^ «Часто задаваемые вопросы» . Партнерство по созданию текста . Библиотека Мичиганского университета . Проверено 1 мая 2024 г.
- 2000 заведений в Мичигане
- Образовательные организации, созданные в 2000 году
- Некоммерческие организации, базирующиеся в Мичигане
- Библиотечные научные организации
- Проекты цифровой библиотеки
- Библиографические базы данных и индексы
- Базы данных ранней современной печати
- Текстовая стипендия
- Мичиганский университет
- Северо-Западный университет
- Организации, связанные с Оксфордским университетом
- Вашингтонский университет в Сент-Луисе
- Сиднейский университет
- Университет Торонто
- Университет Виктории