Юнитерм

Uniterm — это система предметного индексирования, введенная Мортимером Таубе в 1951 году. Название представляет собой сокращение слов «единица» и «термин», что означает использование в ней отдельных слов в качестве основы индекса, «юнитермов». Таубе назвал общую концепцию «Индексированием координат», но сегодня всю концепцию также обычно называют Uniterm.

Uniterm предназначен для быстрого поиска по ключевым словам темы, а затем перекрестных ссылок на эти ключевые слова по нескольким темам, чтобы найти документы, соответствующие всем терминам. Результатом поиска по унитерму является набор инвентарных номеров , которые затем можно использовать для поиска совпадающих документов. Uniterm основан на существующих инвентарных номерах, поэтому технически это посткоординатная система. Это противоположно системе предварительных координат, где предмет документа приводит к тому, что ему присваивается определенное число, как в Десятичной классификации Дьюи . Uniterm была одной из самых популярных систем посткоординатного индексирования, хотя отчасти ее успех был обусловлен тем, что компания Таубе выиграла контракты на индексацию огромных технических библиотек.

История

История развития Uniterm и других новых систем индексации в конечном итоге восходит к периоду конца Второй мировой войны . Зная о передовых авиационных и ракетных технологиях, разработанных в Германии, США организовали операцию «Ласти» , а Великобритания — аналогичную миссию «Федден», чтобы собрать как можно больше этих материалов. Наряду с образцами самолетов и различного вооружения эти усилия принесли миллионы страниц технической документации. Желание облегчить доступ к этим огромным коллекциям привело к значительному расширению области поиска информации . ^[1]

В США авиационная коллекция сначала была отправлена в ВВС США в Райт-Филд , но со временем она была объединена с аналогичными тайниками исследований США, чтобы сформировать постоянно растущую коллекцию технических документов. Коллекция стала настолько большой и разнообразной, что новая оперативная группа — Агентство технической информации вооруженных сил в 1951 году для управления ею была создана (ASTIA). Эта группа в конечном итоге перешла под управление Комиссии по атомной энергии . ASTIA начала проводить эксперименты по индексированию коллекции, и именно в результате этой работы появился Uniterm. ^[2]

Таубе представил концепцию Uniterm в статье 1951 года «Координатное индексирование научных областей», которая была частью Симпозиума по механическим средствам химической документации. В следующем году в партнерстве с Джеральдом Софаром Таубе основал Documentation, Inc. Компания предлагала коммерческие услуги поиска и индексирования. Среди их крупнейших усилий был контракт 1958 года с недавно созданным НАСА на индексацию всей их технической библиотеки, а затем на микрофильмирование . ее ^[3]

В оригинальной статье Таубе указывается, что существенным преимуществом концепции Uniterm является ее способность к автоматизации. По сути, процесс поиска унитерма ищет пересечение нескольких терминов или, как называл это Таубе, «координат». ^[а] С этой целью они в партнерстве с IBM разработали «Сопоставитель непрерывного множественного доступа» или COMAC. Пользователи могли выбирать условия поиска с помощью устройства записи перфокарт , а затем вводить их в COMAC, также известный как IBM 9900. ^[4] COMAC извлек эти карты Uniterm, а затем использовал оптические системы для поиска совпадающих предметов. Затем он вернул новую карту с этими номерами, которая затем была отправлена в IBM 305 RAMAC , первый компьютер с жестким диском , который вернул полную информацию о документе для этих номеров. ^[4]

Концепция

В основе Uniterm лежит концепция создания отдельного карточного каталога , в котором документы коллекции ссылаются на их инвентарные номера . Инвентарные номера не имеют значения в индексе Uniterm, поэтому они могут использовать любую из распространенных систем, таких как Десятичная классификация Дьюи или Универсальная десятичная классификация , или, во многих случаях, просто возрастающий серийный номер . ^[5]^[2]

По мере добавления в коллекцию новых произведений библиотекарь составляет обычную картотеку для основного картотеки, как и для любой другой работы. Кроме того, они выберут небольшое количество ключевых слов из названия или основной части работы, которые можно использовать для ее поиска, и они также записываются на карточке. Например, документ об обледенении воздуховодов самолетов может быть отнесен к разделам «воздух», «каналы» и «обледенение», но, возможно, не к «самолету», который можно найти в слишком многих документах. ^[6]

Затем библиотекарь ищет в каталоге Uniterm карточки с этими терминами. Если они не найдены, они создаются путем написания ключевого слова в верхней части карты, а затем разделения нижней части на десять вертикальных частей, помеченных цифрами от 0 до 9. Затем на карте записывается последняя цифра инвентарного номера: например, если последняя цифра инвентарного номера равна 5, весь инвентарный номер будет записан в столбце 5. Если карточка для этого термина найдена в коллекции, новый инвентарный номер просто добавляется в правильный столбец существующая карта. ^[7]

Чтобы получить документ, пользователь выбирает потенциально полезные ключевые термины и извлекает эти карточки из индекса Uniterm. Чтобы найти эту статью, пользователь может выбрать «индексирование» и «библиотека» и получить эти карточки из каталога Uniterm. На этих карточках будут номера множества различных документов, например, «библиотечная» карточка может содержать список книг из Александрийской библиотеки . карточках появятся только документы по «библиотечному индексированию» Однако на обеих . ^[8]

Затем пользователь сканирует карту, чтобы увидеть, присутствует ли определенный учетный номер на обеих картах; Разделение карточек на 10 столбцов призвано упростить процесс визуального сканирования. Номера, которые появляются на обеих картах, вероятно, имеют отношение к поиску, и их затем можно найти напрямую или в основном каталоге карт, если используются частичные инвентарные номера. ^[8]

Карточки в основном каталоге также содержат унитермы, используемые для регистрации этой записи, образуя перекрестный индекс. Пользователь, выбирающий карточки «пропеллер» и «самолет», может обнаружить на карточках множество пересекающихся произведений. Вернувшись к основному указателю, они могут просмотреть унитермы, записанные на основных учетных карточках, и обнаружить, что есть и другие часто встречающиеся термины, например, «аэродинамика». Они могут предложить дополнительные термины, которые можно использовать для сужения поиска. Затем они могут вернуться к каталогу uniterm, чтобы применить эти новые термины для возврата дополнительных документов или дальнейшего сосредоточения поиска. ^[9]

Преимущества и критика

Uniterm был популярен в Соединенных Штатах благодаря большим техническим коллекциям, что привело к значительному изучению системы. Одним из особенно полезных усилий стала попытка Агентства национальной безопасности каталогизировать свою коллекцию из 70 000 работ. ^[10]

Они обнаружили, что одним из основных преимуществ системы Uniterm является то, что библиотекарям не нужно разбираться в материале, чтобы правильно его каталогизировать. Простой выбор терминов, которые появлялись в заголовке или были очевидно важны в тексте, часто приводил к полезному вводу унитерма. Это контрастировало с традиционными иерархическими подходами, где выбор правильного места в иерархии часто требовал некоторых или значительных знаний базовой области. ^[10]

Эти же усилия также выявили ряд проблем и предложили решения. Во-первых, синонимы представляли проблему; статья о "воздуховодах" была такой же или отличалась от статьи о "воздухозаборниках"? Они предположили, что эту проблему можно решить, разделив произведения на наборы примерно по 1000 статей и построив каталог по разделам. Первый набор из 1000 документов мог дать 1000 унитермов, которые затем изучались с целью отсеять синонимы. Когда были найдены синонимы, к этим карточкам добавлялись заголовки «см. также». Затем будет добавлен второй набор с использованием этих синонимов. Они обнаружили, что добавление новых терминов начало выравниваться примерно с 4000 записей, а после 10 000 добавлялись только очень специфические технические термины. ^[11]

Когда эта концепция была впервые представлена, возникла проблема, заключающаяся в том, что термины могут возвращать большое количество ложных срабатываний из-за того, что термины используются для описания совершенно разных концепций. В частности, считалось, что проблемой являются термины, которые могут означать разные вещи в зависимости от их порядка. Если кто-то ищет «американский экспорт в Канаду», «Канада», «США» и «экспорт», то вы также получите большое количество документов по канадскому экспорту в США, что, возможно, превзойдет набор результатов. ^[12]

Однако на практике это не оказалось серьезной проблемой, и те несколько примеров, которые все же возникли, были решены путем добавления «дельта-карточек», см. Также записей, которые включали направление. В этом случае на карте «США» будет также указана запись «USΔ», и эта карта будет содержать только записи из США. Uniterms на странице USΔ предназначены только для экспорта из США. ^[12]

Примечания

^ Как в «координированных вещах», а не в «физическом местоположении».

Ссылки

Цитаты

^ Леск, Майкл . «Семь веков информационного поиска» . Беллкор.
^ Jump up to: ^а ^б Шарма и Шарма 2007 , с. 19.
^ Таймс, 1965 год .
^ Jump up to: ^а ^б Таубе 1962г .
^ Установить 1953 , с. 1.
^ Установить 1953 , с. 2.
^ Установить 1953 , стр. 6, 7.
^ Jump up to: ^а ^б Установить 1953 , с. 9.
^ Установить 1953 , с. 11.
^ Jump up to: ^а ^б Сэнфорд и Терио, 1956 , с. 19.
^ Сэнфорд и Терио 1956 , с. 20.
^ Jump up to: ^а ^б Сэнфорд и Терио, 1956 , с. 23.

Библиография

«Мортимер Таубе умер; основал службу данных». The Washington Post и Times-Herald (1959–1973) . 1965. стр. А24.
Руководство по установке системы индексирования координат Юнитерм (PDF) (Технический отчет). АСТИЯ. Октябрь 1953 года.
Таубе, Мортимер (январь 1962 г.). «Эксперименты с IBM-9900 и обсуждение улучшенного COMAC, предложенного этими экспериментами» . Журнал химической документации . 2 (1): 22–26. дои : 10.1021/c160004a007 .
Шарма, СК; Шарма, АК (2007). Информационный процесс и поиск . Атлантические издательства. стр. 14–20. ISBN 9788126906956 .
Сэнфорд, Джон; Терио, Фредерик (январь 1956 г.). «Проблемы применения координатной индексации Uniterm» . Библиотеки колледжей и научных исследований . 17 :19–23. дои : 10.5860/crl_17_01_19 . hdl : 2142/36851 .

[4] Как в «координированных вещах», а не в «физическом местоположении».

[1] Леск, Майкл . «Семь веков информационного поиска» . Беллкор.

[FOOTNOTESharmaSharma200719-2] Jump up to: ^а ^б Шарма и Шарма 2007 , с. 19.

[FOOTNOTETimes1965-3] Таймс, 1965 год .

[FOOTNOTETaube1962-5] Jump up to: ^а ^б Таубе 1962г .

[FOOTNOTEInstall19531-6] Установить 1953 , с. 1.

[FOOTNOTEInstall19532-7] Установить 1953 , с. 2.

[FOOTNOTEInstall19536,_7-8] Установить 1953 , стр. 6, 7.

[FOOTNOTEInstall19539-9] Jump up to: ^а ^б Установить 1953 , с. 9.

[FOOTNOTEInstall195311-10] Установить 1953 , с. 11.

[FOOTNOTESanfordTheriault195619-11] Jump up to: ^а ^б Сэнфорд и Терио, 1956 , с. 19.

[FOOTNOTESanfordTheriault195620-12] Сэнфорд и Терио 1956 , с. 20.

[FOOTNOTESanfordTheriault195623-13] Jump up to: ^а ^б Сэнфорд и Терио, 1956 , с. 23.

[1]

[2]

[3]

[а]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]