Юнитерм
Uniterm — это система предметного индексирования, введенная Мортимером Таубе в 1951 году. Название представляет собой сокращение слов «единица» и «термин», что означает использование в ней отдельных слов в качестве основы индекса, «юнитермов». Таубе назвал общую концепцию «Индексированием координат», но сегодня всю концепцию также обычно называют Uniterm.
Uniterm предназначен для быстрого поиска по ключевым словам темы, а затем перекрестных ссылок на эти ключевые слова по нескольким темам, чтобы найти документы, соответствующие всем терминам. Результатом поиска по унитерму является набор инвентарных номеров , которые затем можно использовать для поиска совпадающих документов. Uniterm основан на существующих инвентарных номерах, поэтому технически это посткоординатная система. Это противоположно системе предварительных координат, где предмет документа приводит к тому, что ему присваивается определенное число, как в Десятичной классификации Дьюи . Uniterm была одной из самых популярных систем посткоординатного индексирования, хотя отчасти ее успех был обусловлен тем, что компания Таубе выиграла контракты на индексацию огромных технических библиотек.
История
[ редактировать ]История развития Uniterm и других новых систем индексации в конечном итоге восходит к периоду конца Второй мировой войны . Зная о передовых авиационных и ракетных технологиях, разработанных в Германии, США организовали операцию «Ласти» , а Великобритания — аналогичную миссию «Федден», чтобы собрать как можно больше этих материалов. Наряду с образцами самолетов и различного вооружения эти усилия принесли миллионы страниц технической документации. Желание облегчить доступ к этим огромным коллекциям привело к значительному расширению области поиска информации . [1]
В США авиационная коллекция сначала была отправлена в ВВС США в Райт-Филд , но со временем она была объединена с аналогичными тайниками исследований США, чтобы сформировать постоянно растущую коллекцию технических документов. Коллекция стала настолько большой и разнообразной, что новая оперативная группа — Агентство технической информации вооруженных сил в 1951 году для управления ею была создана (ASTIA). Эта группа в конечном итоге перешла под управление Комиссии по атомной энергии . ASTIA начала проводить эксперименты по индексированию коллекции, и именно в результате этой работы появился Uniterm. [2]
Таубе представил концепцию Uniterm в статье 1951 года «Координатное индексирование научных областей», которая была частью Симпозиума по механическим средствам химической документации. В следующем году в партнерстве с Джеральдом Софаром Таубе основал Documentation, Inc. Компания предлагала коммерческие услуги поиска и индексирования. Среди их крупнейших усилий был контракт 1958 года с недавно созданным НАСА на индексацию всей их технической библиотеки, а затем на микрофильмирование . ее [3]
В оригинальной статье Таубе указывается, что существенным преимуществом концепции Uniterm является ее способность к автоматизации. По сути, процесс поиска унитерма ищет пересечение нескольких терминов или, как называл это Таубе, «координат». [а] С этой целью они в партнерстве с IBM разработали «Сопоставитель непрерывного множественного доступа» или COMAC. Пользователи могли выбирать условия поиска с помощью устройства записи перфокарт , а затем вводить их в COMAC, также известный как IBM 9900. [4] COMAC извлек эти карты Uniterm, а затем использовал оптические системы для поиска совпадающих предметов. Затем он вернул новую карту с этими номерами, которая затем была отправлена в IBM 305 RAMAC , первый компьютер с жестким диском , который вернул полную информацию о документе для этих номеров. [4]
Концепция
[ редактировать ]В основе Uniterm лежит концепция создания отдельного карточного каталога , в котором документы коллекции ссылаются на их инвентарные номера . Инвентарные номера не имеют значения в индексе Uniterm, поэтому они могут использовать любую из распространенных систем, таких как Десятичная классификация Дьюи или Универсальная десятичная классификация , или, во многих случаях, просто возрастающий серийный номер . [5] [2]
По мере добавления в коллекцию новых произведений библиотекарь составляет обычную картотеку для основного картотеки, как и для любой другой работы. Кроме того, они выберут небольшое количество ключевых слов из названия или основной части работы, которые можно использовать для ее поиска, и они также записываются на карточке. Например, документ об обледенении воздуховодов самолетов может быть отнесен к разделам «воздух», «каналы» и «обледенение», но, возможно, не к «самолету», который можно найти в слишком многих документах. [6]
Затем библиотекарь ищет в каталоге Uniterm карточки с этими терминами. Если они не найдены, они создаются путем написания ключевого слова в верхней части карты, а затем разделения нижней части на десять вертикальных частей, помеченных цифрами от 0 до 9. Затем на карте записывается последняя цифра инвентарного номера: например, если последняя цифра инвентарного номера равна 5, весь инвентарный номер будет записан в столбце 5. Если карточка для этого термина найдена в коллекции, новый инвентарный номер просто добавляется в правильный столбец существующая карта. [7]
Чтобы получить документ, пользователь выбирает потенциально полезные ключевые термины и извлекает эти карточки из индекса Uniterm. Чтобы найти эту статью, пользователь может выбрать «индексирование» и «библиотека» и получить эти карточки из каталога Uniterm. На этих карточках будут номера множества различных документов, например, «библиотечная» карточка может содержать список книг из Александрийской библиотеки . карточках появятся только документы по «библиотечному индексированию» Однако на обеих . [8]
Затем пользователь сканирует карту, чтобы увидеть, присутствует ли определенный учетный номер на обеих картах; Разделение карточек на 10 столбцов призвано упростить процесс визуального сканирования. Номера, которые появляются на обеих картах, вероятно, имеют отношение к поиску, и их затем можно найти напрямую или в основном каталоге карт, если используются частичные инвентарные номера. [8]
Карточки в основном каталоге также содержат унитермы, используемые для регистрации этой записи, образуя перекрестный индекс. Пользователь, выбирающий карточки «пропеллер» и «самолет», может обнаружить на карточках множество пересекающихся произведений. Вернувшись к основному указателю, они могут просмотреть унитермы, записанные на основных учетных карточках, и обнаружить, что есть и другие часто встречающиеся термины, например, «аэродинамика». Они могут предложить дополнительные термины, которые можно использовать для сужения поиска. Затем они могут вернуться к каталогу uniterm, чтобы применить эти новые термины для возврата дополнительных документов или дальнейшего сосредоточения поиска. [9]
Преимущества и критика
[ редактировать ]Uniterm был популярен в Соединенных Штатах благодаря большим техническим коллекциям, что привело к значительному изучению системы. Одним из особенно полезных усилий стала попытка Агентства национальной безопасности каталогизировать свою коллекцию из 70 000 работ. [10]
Они обнаружили, что одним из основных преимуществ системы Uniterm является то, что библиотекарям не нужно разбираться в материале, чтобы правильно его каталогизировать. Простой выбор терминов, которые появлялись в заголовке или были очевидно важны в тексте, часто приводил к полезному вводу унитерма. Это контрастировало с традиционными иерархическими подходами, где выбор правильного места в иерархии часто требовал некоторых или значительных знаний базовой области. [10]
Эти же усилия также выявили ряд проблем и предложили решения. Во-первых, синонимы представляли проблему; статья о "воздуховодах" была такой же или отличалась от статьи о "воздухозаборниках"? Они предположили, что эту проблему можно решить, разделив произведения на наборы примерно по 1000 статей и построив каталог по разделам. Первый набор из 1000 документов мог дать 1000 унитермов, которые затем изучались с целью отсеять синонимы. Когда были найдены синонимы, к этим карточкам добавлялись заголовки «см. также». Затем будет добавлен второй набор с использованием этих синонимов. Они обнаружили, что добавление новых терминов начало выравниваться примерно с 4000 записей, а после 10 000 добавлялись только очень специфические технические термины. [11]
Когда эта концепция была впервые представлена, возникла проблема, заключающаяся в том, что термины могут возвращать большое количество ложных срабатываний из-за того, что термины используются для описания совершенно разных концепций. В частности, считалось, что проблемой являются термины, которые могут означать разные вещи в зависимости от их порядка. Если кто-то ищет «американский экспорт в Канаду», «Канада», «США» и «экспорт», то вы также получите большое количество документов по канадскому экспорту в США, что, возможно, превзойдет набор результатов. [12]
Однако на практике это не оказалось серьезной проблемой, и те несколько примеров, которые все же возникли, были решены путем добавления «дельта-карточек», см. Также записей, которые включали направление. В этом случае на карте «США» будет также указана запись «USΔ», и эта карта будет содержать только записи из США. Uniterms на странице USΔ предназначены только для экспорта из США. [12]
Примечания
[ редактировать ]- ^ Как в «координированных вещах», а не в «физическом местоположении».
Ссылки
[ редактировать ]Цитаты
[ редактировать ]- ^ Леск, Майкл . «Семь веков информационного поиска» . Беллкор.
- ^ Jump up to: а б Шарма и Шарма 2007 , с. 19.
- ^ Таймс, 1965 год .
- ^ Jump up to: а б Таубе 1962г .
- ^ Установить 1953 , с. 1.
- ^ Установить 1953 , с. 2.
- ^ Установить 1953 , стр. 6, 7.
- ^ Jump up to: а б Установить 1953 , с. 9.
- ^ Установить 1953 , с. 11.
- ^ Jump up to: а б Сэнфорд и Терио, 1956 , с. 19.
- ^ Сэнфорд и Терио 1956 , с. 20.
- ^ Jump up to: а б Сэнфорд и Терио, 1956 , с. 23.
Библиография
[ редактировать ]- «Мортимер Таубе умер; основал службу данных». The Washington Post и Times-Herald (1959–1973) . 1965. стр. А24.
- Руководство по установке системы индексирования координат Юнитерм (PDF) (Технический отчет). АСТИЯ. Октябрь 1953 года.
- Таубе, Мортимер (январь 1962 г.). «Эксперименты с IBM-9900 и обсуждение улучшенного COMAC, предложенного этими экспериментами» . Журнал химической документации . 2 (1): 22–26. дои : 10.1021/c160004a007 .
- Шарма, СК; Шарма, АК (2007). Информационный процесс и поиск . Атлантические издательства. стр. 14–20. ISBN 9788126906956 .
- Сэнфорд, Джон; Терио, Фредерик (январь 1956 г.). «Проблемы применения координатной индексации Uniterm» . Библиотеки колледжей и научных исследований . 17 :19–23. дои : 10.5860/crl_17_01_19 . hdl : 2142/36851 .