Jump to content

Тезаурус (поиск информации)

В контексте поиска информации тезаурус метаданных (множественное число: «тезаурусы») — это форма контролируемого словаря , целью которого является определение семантических проявлений при индексировании объектов контента. Тезаурус служит для минимизации семантической двусмысленности, обеспечивая единообразие и последовательность хранения и поиска проявлений объектов контента. ANSI/NISO Z39.19-2005 определяет объект контента как «любой элемент, который должен быть описан для включения в систему поиска информации, веб-сайт или другой источник информации». [1] Тезаурус помогает назначить предпочтительные термины для передачи семантических метаданных, связанных с объектом контента. [2]

Тезаурус служит руководством как для индексатора, так и для поисковика при выборе одного и того же предпочтительного термина или комбинации предпочтительных терминов для представления данного предмета. ISO 25964 , международный стандарт тезаурусов информационного поиска, определяет тезаурус как «контролируемый и структурированный словарь, в котором понятия представлены терминами, организованными таким образом, что отношения между понятиями становятся явными, а предпочтительные термины сопровождаются вводными записями для синонимы или квазисинонимы».

Тезаурус состоит как минимум из трех элементов: 1 – список слов (или терминов), 2 – отношения между словами (или терминами), определяемые их иерархическим относительным положением (например, родительский/более широкий термин; дочерний/более узкий термин). , синоним и т. д.), 3 – свод правил пользования тезаурусом.

История [ править ]

Везде, где имелись большие коллекции информации, будь то на бумаге или в компьютерах, ученые сталкивались с проблемой определения того, что они ищут. Использование схем классификации для упорядочения документов было лишь частичным решением. Другой подход заключался в индексировании содержания документов с использованием слов или терминов, а не классификационных кодов. В 1940-х и 1950-х годах некоторые пионеры, такие как Кэлвин Мурс , Чарльз Л. Бернье, Эван Дж. Крейн и Ганс Питер Лун , собрали свои указательные термины в различные списки, которые они назвали «тезаурусом» (по аналогии с колодцем). известный тезаурус, разработанный Питером Роже ). [3] Первым таким списком, который всерьез начали использовать при поиске информации, был тезаурус, разработанный в 1959 году в компании EI Dupont de Nemours. [4] [5]

Первыми двумя из этих списков, которые были опубликованы, были Тезаурус дескрипторов ASTIA (1960 г.) и Тезаурус химической инженерии Американского института инженеров-химиков (1961 г.), потомок тезауруса Дюпона. За этим последовали другие, кульминацией которых стал влиятельный Тезаурус инженерных и научных терминов (TEST), опубликованный совместно Объединенным советом инженеров и Министерством обороны США в 1967 году. TEST не просто послужил примером; В Приложении 1 к нему представлены правила и соглашения для тезауруса , которыми с тех пор руководствуются при построении тезауруса.С тех пор были созданы сотни тезаурусов, а возможно, и тысячи. Наиболее заметными нововведениями со времени TEST стали:а) переход от одноязычного к многоязычному возможностям; и (b) Добавление концептуально организованного отображения к основному алфавитному представлению.

Здесь мы упомянем лишь некоторые национальные и международные стандарты, которые последовательно основываются на основных правилах, изложенных в TEST:

  • Рекомендации ЮНЕСКО по созданию и развитию одноязычных тезаурусов . 1970 г. (за ним последовали более поздние издания 1971 и 1981 гг.)
  • DIN 1463 Руководство по созданию и развитию одноязычных тезаурусов . 1972 г. (за ним последовали более поздние издания)
  • ISO 2788 Руководство по созданию и развитию одноязычных тезаурусов . 1974 г. (пересмотренный в 1986 г.)
  • Американский национальный стандарт ANSI по структуре, построению и использованию тезауруса . 1974 г. (пересмотрено в 1980 г. и заменено ANSI/NISO Z39.19-1993)
  • ISO 5964 Руководство по созданию и развитию многоязычных тезаурусов . 1985 год
  • ANSI/NISO Z39.19 Рекомендации по созданию, формату и управлению одноязычными тезаурусами . 1993 г. (пересмотрено в 2005 г. и переименовано в «Руководство по созданию, формату и управлению одноязычными контролируемыми словарями »).
  • Тезаурусы ISO 25964 и совместимость с другими словарями . Часть 1 ( Тезаурусы для поиска информации ) опубликована в 2011 г.; Часть 2 ( Взаимодействие с другими словарями ), опубликованная в 2013 году.

Наиболее четко заметная тенденция в истории развития тезаурусов заключалась в переходе от контекста мелкомасштабной изоляции к сетевому миру. [6] Доступ к информации заметно расширился, когда тезаурусы преодолели границу между одноязычными и многоязычными приложениями. Совсем недавно, как видно из названий последних стандартов ISO и NISO, появилось признание того, что тезаурусы должны работать в сочетании с другими формами словаря или системой организации знаний, такими как схемы предметных рубрик, схемы классификации, таксономии и т. д. онтологии. Официальный сайт ISO 25964 предоставляет дополнительную информацию, включая список для чтения. [7]

Цель [ править ]

При поиске информации тезаурус может использоваться как форма контролируемого словаря, помогающая индексировать соответствующие метаданные для объектов, несущих информацию. Тезаурус помогает выражать проявления понятия заданным образом, помогая повысить точность и запоминаемость . Это означает, что семантические концептуальные выражения объектов, несущих информацию, легче найти из-за единообразия языка. Кроме того, тезаурус используется для ведения иерархического списка терминов, обычно отдельных слов или связанных фраз, что помогает индексатору сузить термины и ограничить семантическую двусмысленность.

коллекций . Например, «Тезаурус искусства и архитектуры» используется бесчисленными музеями по всему миру для каталогизации своих AGROVOC ООН , тезаурус Продовольственной и сельскохозяйственной организации , используется для индексации и/или поиска в базе данных AGRIS мировой литературы по сельскохозяйственным исследованиям.

Структура [ править ]

Тезаурусы информационного поиска формально организованы таким образом, чтобы прояснить существующие связи между понятиями. Например, «цитрусовые» могут быть связаны с более широким понятием «фрукты» и с более узким понятием «апельсины», «лимоны» и т. д. Когда термины отображаются в Интернете, связи между ними значительно упрощают поиск. просматривать тезаурус, выбирая полезные термины для поиска. Если один термин может иметь более одного значения, например таблицы (мебель) или таблицы (данные), они перечисляются отдельно, чтобы пользователь мог выбрать, какое понятие искать, и избежать получения нерелевантных результатов. Для любого понятия перечислены все известные синонимы, такие как «коровье бешенство», «губчатая энцефалопатия крупного рогатого скота», «ГЭКРС» и т. д. Идея состоит в том, чтобы побудить всех индексаторов и всех поисковиков использовать один и тот же термин для обозначения одного и того же понятия. та же концепция, чтобы результаты поиска были максимально полными. Если тезаурус многоязычный, также отображаются эквивалентные термины на других языках. В соответствии с международными стандартами концепции обычно располагаются иерархически внутри аспектов или группируются по темам или темам. В отличие от общего тезауруса, который используется в литературных целях, тезаурусы информационного поиска обычно фокусируются на одной дисциплине, предмете или области исследования.

См. также [ править ]

Ссылки [ править ]

  1. ^ ANSI & NISO 2005, Рекомендации по созданию, формату и управлению одноязычными контролируемыми словарями, NISO, Мэриленд, США, стр.11
  2. ^ ANSI и NISO 2005, Рекомендации по созданию, формату и управлению одноязычными контролируемыми словарями, NISO, Мэриленд, США, стр.12
  3. ^ Робертс, Н. Предыстория тезауруса информационного поиска. Журнал документации , 40 (4), 1984, стр. 271–285.
  4. ^ Эйчисон, Дж. и Декстре Кларк, С. Тезаурус: историческая точка зрения со взглядом в будущее. Ежеквартальный журнал «Каталогизация и классификация» , 37 (3/4), 2004 г., стр. 5–21.
  5. ^ Крукс, Д.А. и Ланкастер, Ф.В. Эволюция рекомендаций по построению тезауруса. Либри , 43(4), 1993, стр.326-342.
  6. ^ Декстре Кларк, Стелла Г. и Цзэн, Марсия Лей. От ISO 2788 до ISO 25964: эволюция стандартов тезауруса в сторону совместимости и моделирования данных. Информационные стандарты ежеквартально , 24(1), 2012, стр.20-26.
  7. ^ ISO 25964 - международный стандарт тезаурусов и совместимости с другими словарями. Национальная организация по информационным стандартам, 2013.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 563adbaa5b2617f8c93e562886c88c06__1707982560
URL1:https://arc.ask3.ru/arc/aa/56/06/563adbaa5b2617f8c93e562886c88c06.html
Заголовок, (Title) документа по адресу, URL1:
Thesaurus (information retrieval) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)