Jump to content

Информационно-поисковая система SMART

Информационно-поисковая система SMART (Система механического анализа и поиска текста) — это система поиска информации , разработанная в Корнельском университете в 1960-х годах. [1] Многие важные концепции поиска информации были разработаны в рамках исследований системы SMART, включая модель векторного пространства , обратную связь по релевантности и классификацию Роккио .

Джерард Солтон возглавлял группу, разработавшую SMART. Среди других участников был Майк Леск .

Система SMART также предоставляет набор корпусов, запросов и справочных рейтингов, взятых из различных предметов, в частности

К наследию системы SMART принадлежит так называемая тройная нотация SMART — мнемоническая схема для обозначения вариантов взвешивания tf-idf в модели векторного пространства. Мнемоника для представления комбинации весов имеет вид ddd.qqq, где первые три буквы представляют вес термина вектора документа коллекции, а вторые три буквы представляют вес термина для вектора документа запроса. Например, ltc.lnn представляет собой ltc взвешивание, применяемое к инкассо-документу, и lnn взвешивание, применяемое к документу запроса.

В следующих таблицах установлены обозначения SMART: [2]

Символы и обозначения
представляет вектор документа, где это вес термина в и количество уникальных терминов в . Положительные характеристики характеризуют термины, присутствующие в документе, а нулевой вес используется для терминов, отсутствующих в документе.
Частота встречаемости термина в документе Количество уникальных терминов в документе
Количество инкассовых документов Среднее количество уникальных терминов в документе
Количество документов со сроком подарок Количество символов в документе
Частота появления самого распространенного термина в документе Среднее количество символов в документе
Средняя частота появления термина в документе Глобальная статистика сбора
Наклон в контексте нормализации длины поворотного документа [3]
Тройная запись с умным взвешиванием терминов
Периодичность термина Частота документов Нормализация длины документа
bДвоичный вес xnНе учитывает частоту сбора xnНет нормализации длины документа
tnЧастота необработанных терминов fОбратная частота сбора cНормализация косинуса
aРасширенная нормализованная частота терминов tОбратная частота сбора uПоворотная уникальная нормализация [3]
lЛогарифм pВероятностная обратная частота сбора bПоворотная нормализация длины символов [3]
LНормализация на основе среднесрочной частоты [3]
dДвойной логарифм

Серые буквы в первом, пятом и девятом столбцах — это схема, использованная Солтоном и Бакли в их статье 1988 года. [4] Жирными буквами во втором, шестом и десятом столбцах обозначены схемы, использованные в экспериментах, о которых будет сообщено далее.

Ссылки [ править ]

  1. ^ Солтон, Дж., Леск, М.Э. (июнь 1965 г.). «Автоматические системы поиска документов SMART — иллюстрация» . Коммуникации АКМ . 8 (6): 391–398. дои : 10.1145/364955.364990 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  2. ^ Палчоудхури, Саупарна (2016). «О происхождении tf-idf» . sauparna.sdf.org . Проверено 29 июля 2019 г.
  3. ^ Jump up to: Перейти обратно: а б с д Сингхал А., Бакли К. и Митра М. (1996). Нормализация длины поворотного документа . Форум СИГИР, 51 , 176-184.
  4. ^ Солтон, Г., и Бакли, К. (1988). Подходы к взвешиванию терминов в автоматическом поиске текста . Инф. Процесс. Управлен., 24 , 513-523.

Внешние ссылки [ править ]


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 118dfab7179e5689dd52a053ab317491__1717426380
URL1:https://arc.ask3.ru/arc/aa/11/91/118dfab7179e5689dd52a053ab317491.html
Заголовок, (Title) документа по адресу, URL1:
SMART Information Retrieval System - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)