Информационно-поисковая система SMART
Информационно-поисковая система SMART (Система механического анализа и поиска текста) — это система поиска информации , разработанная в Корнельском университете в 1960-х годах. [1] Многие важные концепции поиска информации были разработаны в рамках исследований системы SMART, включая модель векторного пространства , обратную связь по релевантности и классификацию Роккио .
Джерард Солтон возглавлял группу, разработавшую SMART. Среди других участников был Майк Леск .
Система SMART также предоставляет набор корпусов, запросов и справочных рейтингов, взятых из различных предметов, в частности
- ADI : публикации из обзоров информатики
- Информатика
- Крэнфилда : публикации из обзоров аэронавтики. Коллекция
- Судебная экспертиза : библиотечное дело
- Коллекция МЕДЛАРС : публикации из медицинских обзоров
- Коллекция журнала Time : архивы универсального обзора Time в 1963 году
К наследию системы SMART принадлежит так называемая тройная нотация SMART — мнемоническая схема для обозначения вариантов взвешивания tf-idf в модели векторного пространства. Мнемоника для представления комбинации весов имеет вид ddd.qqq
, где первые три буквы представляют вес термина вектора документа коллекции, а вторые три буквы представляют вес термина для вектора документа запроса. Например, ltc.lnn
представляет собой ltc
взвешивание, применяемое к инкассо-документу, и lnn
взвешивание, применяемое к документу запроса.
В следующих таблицах установлены обозначения SMART: [2]
представляет вектор документа, где это вес термина в и количество уникальных терминов в . Положительные характеристики характеризуют термины, присутствующие в документе, а нулевой вес используется для терминов, отсутствующих в документе. | |||
Частота встречаемости термина в документе | Количество уникальных терминов в документе | ||
Количество инкассовых документов | Среднее количество уникальных терминов в документе | ||
Количество документов со сроком подарок | Количество символов в документе | ||
Частота появления самого распространенного термина в документе | Среднее количество символов в документе | ||
Средняя частота появления термина в документе | Глобальная статистика сбора | ||
Наклон в контексте нормализации длины поворотного документа [3] |
Периодичность термина | Частота документов | Нормализация длины документа | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
b | Двоичный вес | x | n | Не учитывает частоту сбора | x | n | Нет нормализации длины документа | ||||
t | n | Частота необработанных терминов | f | Обратная частота сбора | c | Нормализация косинуса | |||||
a | Расширенная нормализованная частота терминов | t | Обратная частота сбора | u | Поворотная уникальная нормализация [3] | ||||||
l | Логарифм | p | Вероятностная обратная частота сбора | b | Поворотная нормализация длины символов [3] | ||||||
L | Нормализация на основе среднесрочной частоты [3] | ||||||||||
d | Двойной логарифм |
Серые буквы в первом, пятом и девятом столбцах — это схема, использованная Солтоном и Бакли в их статье 1988 года. [4] Жирными буквами во втором, шестом и десятом столбцах обозначены схемы, использованные в экспериментах, о которых будет сообщено далее.
Ссылки [ править ]
- ^ Солтон, Дж., Леск, М.Э. (июнь 1965 г.). «Автоматические системы поиска документов SMART — иллюстрация» . Коммуникации АКМ . 8 (6): 391–398. дои : 10.1145/364955.364990 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Палчоудхури, Саупарна (2016). «О происхождении tf-idf» . sauparna.sdf.org . Проверено 29 июля 2019 г.
- ^ Jump up to: Перейти обратно: а б с д Сингхал А., Бакли К. и Митра М. (1996). Нормализация длины поворотного документа . Форум СИГИР, 51 , 176-184.
- ^ Солтон, Г., и Бакли, К. (1988). Подходы к взвешиванию терминов в автоматическом поиске текста . Инф. Процесс. Управлен., 24 , 513-523.
Внешние ссылки [ править ]
- Программное обеспечение и тестовые коллекции [ мертвая ссылка ] (FTP в Корнелльском университете )
- Интерактивное руководство по SMART