Термин дискриминация
Дискриминация терминов – это способ ранжировать ключевые слова по степени их полезности для поиска информации .
Обзор [ править ]
Это метод, аналогичный tf-idf , но он занимается поиском ключевых слов, подходящих для поиска информации и не подходящих . Пожалуйста, сначала обратитесь к векторной пространственной модели .
В этом методе используется концепция плотности векторного пространства : чем менее плотна матрица вхождений , тем лучше будет запрос на поиск информации.
Оптимальным индексным термином является тот, который может отличить два разных документа друг от друга и связать два похожих документа. С другой стороны, неоптимальный индексный термин не может отличить два разных документа от двух похожих документов.
Значение дискриминации представляет собой разницу в плотности векторного пространства матрицы вхождений по сравнению с векторным пространством той же матрицы без плотности индексного термина.
Let: be the occurrence matrix be the occurrence matrix without the index term and be density of . Then: The discrimination value of the index term is:
Как вычислить [ править ]
Учитывая матрицу вхождений : и одно ключевое слово:
- Найдите глобальный центроид документа : (это всего лишь средний вектор документа)
- Найдите среднее евклидово расстояние от каждого вектора документа, к
- Найдите среднее евклидово расстояние от каждого вектора документа, к ИГНОРИРУЕМ
- Разница между двумя значениями на предыдущем шаге — это значение дискриминации для ключевого слова.
Чем выше значение, тем лучше, поскольку включение ключевого слова приведет к более качественному поиску информации.
наблюдения Качественные
ключевые слова Редкие должны быть плохими распознавателями, поскольку они плохо запоминаются . тогда как встречающиеся ключевые слова Часто должны быть плохими дискриминаторами, поскольку они имеют низкую точность .
Ссылки [ править ]
- Г. Салтон , А. Вонг и К.С. Ян (1975), « Векторная пространственная модель для автоматического индексирования », Communications of the ACM , vol. 18, номер. 11, страницы 613–620. (Статья, в которой впервые была представлена модель векторного пространства)
- Джан Ф., Озкарахан Е.А. (1987), «Вычисление значений дискриминации терминов/документов с использованием концепции коэффициента покрытия». Журнал Американского общества информатики , том. 38, номер. 3, страницы 171–183.