Jump to content

Термин дискриминация

(Перенаправлено с Дискриминация терминов )

Дискриминация терминов – это способ ранжировать ключевые слова по степени их полезности для поиска информации .

Обзор [ править ]

Это метод, аналогичный tf-idf , но он занимается поиском ключевых слов, подходящих для поиска информации и не подходящих . Пожалуйста, сначала обратитесь к векторной пространственной модели .

В этом методе используется концепция плотности векторного пространства : чем менее плотна матрица вхождений , тем лучше будет запрос на поиск информации.

Оптимальным индексным термином является тот, который может отличить два разных документа друг от друга и связать два похожих документа. С другой стороны, неоптимальный индексный термин не может отличить два разных документа от двух похожих документов.

Значение дискриминации представляет собой разницу в плотности векторного пространства матрицы вхождений по сравнению с векторным пространством той же матрицы без плотности индексного термина.

Let:
 be the occurrence matrix
 be the occurrence matrix without the index term 
and  be density of .
Then:
The discrimination value of the index term  is: 

Как вычислить [ править ]

Учитывая матрицу вхождений : и одно ключевое слово:

  • Найдите глобальный центроид документа : (это всего лишь средний вектор документа)
  • Найдите среднее евклидово расстояние от каждого вектора документа, к
  • Найдите среднее евклидово расстояние от каждого вектора документа, к ИГНОРИРУЕМ
  • Разница между двумя значениями на предыдущем шаге — это значение дискриминации для ключевого слова.

Чем выше значение, тем лучше, поскольку включение ключевого слова приведет к более качественному поиску информации.

наблюдения Качественные

ключевые слова Редкие должны быть плохими распознавателями, поскольку они плохо запоминаются . тогда как встречающиеся ключевые слова Часто должны быть плохими дискриминаторами, поскольку они имеют низкую точность .

Ссылки [ править ]

  • Г. Салтон , А. Вонг и К.С. Ян (1975), « Векторная пространственная модель для автоматического индексирования », Communications of the ACM , vol. 18, номер. 11, страницы 613–620. (Статья, в которой впервые была представлена ​​модель векторного пространства)
  • Джан Ф., Озкарахан Е.А. (1987), «Вычисление значений дискриминации терминов/документов с использованием концепции коэффициента покрытия». Журнал Американского общества информатики , том. 38, номер. 3, страницы 171–183.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 823d48cbf6f7a21b37052ffc115827b6__1610303880
URL1:https://arc.ask3.ru/arc/aa/82/b6/823d48cbf6f7a21b37052ffc115827b6.html
Заголовок, (Title) документа по адресу, URL1:
Term discrimination - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)