Масса спама
Масса спама определяется как «мера влияния ссылочного спама на рейтинг страницы». Концепция была разработана Золтаном Дьёндьи и Гектором Гарсиа-Молиной из Стэнфордского университета совместно с Павлом Берхиным и Яном Педерсеном из Yahoo! . Эта статья расширяет предложенную ими методологию TrustRank .
Исследователи разработали хорошее и плохое ядро выбранных веб- документов, на основе которых они измерили массу спама в коллекции документов. два типа измерений: абсолютная масса и относительная масса Для сравнения групп документов используются . Чем выше массовые показатели, тем больше вероятность того, что документы будут приравнены к спаму.
Пороги
[ редактировать ]Пороговое значение используется для идентификации группы документов как спама. Если их относительная масса превышает пороговое значение, документы считаются спамом. Применяется второй порог для значений PageRank выбранных документов. Только документы с высоким PageRank помечаются как спам.
Цель методики — выявление спам-документов с искусственно завышенными значениями PageRank.