Jump to content

Алгоритм САЛЬСА

Стохастический подход к анализу структуры ссылок (SALSA) ранжирования веб-страниц, — это алгоритм разработанный Р. Лемпелем и С. Мораном для присвоения высоких оценок центральным и авторитетным веб-страницам на основе количества гиперссылок между ними. [1]

Происхождение

[ редактировать ]

SALSA вдохновлена ​​двумя другими алгоритмами ранжирования на основе ссылок, а именно HITS и PageRank , следующим образом:

  • Как и HITS, алгоритм присваивает каждой веб-странице две оценки: оценку хаба и оценку авторитета. Авторитетный ресурс — это страница, которая значительно более актуальна для данной темы, чем другие страницы, тогда как хаб — это страница, содержащая множество ссылок на авторитетные источники;
  • Как и HITS, SALSA также работает с конкретным подграфом , зависящим от темы. Этот сфокусированный подграф получается путем нахождения набора страниц, наиболее соответствующих заданной теме (например, берутся первые n страниц, возвращаемых алгоритмом текстового поиска), а затем дополнения этого набора веб-страницами, которые ссылаются непосредственно на него, и страницы, на которые есть прямые ссылки из него. Из-за этого процесса выбора оценки центра и авторитета зависят от темы;
  • Как и PageRank, алгоритм вычисляет баллы, моделируя случайное блуждание по цепи Маркова , которая представляет собой граф веб-страниц. Однако SALSA работает с двумя разными цепями Маркова: цепочкой узлов и цепочкой авторитетов. Это отход от представлений HITS о центрах и органах власти, основанных на взаимоусиливающих отношениях.

Характеристики

[ редактировать ]

САЛЬСА можно рассматривать как усовершенствованную версию HITS.

Он легче в вычислительном отношении, поскольку его рейтинг эквивалентен взвешенному ранжированию степеней входа/выхода. Вычислительные затраты алгоритма являются решающим фактором, поскольку HITS и SALSA вычисляются во время запроса и, следовательно, могут существенно повлиять на время ответа поисковой системы. Это следует противопоставить алгоритмам, не зависящим от запроса, таким как PageRank, которые можно вычислять в автономном режиме.

SALSA менее уязвима к эффекту «Сплоченного сообщества» (TKC), чем HITS. TKC — это топологическая структура в сети, состоящая из небольшого набора тесно взаимосвязанных страниц. присутствие TKC в сфокусированном подграфе Известно, что отрицательно влияет на выявление значимых авторитетов с помощью HITS.

Социальная сеть Twitter использует алгоритм в стиле SALSA, чтобы предлагать учетные записи, на которые можно подписаться. [2]

  1. ^ Ван, Цзыян. «Улучшенные алгоритмы ранжирования веб-страниц на основе ссылок» (PDF) . cs.nyu.edu . Нью-Йоркский университет, факультет компьютерных наук . Проверено 7 августа 2023 г.
  2. ^ Панкадж Гупта, Ашиш Гоэл, Джимми Лин, Аниш Шарма, Донг Ван и Реза Босаг Заде WTF: Система «за кем следить» в Твиттере , Материалы 22-й международной конференции по Всемирной паутине
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f707f722d8c2d7842127b5910a66de4c__1691431800
URL1:https://arc.ask3.ru/arc/aa/f7/4c/f707f722d8c2d7842127b5910a66de4c.html
Заголовок, (Title) документа по адресу, URL1:
SALSA algorithm - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)