Jump to content

ХИТ-алгоритм

(Перенаправлено из Центров и органов власти )

Поиск по темам, вызванный гиперссылками ( HITS ; также известный как хабы и авторитетные источники ) — это анализа ссылок алгоритм , который оценивает веб-страницы, разработанный Джоном Кляйнбергом . Идея Hubs and Authorities возникла из особого понимания создания веб-страниц во время первоначального формирования Интернета; то есть определенные веб-страницы, известные как хабы, служили большими каталогами, которые на самом деле не были авторитетными в отношении содержащейся в них информации, но использовались как компиляция широкого каталога информации, которая направляла пользователей непосредственно на другие авторитетные страницы. Другими словами, хороший хаб представляет собой страницу, которая указывает на множество других страниц, тогда как хороший авторитетный источник представляет собой страницу, на которую ссылаются множество разных хабов. [1]

Таким образом, схема присваивает каждой странице две оценки: ее авторитетность, которая оценивает ценность содержимого страницы, и ее хаб-значение, которое оценивает ценность ее ссылок на другие страницы.

В журналах

[ редактировать ]

Для оценки важности научных журналов использовалось множество методов. Гарфилда Одним из таких методов является импакт-фактор . Такие журналы, как Science и Nature, наполнены многочисленными цитатами, поэтому эти журналы имеют очень высокий импакт-фактор. Таким образом, при сравнении еще двух малоизвестных журналов, которые получили примерно одинаковое количество цитирований, но один из этих журналов получил много цитирований от Science и Nature , этот журнал должен иметь более высокий рейтинг. Другими словами, лучше получать цитирования из важного журнала, чем из неважного. [2]

В Интернете

[ редактировать ]

Это явление также встречается в Интернете . Подсчет количества ссылок на страницу может дать нам общую оценку ее известности в Интернете, но страница с очень небольшим количеством входящих ссылок также может быть заметной, если две из этих ссылок приходят с домашних страниц таких сайтов, как Yahoo! , Google или MSN . Поскольку эти сайты имеют очень большое значение, но также являются поисковыми системами , рейтинг страницы может быть намного выше ее фактической релевантности.

Алгоритм

[ редактировать ]
Расширение корневого набора в базовый набор

В алгоритме HITS первым шагом является получение страниц, наиболее релевантных поисковому запросу. Этот набор называется корневым набором , и его можно получить, взяв верхние страницы, возвращенные алгоритмом текстового поиска. Базовый набор создается путем дополнения корневого набора всеми веб-страницами, связанными с ним, и некоторыми страницами, которые ссылаются на него. Веб-страницы в базовом наборе и все гиперссылки на этих страницах образуют сфокусированный подграф. Вычисление HITS выполняется только для этого сфокусированного подграфа . По мнению Кляйнберга, причина создания базового набора состоит в том, чтобы обеспечить включение большинства (или многих) самых сильных авторитетов.

Значения авторитета и концентратора определяются друг относительно друга во взаимной рекурсии . Значение авторитета вычисляется как сумма масштабированных значений концентратора, указывающих на эту страницу. Значение хаба — это сумма масштабированных значений авторитетности страниц, на которые он указывает. Некоторые реализации также учитывают релевантность связанных страниц.

Алгоритм выполняет серию итераций, каждая из которых состоит из двух основных шагов:

  • Обновление полномочий каждого узла, : обновите оценку авторитета чтобы она была равна сумме оценок концентратора каждого узла, который на него указывает. То есть узлу присваивается высокий рейтинг авторитета, поскольку на него ссылаются страницы, которые для получения информации распознаются как концентраторы.
  • Обновление концентратора каждого узла, : обновите оценку концентратора чтобы она была равна сумме оценок авторитета каждого узла, на который он указывает. То есть узлу присваивается высокая оценка хаба за счет ссылки на узлы, которые считаются авторитетными в этом вопросе.

Оценка хаба и оценка авторитета узла рассчитываются по следующему алгоритму:

  • Начните с того, что каждый узел имеет оценку концентратора и оценку авторитета 1.
  • Запустите правило обновления полномочий
  • Запустите правило обновления хаба
  • Нормализуйте значения, разделив каждую оценку Хаба на квадратный корень из суммы квадратов всех оценок Хаба и разделив каждую оценку Авторитета на квадратный корень из суммы квадратов всех оценок Авторитета.
  • При необходимости повторите второй шаг.

Сравнение с PageRank

[ редактировать ]

HITS, как и Пейджа и Брина основанный PageRank , представляет собой итеративный алгоритм, на связывании документов в сети . Однако у него есть несколько существенных отличий:

  • Он обрабатывается на небольшом подмножестве «релевантных» документов («сфокусированный подграф» или базовый набор), а не на наборе всех документов, как в случае с PageRank.
  • Это зависит от запроса: одна и та же страница может получить разные оценки центра/авторитета при наличии другого базового набора, который отображается для другого запроса;
  • Как следствие, он должен выполняться во время запроса, а не во время индексации, что приводит к падению производительности, сопровождающему обработку во время запроса.
  • Он вычисляет две оценки для каждого документа (концентратор и авторитетный источник), а не одну оценку;
  • Он обычно не используется поисковыми системами (хотя, как сообщается, аналогичный алгоритм использовался Teoma , которую приобрела Ask Jeeves/Ask.com ).

Подробно

[ редактировать ]

Для начала рейтинга позволим и за каждую страницу . Мы рассматриваем два типа обновлений: правило обновления центра и правило обновления хаба. Для расчета оценок хаба/авторитета каждого узла применяются повторяющиеся итерации правила обновления полномочий и правила обновления хаба. Применение алгоритма Hub-Authority за k шагов влечет за собой применение k раз сначала правила обновления центра, а затем правила обновления центра.

Правило обновления полномочий

[ редактировать ]

Для каждого , мы обновляем к где это все страницы, которые ссылаются на страницу . То есть рейтинг авторитетности страницы представляет собой сумму всех узловых оценок страниц, которые на нее указывают.

Правило обновления хаба

[ редактировать ]

Для каждого , мы обновляем к где это все страницы какая страница ссылки на. То есть оценка хаба страницы представляет собой сумму всех оценок авторитетности страниц, на которые она указывает.

Нормализация

[ редактировать ]

Окончательные оценки узлов авторитетности хаба определяются после бесконечных повторений алгоритма. Поскольку прямое и итеративное применение правила обновления хаба и правила обновления центра приводит к расхождению значений, необходимо нормализовать матрицу после каждой итерации. Таким образом, значения, полученные в результате этого процесса, в конечном итоге сойдутся.

Псевдокод

[ редактировать ]
G := set of pages
for each page p in G do
    p.auth = 1 // p.auth is the authority score of the page p
    p.hub = 1 // p.hub is the hub score of the page p
for step from 1 to k do // run the algorithm for k steps
    norm = 0
    for each page p in G do  // update all authority values first
        p.auth = 0
        for each page q in p.incomingNeighbors do // p.incomingNeighbors is the set of pages that link to p
            p.auth += q.hub
        norm += square(p.auth) // calculate the sum of the squared auth values to normalise
    norm = sqrt(norm)
    for each page p in G do  // update the auth scores 
        p.auth = p.auth / norm  // normalise the auth values
    norm = 0
    for each page p in G do  // then update all hub values
        p.hub = 0
        for each page r in p.outgoingNeighbors do // p.outgoingNeighbors is the set of pages that p links to
            p.hub += r.auth
        norm += square(p.hub) // calculate the sum of the squared hub values to normalise
    norm = sqrt(norm)
    for each page p in G do  // then update all hub values
        p.hub = p.hub / norm   // normalise the hub values

Значения концентратора и авторитета сходятся в приведенном выше псевдокоде.

Приведенный ниже код не сходится, поскольку необходимо ограничить количество шагов, которые выполняет алгоритм. Однако одним из способов обойти это было бы нормализовать значения хаба и авторитета после каждого «шага», разделив каждое значение авторитета на квадратный корень из суммы квадратов всех значений авторитета и разделив каждое значение хаба на квадратный корень из суммы квадратов всех значений хаба. Это то, что делает приведенный выше псевдокод.

Несходящийся псевдокод

[ редактировать ]
G := set of pages
for each page p in G do
    p.auth = 1 // p.auth is the authority score of the page p
    p.hub = 1 // p.hub is the hub score of the page p

function HubsAndAuthorities(G)
    for step from 1 to k do // run the algorithm for k steps
        for each page p in G do  // update all authority values first
            p.auth = 0
            for each page q in p.incomingNeighbors do // p.incomingNeighbors is the set of pages that link to p
                p.auth += q.hub
        for each page p in G do  // then update all hub values
            p.hub = 0
            for each page r in p.outgoingNeighbors do // p.outgoingNeighbors is the set of pages that p links to
                p.hub += r.auth

См. также

[ редактировать ]
  1. ^ Кристофер Д. Мэннинг; Прабхакар Рагхаван; Хинрих Шютце (2008). «Введение в поиск информации» . Издательство Кембриджского университета . Проверено 9 ноября 2008 г.
  2. ^ Кляйнберг, Джон (декабрь 1999 г.). «Хабы, органы власти и сообщества» . Корнеллский университет . Проверено 9 ноября 2008 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 65b65e60bf62fee88af6311238e14423__1701960480
URL1:https://arc.ask3.ru/arc/aa/65/23/65b65e60bf62fee88af6311238e14423.html
Заголовок, (Title) документа по адресу, URL1:
HITS algorithm - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)