Jump to content

СимХэш

В информатике SimHash это метод быстрой оценки сходства двух наборов. Алгоритм . используется Google сканером для поиска дубликатов страниц Его создал Моисей Чарикар . В 2021 году Google объявила о своем намерении также использовать этот алгоритм в своей недавно созданной системе FLoC (федеративное обучение когорт) . [1]

Оценка и критерии

[ редактировать ]

Крупномасштабная оценка была проведена Google в 2006 году. [2] сравнить производительность Минхаша и Симхаша [3] алгоритмы. В 2007 году Google сообщил об использовании Simhash для обнаружения дубликатов при сканировании веб-страниц. [4] и использование Minhash и LSH для персонализации Новостей Google . [5]

См. также

[ редактировать ]
  1. ^ Сайферс, Беннетт (3 марта 2021 г.). «FLoC от Google — ужасная идея» . Фонд электронных границ . Проверено 13 апреля 2021 г.
  2. ^ Хенцингер, Моника (2006), «Поиск почти повторяющихся веб-страниц: крупномасштабная оценка алгоритмов», Материалы 29-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации , стр. 284, номер домена : 10.1145/1148170.1148222 , ISBN  978-1595933690 , S2CID   207160068 .
  3. ^ Чарикар, Мозес С. (2002), «Методы оценки сходства на основе алгоритмов округления», Труды 34-го ежегодного симпозиума ACM по теории вычислений , стр. 380, номер домена : 10.1145/509907.509965 , ISBN  978-1581134957 , S2CID   4229473 .
  4. ^ Гурмит Сингх, Манку; Джайн, Арвинд; Дас Сарма, Аниш (2007), «Обнаружение почти дубликатов при сканировании веб-страниц», Материалы 16-й Международной конференции по Всемирной паутине (PDF) , стр. 141, номер домена : 10.1145/1242572.1242592 , ISBN  9781595936547 .
  5. ^ Дас, Абхинандан С.; Датар, Маюр; Гарг, Ашутош; Раджарам, Шьям; и др. (2007), «Персонализация новостей Google: масштабируемая совместная онлайн-фильтрация», Материалы 16-й Международной конференции по Всемирной паутине , стр. 271, номер домена : 10.1145/1242572.1242610 , ISBN  9781595936547 , S2CID   207163129 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: cdd1386e18a9bcb235a0230933d09ff2__1702240860
URL1:https://arc.ask3.ru/arc/aa/cd/f2/cdd1386e18a9bcb235a0230933d09ff2.html
Заголовок, (Title) документа по адресу, URL1:
SimHash - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)