СимХэш
В информатике — SimHash это метод быстрой оценки сходства двух наборов. Алгоритм . используется Google сканером для поиска дубликатов страниц Его создал Моисей Чарикар . В 2021 году Google объявила о своем намерении также использовать этот алгоритм в своей недавно созданной системе FLoC (федеративное обучение когорт) . [1]
Оценка и критерии
[ редактировать ]Крупномасштабная оценка была проведена Google в 2006 году. [2] сравнить производительность Минхаша и Симхаша [3] алгоритмы. В 2007 году Google сообщил об использовании Simhash для обнаружения дубликатов при сканировании веб-страниц. [4] и использование Minhash и LSH для персонализации Новостей Google . [5]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Сайферс, Беннетт (3 марта 2021 г.). «FLoC от Google — ужасная идея» . Фонд электронных границ . Проверено 13 апреля 2021 г.
- ^ Хенцингер, Моника (2006), «Поиск почти повторяющихся веб-страниц: крупномасштабная оценка алгоритмов», Материалы 29-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации , стр. 284, номер домена : 10.1145/1148170.1148222 , ISBN 978-1595933690 , S2CID 207160068 .
- ^ Чарикар, Мозес С. (2002), «Методы оценки сходства на основе алгоритмов округления», Труды 34-го ежегодного симпозиума ACM по теории вычислений , стр. 380, номер домена : 10.1145/509907.509965 , ISBN 978-1581134957 , S2CID 4229473 .
- ^ Гурмит Сингх, Манку; Джайн, Арвинд; Дас Сарма, Аниш (2007), «Обнаружение почти дубликатов при сканировании веб-страниц», Материалы 16-й Международной конференции по Всемирной паутине (PDF) , стр. 141, номер домена : 10.1145/1242572.1242592 , ISBN 9781595936547 .
- ^ Дас, Абхинандан С.; Датар, Маюр; Гарг, Ашутош; Раджарам, Шьям; и др. (2007), «Персонализация новостей Google: масштабируемая совместная онлайн-фильтрация», Материалы 16-й Международной конференции по Всемирной паутине , стр. 271, номер домена : 10.1145/1242572.1242610 , ISBN 9781595936547 , S2CID 207163129 .