Корреляция веб-сайтов
Корреляция веб-сайтов или сопоставление веб-сайтов — это процесс, используемый для выявления похожих или связанных веб-сайтов. Веб-сайты по своей сути легко дублировать. [1] [2] Это привело к увеличению количества идентичных веб-сайтов. [3] или очень похожие веб-сайты для различных целей, от перевода до интернет-маркетинга (особенно партнерского маркетинга ) [4] к интернет-преступности [5] Найти похожие веб-сайты по своей сути проблематично, поскольку они могут быть на разных языках, на разных серверах, в разных странах (разные домены верхнего уровня ).
Использование
[ редактировать ]Корреляция веб-сайтов используется в:
- Интернет-расследования [6] определить общий объем расследования
- Исследование рынка для выявления конкурентов или определения рыночной доли конкурирующих компаний или для кластерной выборки.
- Веб-фильтрация [7] системы, гарантирующие, что все веб-сайты определенного типа заблокированы от просмотра
- Системы интеллектуального анализа данных для максимизации входных или выходных данных
- Программы управления рисками , обеспечивающие мониторинг веб-сайтов на предмет проблем, которые создают финансовый риск.
- Мониторинг соответствия как часть программы или политики соответствия и этики, обеспечивающей соблюдение веб-сайтами установленных правил.
Типы корреляции
[ редактировать ]Существует несколько известных типов корреляции, каждый из которых демонстрирует свои сильные и слабые стороны. Практический процесс корреляции веб-сайтов может потребовать объединения двух или более этих методов.
Похожая структура
[ редактировать ]Чтобы сэкономить время и усилия, владельцы веб-сайтов дублируют основные части кода веб-сайта во многих доменах . Сходство структуры кода может предоставить достаточно информации для корреляции. Известно, что организации, имеющие общедоступные базы данных для поиска такого рода корреляций, включают:
Примечание. Иногда веб-сайты могут использовать одну и ту же структуру, но не иметь никакой связи друг с другом (например, когда веб-сайты случайно используют одну и ту же систему управления контентом ).
Тот же сервер или подсеть
[ редактировать ]Также известен как коррелированный обратный поиск DNS . Веб-сайты могут обслуживаться с одного и того же сервера , по одному или нескольким IP-адресам , в одной или нескольких подсетях . Некоторые организации хранят архивы данных IP-адресов и сопоставляют эти данные. Примеры включают в себя:
Примечание. Корреляция с помощью этого метода может вводить в заблуждение, поскольку веб-сайты часто существуют на одном сервере (также известном как общий хостинг ), но не имеют никакого отношения друг к другу.
Тот же владелец
[ редактировать ]Веб-сайты могут быть созданы одним и тем же лицом или организацией. Владельцы веб-сайтов обязаны предоставить контактную информацию регистратору для получения доменного имени . Право собственности на домен можно определить с помощью протокола WHOIS , который не обеспечивает механизма поиска или сопоставления прав собственности. Некоторые организации хранят архивы информации WHOIS и предоставляют услуги поиска и корреляции. Примеры включают в себя:
Примечание. Информация о владельце веб-сайта может быть фальсифицирована , устарела или скрыта от публичного просмотра . Корреляция веб-сайтов с помощью этого метода может быть точной, вводящей в заблуждение или невозможной в зависимости от информации, содержащейся в записях WHOIS.
Похожие материалы
[ редактировать ]Поисковые системы предоставляют доступные для поиска базы данных проиндексированного содержимого веб-сайтов. Списки результатов поисковых систем коррелируют по сходству контента.
- на Google.com введите «связанное:website_name_here.com», чтобы найти веб-сайты, связанные по имени или фразам.
- найдите на веб-сайте уникально звучащую фразу, а затем используйте поисковые системы, чтобы найти ее буквально на других веб-сайтах.
- В поле поиска поместите фразу в кавычки, чтобы выполнить буквальный поиск по фразе.
- вместо копирайт 2010 xyzcompany используйте «авторское право 2010 xyzcompany».
Примечание. Этот метод корреляции по своей сути медленный , поскольку нужно угадывать, какие фразы искать. Кроме того, связанные веб-сайты не могут содержать буквально схожий контент (например, когда сайт переведен на другой язык).
Та же категория
[ редактировать ]Веб-сайты часто классифицируются или помечаются одинаковыми тегами с помощью автоматических или ручных средств. Примеры общедоступных баз данных категоризации веб-сайтов включают:
- http://www.similarsitesearch.com/
- http://similarsites.com
- http://similarsites.de
- http://www.similarsitecheck.com
- http://www.similarto.us
- ДМОЗ
Примечание. Методы ручной категоризации и тегирования (метаданных) по своей сути субъективны. [8] Методы автоматической категоризации и маркировки по своей сути подвержены различным слабым и сильным сторонам лежащих в их основе алгоритмов категоризации. [9]
Тот же идентификатор отслеживания
[ редактировать ]Идентификаторы отслеживания, используемые для аналитики или идентификации партнеров, часто встроены в код веб-сайта. Эти идентификаторы можно использовать для корреляции, поскольку они подразумевают общее управление веб-сайтами. К общедоступным веб-сайтам для корреляции по идентификатору отслеживания относятся:
Ссылки
[ редактировать ]- ^ Поиск: «репликация веб-сайта» , Google.
- ^ Поиск: «Скрипт клонирования веб-сайта» , Google.
- ^ Феттерли, Д., Манасс, М., Наджорк, М., « Об эволюции кластеров почти повторяющихся веб-страниц », Материалы Первой конференции по Латиноамериканскому веб-конгрессу , стр. 37, 2003 г.
- ^ У меня есть доменное имя – что дальше???: Практическое руководство по созданию веб-сайта и присутствия в сети , ISBN 1-60005-109-X , 2008 г.
- ^ Шейн МакГлаун, «Microsoft предоставила постоянное владение 276 доменами ботнетов» , Daily Tech , 9 сентября 2010 г.
- ^ Расследования с участием Интернета и компьютерные сети [1] , Национальный институт юстиции (США) , 2007 г.
- ^ Дж. Прасанна Кумар, П. Говиндараджулу, «Обнаружение повторяющихся и почти повторяющихся документов: обзор», Европейский журнал научных исследований , ISSN 1450-216X Том 32 № 4 (2009), стр. 514-527
- ^ Брюс и Вибе, « Признание субъективности: пример ручной маркировки », Natural Language Engineering , 1999.
- ^ Фабрицио Себастьяни. Машинное обучение в автоматизированной категоризации текста . Обзоры вычислений ACM, 34 (1): 1–47, 2002 г.