Корреляция веб-сайтов

Корреляция веб-сайтов или сопоставление веб-сайтов — это процесс, используемый для выявления похожих или связанных веб-сайтов. Веб-сайты по своей сути легко дублировать. ^[1]^[2] Это привело к увеличению количества идентичных веб-сайтов. ^[3] или очень похожие веб-сайты для различных целей, от перевода до интернет-маркетинга (особенно партнерского маркетинга ) ^[4] к интернет-преступности ^[5] Найти похожие веб-сайты по своей сути проблематично, поскольку они могут быть на разных языках, на разных серверах, в разных странах (разные домены верхнего уровня ).

Использование

Корреляция веб-сайтов используется в:

Интернет-расследования ^[6] определить общий объем расследования
Исследование рынка для выявления конкурентов или определения рыночной доли конкурирующих компаний или для кластерной выборки.
Веб-фильтрация ^[7] системы, гарантирующие, что все веб-сайты определенного типа заблокированы от просмотра
Системы интеллектуального анализа данных для максимизации входных или выходных данных
Программы управления рисками , обеспечивающие мониторинг веб-сайтов на предмет проблем, которые создают финансовый риск.
Мониторинг соответствия как часть программы или политики соответствия и этики, обеспечивающей соблюдение веб-сайтами установленных правил.

Типы корреляции

Существует несколько известных типов корреляции, каждый из которых демонстрирует свои сильные и слабые стороны. Практический процесс корреляции веб-сайтов может потребовать объединения двух или более этих методов.

Похожая структура

Чтобы сэкономить время и усилия, владельцы веб-сайтов дублируют основные части кода веб-сайта во многих доменах . Сходство структуры кода может предоставить достаточно информации для корреляции. Известно, что организации, имеющие общедоступные базы данных для поиска такого рода корреляций, включают:

http://www.delineal.com

Примечание. Иногда веб-сайты могут использовать одну и ту же структуру, но не иметь никакой связи друг с другом (например, когда веб-сайты случайно используют одну и ту же систему управления контентом ).

Тот же сервер или подсеть

Также известен как коррелированный обратный поиск DNS . Веб-сайты могут обслуживаться с одного и того же сервера , по одному или нескольким IP-адресам , в одной или нескольких подсетях . Некоторые организации хранят архивы данных IP-адресов и сопоставляют эти данные. Примеры включают в себя:

http://www.domaintools.com

Примечание. Корреляция с помощью этого метода может вводить в заблуждение, поскольку веб-сайты часто существуют на одном сервере (также известном как общий хостинг ), но не имеют никакого отношения друг к другу.

Тот же владелец

Веб-сайты могут быть созданы одним и тем же лицом или организацией. Владельцы веб-сайтов обязаны предоставить контактную информацию регистратору для получения доменного имени . Право собственности на домен можно определить с помощью протокола WHOIS , который не обеспечивает механизма поиска или сопоставления прав собственности. Некоторые организации хранят архивы информации WHOIS и предоставляют услуги поиска и корреляции. Примеры включают в себя:

Примечание. Информация о владельце веб-сайта может быть фальсифицирована , устарела или скрыта от публичного просмотра . Корреляция веб-сайтов с помощью этого метода может быть точной, вводящей в заблуждение или невозможной в зависимости от информации, содержащейся в записях WHOIS.

Та же категория

Веб-сайты часто классифицируются или помечаются одинаковыми тегами с помощью автоматических или ручных средств. Примеры общедоступных баз данных категоризации веб-сайтов включают:

Примечание. Методы ручной категоризации и тегирования (метаданных) по своей сути субъективны. ^[8] Методы автоматической категоризации и маркировки по своей сути подвержены различным слабым и сильным сторонам лежащих в их основе алгоритмов категоризации. ^[9]

Тот же идентификатор отслеживания

Идентификаторы отслеживания, используемые для аналитики или идентификации партнеров, часто встроены в код веб-сайта. Эти идентификаторы можно использовать для корреляции, поскольку они подразумевают общее управление веб-сайтами. К общедоступным веб-сайтам для корреляции по идентификатору отслеживания относятся:

http://ewhois.com

Ссылки

^ Поиск: «репликация веб-сайта» , Google.
^ Поиск: «Скрипт клонирования веб-сайта» , Google.
^ Феттерли, Д., Манасс, М., Наджорк, М., « Об эволюции кластеров почти повторяющихся веб-страниц », Материалы Первой конференции по Латиноамериканскому веб-конгрессу , стр. 37, 2003 г.
^ У меня есть доменное имя – что дальше???: Практическое руководство по созданию веб-сайта и присутствия в сети , ISBN 1-60005-109-X , 2008 г.
^ Шейн МакГлаун, «Microsoft предоставила постоянное владение 276 доменами ботнетов» , Daily Tech , 9 сентября 2010 г.
^ Расследования с участием Интернета и компьютерные сети [1] , Национальный институт юстиции (США) , 2007 г.
^ Дж. Прасанна Кумар, П. Говиндараджулу, «Обнаружение повторяющихся и почти повторяющихся документов: обзор», Европейский журнал научных исследований , ISSN 1450-216X Том 32 № 4 (2009), стр. 514-527
^ Брюс и Вибе, « Признание субъективности: пример ручной маркировки », Natural Language Engineering , 1999.
^ Фабрицио Себастьяни. Машинное обучение в автоматизированной категоризации текста . Обзоры вычислений ACM, 34 (1): 1–47, 2002 г.

[replication-1] Поиск: «репликация веб-сайта» , Google.

[clone-2] Поиск: «Скрипт клонирования веб-сайта» , Google.

[proliferation-3] Феттерли, Д., Манасс, М., Наджорк, М., « Об эволюции кластеров почти повторяющихся веб-страниц », Материалы Первой конференции по Латиноамериканскому веб-конгрессу , стр. 37, 2003 г.

[market_book_sample-4] У меня есть доменное имя – что дальше???: Практическое руководство по созданию веб-сайта и присутствия в сети , ISBN 1-60005-109-X , 2008 г.

[Internet_crime_example-5] Шейн МакГлаун, «Microsoft предоставила постоянное владение 276 доменами ботнетов» , Daily Tech , 9 сентября 2010 г.

[ncjrs_manual-6] Расследования с участием Интернета и компьютерные сети [1] , Национальный институт юстиции (США) , 2007 г.

[literature_survey-7] Дж. Прасанна Кумар, П. Говиндараджулу, «Обнаружение повторяющихся и почти повторяющихся документов: обзор», Европейский журнал научных исследований , ISSN 1450-216X Том 32 № 4 (2009), стр. 514-527

[subjective_tagging-8] Брюс и Вибе, « Признание субъективности: пример ручной маркировки », Natural Language Engineering , 1999.

[automated_tagging-9] Фабрицио Себастьяни. Машинное обучение в автоматизированной категоризации текста . Обзоры вычислений ACM, 34 (1): 1–47, 2002 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]