Jump to content

Корреляция веб-сайтов

Корреляция веб-сайтов или сопоставление веб-сайтов — это процесс, используемый для выявления похожих или связанных веб-сайтов. Веб-сайты по своей сути легко дублировать. [1] [2] Это привело к увеличению количества идентичных веб-сайтов. [3] или очень похожие веб-сайты для различных целей, от перевода до интернет-маркетинга (особенно партнерского маркетинга ) [4] к интернет-преступности [5] Найти похожие веб-сайты по своей сути проблематично, поскольку они могут быть на разных языках, на разных серверах, в разных странах (разные домены верхнего уровня ).

Использование

[ редактировать ]

Корреляция веб-сайтов используется в:

Типы корреляции

[ редактировать ]

Существует несколько известных типов корреляции, каждый из которых демонстрирует свои сильные и слабые стороны. Практический процесс корреляции веб-сайтов может потребовать объединения двух или более этих методов.

Похожая структура

[ редактировать ]

Чтобы сэкономить время и усилия, владельцы веб-сайтов дублируют основные части кода веб-сайта во многих доменах . Сходство структуры кода может предоставить достаточно информации для корреляции. Известно, что организации, имеющие общедоступные базы данных для поиска такого рода корреляций, включают:

Примечание. Иногда веб-сайты могут использовать одну и ту же структуру, но не иметь никакой связи друг с другом (например, когда веб-сайты случайно используют одну и ту же систему управления контентом ).

Тот же сервер или подсеть

[ редактировать ]

Также известен как коррелированный обратный поиск DNS . Веб-сайты могут обслуживаться с одного и того же сервера , по одному или нескольким IP-адресам , в одной или нескольких подсетях . Некоторые организации хранят архивы данных IP-адресов и сопоставляют эти данные. Примеры включают в себя:

Примечание. Корреляция с помощью этого метода может вводить в заблуждение, поскольку веб-сайты часто существуют на одном сервере (также известном как общий хостинг ), но не имеют никакого отношения друг к другу.

Тот же владелец

[ редактировать ]

Веб-сайты могут быть созданы одним и тем же лицом или организацией. Владельцы веб-сайтов обязаны предоставить контактную информацию регистратору для получения доменного имени . Право собственности на домен можно определить с помощью протокола WHOIS , который не обеспечивает механизма поиска или сопоставления прав собственности. Некоторые организации хранят архивы информации WHOIS и предоставляют услуги поиска и корреляции. Примеры включают в себя:

Примечание. Информация о владельце веб-сайта может быть фальсифицирована , устарела или скрыта от публичного просмотра . Корреляция веб-сайтов с помощью этого метода может быть точной, вводящей в заблуждение или невозможной в зависимости от информации, содержащейся в записях WHOIS.

Похожие материалы

[ редактировать ]

Поисковые системы предоставляют доступные для поиска базы данных проиндексированного содержимого веб-сайтов. Списки результатов поисковых систем коррелируют по сходству контента.

  • на Google.com введите «связанное:website_name_here.com», чтобы найти веб-сайты, связанные по имени или фразам.
  • найдите на веб-сайте уникально звучащую фразу, а затем используйте поисковые системы, чтобы найти ее буквально на других веб-сайтах.
    • В поле поиска поместите фразу в кавычки, чтобы выполнить буквальный поиск по фразе.
    • вместо копирайт 2010 xyzcompany используйте «авторское право 2010 xyzcompany».

Примечание. Этот метод корреляции по своей сути медленный , поскольку нужно угадывать, какие фразы искать. Кроме того, связанные веб-сайты не могут содержать буквально схожий контент (например, когда сайт переведен на другой язык).

Та же категория

[ редактировать ]

Веб-сайты часто классифицируются или помечаются одинаковыми тегами с помощью автоматических или ручных средств. Примеры общедоступных баз данных категоризации веб-сайтов включают:

Примечание. Методы ручной категоризации и тегирования (метаданных) по своей сути субъективны. [8] Методы автоматической категоризации и маркировки по своей сути подвержены различным слабым и сильным сторонам лежащих в их основе алгоритмов категоризации. [9]

Тот же идентификатор отслеживания

[ редактировать ]

Идентификаторы отслеживания, используемые для аналитики или идентификации партнеров, часто встроены в код веб-сайта. Эти идентификаторы можно использовать для корреляции, поскольку они подразумевают общее управление веб-сайтами. К общедоступным веб-сайтам для корреляции по идентификатору отслеживания относятся:

  1. ^ Поиск: «репликация веб-сайта» , Google.
  2. ^ Поиск: «Скрипт клонирования веб-сайта» , Google.
  3. ^ Феттерли, Д., Манасс, М., Наджорк, М., « Об эволюции кластеров почти повторяющихся веб-страниц », Материалы Первой конференции по Латиноамериканскому веб-конгрессу , стр. 37, 2003 г.
  4. ^ У меня есть доменное имя – что дальше???: Практическое руководство по созданию веб-сайта и присутствия в сети , ISBN   1-60005-109-X , 2008 г.
  5. ^ Шейн МакГлаун, «Microsoft предоставила постоянное владение 276 доменами ботнетов» , Daily Tech , 9 сентября 2010 г.
  6. ^ Расследования с участием Интернета и компьютерные сети [1] , Национальный институт юстиции (США) , 2007 г.
  7. ^ Дж. Прасанна Кумар, П. Говиндараджулу, «Обнаружение повторяющихся и почти повторяющихся документов: обзор», Европейский журнал научных исследований , ISSN   1450-216X Том 32 № 4 (2009), стр. 514-527
  8. ^ Брюс и Вибе, « Признание субъективности: пример ручной маркировки », Natural Language Engineering , 1999.
  9. ^ Фабрицио Себастьяни. Машинное обучение в автоматизированной категоризации текста . Обзоры вычислений ACM, 34 (1): 1–47, 2002 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 3df37baabc776e3a9df953694d62e1fc__1715319720
URL1:https://arc.ask3.ru/arc/aa/3d/fc/3df37baabc776e3a9df953694d62e1fc.html
Заголовок, (Title) документа по адресу, URL1:
Website correlation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)