Сайт-скребок

Парсер , — это веб-сайт который копирует контент с других веб-сайтов с помощью веб-скрапинга . Затем контент зеркалируется с целью получения дохода, обычно за счет рекламы, а иногда и за счет продажи пользовательских данных.

Сайты-скраперы бывают разных форм: некоторые из них предоставляют мало материалов или информации или вообще не предоставляют их вообще и предназначены для получения информации о пользователе, такой как адреса электронной почты, для рассылки спама по электронной почте. Сайты агрегирования цен и торговые сайты имеют доступ к множеству списков продуктов и позволяют пользователю быстро сравнивать цены.

Примеры парсерских сайтов

Поисковые системы , такие как Google, можно рассматривать как тип парсера. Поисковые системы собирают контент с других веб-сайтов, сохраняют его в своих базах данных, индексируют и предоставляют очищенный контент собственным пользователям поисковых систем. Большая часть контента, полученного поисковыми системами, защищена авторским правом. ^{[ 1 ]}

Техника парсинга также использовалась на различных сайтах знакомств. Эти сайты часто совмещают очистку данных с распознаванием лиц . ^{[ 2 ]}^{[ 3 ]}^{[ 4 ]}^{[ 5 ]}^{[ 6 ]}^{[ 7 ]}^{[ 8 ]}^{[ 9 ]}^{[ 10 ]}^{[ 11 ]}^{[ чрезмерное цитирование ]}

Парсинг также используется на веб-сайтах общего анализа (распознавания) изображений , а также на веб-сайтах, специально созданных для выявления изображений сельскохозяйственных культур с вредителями и болезнями. ^{[ 12 ]}^{[ 13 ]}

Сделано для рекламы

Некоторые парсеры созданы для заработка с помощью рекламных программ. В таком случае их называют « Сделано для AdSense» сайтами или MFA. Этот уничижительный термин относится к веб-сайтам, которые не имеют никакой компенсационной ценности, кроме как заманить посетителей на веб-сайт с единственной целью — нажать на рекламу. ^{[ 14 ]}

Сайты, созданные для AdSense, считаются спамом поисковых систем , который разбавляет результаты поиска неудовлетворительными результатами поиска. Собранный контент является избыточным по сравнению с контентом, отображаемым поисковой системой при обычных обстоятельствах, если бы в списках не было обнаружено веб-сайта MFA.

Некоторые сайты-скребки ссылаются на другие сайты, чтобы улучшить свой рейтинг в поисковых системах через сеть частных блогов . До того, как Google обновил свой поисковый алгоритм, известный как Panda , тип парсерского сайта, известный как автоблог, был довольно распространен среди маркетологов «черной шляпы», которые использовали метод, известный как спамдексинг .

Законность

Сайты-скребки могут нарушать закон об авторском праве . Даже использование контента с сайта с открытым контентом может быть нарушением авторских прав , если оно выполнено способом, не соблюдающим лицензию. Например, лицензия свободной документации GNU (GFDL). ^{[ 15 ]} и Creative Commons ShareAlike (CC-BY-SA) ^{[ 16 ]} лицензии, используемые в Википедии ^{[ 17 ]} требовать, чтобы переиздатель Википедии информировал своих читателей об условиях этих лицензий и указывал имя первоначального автора.

Техники

В зависимости от цели парсера методы воздействия на веб-сайты различаются. Например, сайты с большим количеством контента, такие как авиакомпании, бытовая электроника, универмаги и т. д., могут регулярно становиться мишенью для конкурентов просто для того, чтобы быть в курсе информации о ценах.

Другой тип парсера будет извлекать фрагменты и текст с веб-сайтов, которые имеют высокий рейтинг по целевым ключевым словам. Таким образом, они надеются получить высокий рейтинг на страницах результатов поисковых систем (SERP), воспользовавшись рейтингом исходной страницы . RSS -каналы уязвимы для парсеров.

Другие парсеры состоят из рекламных объявлений и абзацев слов, случайно выбранных из словаря. Часто посетитель нажимает на рекламу с оплатой за клик на таком сайте, потому что это единственный понятный текст на странице. Операторы парсерских сайтов получают финансовую выгоду от этих кликов. Рекламные сети заявляют, что постоянно работают над удалением этих сайтов из своих программ, хотя эти сети получают прямую выгоду от кликов, генерируемых на сайтах такого типа. С точки зрения рекламодателей, сети, похоже, не прилагают достаточных усилий, чтобы решить эту проблему.

Парсеры, как правило, связаны с фермами ссылок и иногда воспринимаются как одно и то же, когда несколько парсеров ссылаются на один и тот же целевой сайт. Сайт-жертва, часто являющийся целевой жертвой, может быть обвинен в участии в ферме ссылок из-за искусственной схемы входящих ссылок на сайт-жертву, связанных с несколькими сайтами-скребками.

Взлом домена

Некоторые программисты, создающие сайты-скраперы, могут приобрести недавно истекшее доменное имя , чтобы повторно использовать его возможности SEO в Google. Весь бизнес сосредоточен на понимании всех ^{[ нужна ссылка ]} существуют домены с истекшим сроком действия и их использование для их исторического ранжирования. Это позволит оптимизаторам использовать уже установленные обратные ссылки на доменное имя. Некоторые спамеры могут попытаться сопоставить тему сайта с истекшим сроком действия или скопировать существующий контент из Интернет-архива, чтобы сохранить подлинность сайта и не допустить падения обратных ссылок. Например, веб-сайт с истекшим сроком действия, посвященный фотографу, можно перерегистрировать, чтобы создать сайт с советами по фотографии, или использовать доменное имя в сети частных блогов для создания собственного сайта с фотографиями.

Услуги некоторых агентов по регистрации доменных имен с истекшим сроком действия предоставляют как возможность найти эти домены с истекшим сроком действия, так и собрать HTML-код, который раньше имел доменное имя на своем веб-сайте. ^{[ нужна ссылка ]}

См. также

Соскабливание
Контактный соскоб
Парковка домена
Парсинг веб-страниц
Парсинг блогов
Многопротокольные мессенджеры : могут подключаться к нескольким сетям, но требуют наличия учетной записи во всех из них, поэтому не нарушайте условия сетей.
Контент-ферма
Поисковая оптимизация (SEO)

Ссылки

[1] Google «незаконно забрал контент у Amazon, Yelp, TripAdvisor», говорится в отчете.

[2] «Это приложение позволяет вам находить в Tinder людей, похожих на знаменитостей» . Новости БаззФида . 20 июня 2017 г. Архивировано из оригинала 8 мая 2023 г.

[3] Руководитель приложения для знакомств не видит проблем в совпадении лиц без согласия

[4] Приложение Dating.ai подберет для вас двойников знаменитостей

[5] Приложение для распознавания лиц сопоставляет незнакомцев с онлайн-профилями.

[6] NameTag: Приложение для распознавания лиц раскритиковали как жуткое и агрессивное.

[7] ^ Размах Бастера

[8] Приложение NameTag, удобное для сталкеров, использует распознавание лиц, чтобы найти вас в Интернете.

[9] Это умное (но тревожное) приложение позволяет направлять телефон на людей, чтобы узнать, кто они.

[10] Truly.am использует распознавание лиц, чтобы помочь вам проверить ваши онлайн-свидания.

[11] 3 увлекательных поисковых системы, которые ищут лица

[12] «Wolfram создал веб-сайт, который будет идентифицировать любое изображение, которое вы на него бросите» . Грань . 14 мая 2015 г. Архивировано из оригинала 3 июня 2023 г.

[13] Машинное обучение помогает мелким фермерам выявлять вредителей и болезни растений.

[14] Сделано для AdSense.

[15] «Текст лицензии свободной документации GNU» .

[16] «Непортированная лицензия Creative Commons Attribution-ShareAlike 3.0» .

[17] «Arc.Ask3.Ru:Повторное использование контента Википедии» .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]