Jump to content

Спамдексинг

Спамдексирование (также известное как поисковый спам , отравление поисковых систем , черная поисковая оптимизация , поисковый спам или веб-спам ) [1] это преднамеренное манипулирование поисковых систем индексами . Он включает в себя ряд методов, таких как создание ссылок и повторение несвязанных фраз, для манипулирования релевантностью или известностью ресурсов, проиндексированных способом, несовместимым с целью системы индексирования. [2] [3]

Спамдексирование можно рассматривать как часть поисковой оптимизации . [4] хотя существует множество методов SEO, которые улучшают качество и внешний вид содержимого веб-сайтов и предоставляют контент, полезный для многих пользователей. [5]

Поисковые системы используют различные алгоритмы для определения рейтинга релевантности . Некоторые из них включают определение того, отображается ли поисковый запрос в основном тексте или URL-адресе страницы веб- . Многие поисковые системы проверяют случаи спамдексинга и удаляют подозрительные страницы из своих индексов. Кроме того, операторы поисковых систем могут быстро заблокировать результаты целых веб-сайтов, использующих спамдексирование, возможно, в ответ на жалобы пользователей на ложные совпадения. Рост популярности спама в середине 1990-х годов сделал ведущие поисковые системы того времени менее полезными. Использование неэтичных методов для повышения рейтинга веб-сайтов в результатах поисковых систем, чем в противном случае, в индустрии SEO (поисковой оптимизации) обычно называют «черным SEO». [6] Эти методы больше ориентированы на нарушение правил и рекомендаций поискового продвижения. В дополнение к этому, злоумышленники рискуют подвергнуться суровому наказанию своих веб-сайтов со стороны Google Panda и Google Penguin . алгоритмов ранжирования результатов поиска [7]

Распространенные методы спамдексинга можно разделить на два больших класса: контентный спам. [5] ( терминальный спам ) и ссылочный спам . [3]

Самая ранняя известная ссылка [2] Термин «спамдексинг» принадлежит Эрику Конви в его статье «Порнография снова проникает в Интернет», The Boston Herald , 22 мая 1996 г., где он сказал:

Проблема возникает, когда операторы сайтов загружают свои веб-страницы сотнями посторонних терминов, поэтому поисковые системы включают их в число законных адресов.Этот процесс называется «спамдексированием» — сочетанием спама (интернет-термин, обозначающий рассылку пользователям нежелательной информации) и « индексации ». [2]

Контентный спам

[ редактировать ]

Эти методы включают изменение логического представления содержимого страницы, которое поисковая система имеет. Все они нацелены на варианты модели векторного пространства для поиска информации в текстовых коллекциях.

Наполнение ключевыми словами

[ редактировать ]

Наполнение ключевыми словами предполагает расчетное размещение ключевых слов на странице для увеличения количества ключевых слов, разнообразия и плотности страницы. Это полезно для того, чтобы страница выглядела релевантной для веб-сканера и повышала вероятность ее обнаружения. Пример: промоутер схемы Понци владеет сайтом, рекламирующим мошенничество, и хочет привлечь к нему людей. Мошенник размещает на странице скрытый текст, соответствующий фан-странице популярной музыкальной группы, в надежде, что страница будет указана как фан-сайт и ее посетит множество любителей музыки. Старые версии программ индексирования просто подсчитывали частоту появления ключевого слова и использовали это для определения уровня релевантности. Большинство современных поисковых систем имеют возможность анализировать страницу на предмет наполненности ключевыми словами и определять, соответствует ли частота показов другим сайтам, созданным специально для привлечения трафика поисковых систем. Кроме того, большие веб-страницы обрезаются, поэтому огромные списки словарей не могут быть проиндексированы на одной веб-странице. [ нужна ссылка ]

Скрытый или невидимый текст

[ редактировать ]

Несвязанный скрытый текст маскируется, делая его того же цвета, что и фон, используя крошечный размер шрифта или скрывая его в HTML- коде, например, в разделах «без рамки», атрибутах alt нулевого размера , элементах DIV и разделах «без сценария». Люди, вручную проверяющие веб-сайты, помеченные красным флажком, на предмет наличия поисковой компании, могут временно или навсегда заблокировать весь веб-сайт из-за наличия невидимого текста на некоторых его страницах. Однако скрытый текст не всегда является спамдексом: его также можно использовать для повышения доступности . [8]

Наполнение метатегами

[ редактировать ]

Это предполагает повторение ключевых слов в метатегах и использование метаключевых слов, не связанных с содержимым сайта. Эта тактика оказалась неэффективной. В сентябре 2009 года Google заявил, что не использует метатег ключевых слов в своем рейтинге онлайн-поиска. [9]

Страницы дорвеев

[ редактировать ]

«Шлюзы» или дорвейные страницы — это веб-страницы низкого качества, созданные с очень небольшим количеством контента, которые вместо этого заполнены очень похожими ключевыми словами и фразами. Они созданы для того, чтобы занимать высокие позиции в результатах поиска, но не служат никакой цели для посетителей, ищущих информацию. На странице дорвея обычно имеется надпись «нажмите здесь, чтобы войти»; Для этой цели также можно использовать автопересылку. В 2006 году Google уволил производителя автомобилей BMW за использование «дверных страниц» на немецком сайте компании BMW.de. [10]

Сайты-скребки

[ редактировать ]

Сайты-скребки создаются с использованием различных программ, предназначенных для «очистки» страниц результатов поисковых систем или других источников контента и создания «контента» для веб-сайта. [ нужна ссылка ] Конкретное представление контента на этих сайтах уникально, но представляет собой просто объединение контента, взятого из других источников, часто без разрешения. Такие веб-сайты обычно полны рекламы (например, объявлений с оплатой за клик ) или перенаправляют пользователя на другие сайты. Сайты-скраперы даже могут превзойти оригинальные сайты по их собственной информации и названиям организаций.

Статья вращается

[ редактировать ]

Раскрутка статей предполагает переписывание существующих статей, а не простое удаление контента с других сайтов, чтобы избежать штрафов, налагаемых поисковыми системами за дублированный контент . Этот процесс осуществляют наемные авторы. [ нужна ссылка ] или автоматизировано с использованием базы данных тезауруса или искусственной нейронной сети .

Машинный перевод

[ редактировать ]

Подобно раскрутке статей , некоторые сайты используют машинный перевод для перевода своего контента на несколько языков без необходимости редактирования человеком, в результате чего получаются непонятные тексты, которые, тем не менее, продолжают индексироваться поисковыми системами, тем самым привлекая трафик.

[ редактировать ]

Ссылочный спам определяется как ссылки между страницами, которые присутствуют по каким-либо причинам.кроме заслуг. [11] Ссылочный спам использует преимущества алгоритмов ранжирования на основе ссылок, которые повышают рейтинг веб-сайтов по мере того, как на него ссылаются другие веб-сайты с высоким рейтингом. Эти методы также направлены на влияние на другие методы ранжирования на основе ссылок, такие как алгоритм HITS . [ нужна ссылка ]

[ редактировать ]

Фермы ссылок — это тесно связанные сети веб-сайтов, которые ссылаются друг на друга с единственной целью — использовать алгоритмы ранжирования поисковых систем. Их также в шутку называют обществами взаимного восхищения . [12] Использование ферм ссылок значительно сократилось с запуском первого обновления Google Panda в феврале 2011 года, которое внесло значительные улучшения в алгоритм обнаружения спама.

Сети частных блогов

[ редактировать ]

Сети блогов (PBN) — это группа авторитетных веб-сайтов, используемых в качестве источника контекстных ссылок, которые указывают на основной веб-сайт владельца для достижения более высокого рейтинга в поисковых системах. Владельцы веб-сайтов PBN используют домены с истекшим сроком действия или аукционные домены , на которые есть обратные ссылки с авторитетных веб-сайтов. Google несколько раз преследовал и наказывал пользователей PBN с помощью нескольких масштабных кампаний по деиндексации, начиная с 2014 года. [13]

[ редактировать ]

Размещение гиперссылок там, где посетители их не увидят, используется для повышения популярности ссылок . Выделенный текст ссылки может помочь повысить рейтинг веб-страницы по совпадению с этой фразой.

Сивилла атакует

[ редактировать ]

Атака Сивиллы — это создание нескольких личностей со злым умыслом, названное в честь знаменитой пациентки с диссоциативным расстройством личности и книги о ней, носящей такое же имя, « Сивилла ». [14] [15] Спамер может создать несколько веб-сайтов с разными доменными именами , которые ссылаются друг на друга, например поддельные блоги (известные как спам-блоги ).

Спам-блоги

[ редактировать ]

Спам-блоги — это блоги, созданные исключительно для коммерческого продвижения и передачи авторитетных ссылок на целевые сайты. Часто эти «слоги» разрабатываются ошибочным образом, создавая эффект законного веб-сайта, но при внимательном рассмотрении они часто написаны с использованием вращающегося программного обеспечения или очень плохо написаны с едва читаемым контентом. По своей природе они аналогичны связующим фермам. [16] [17]

Спам в гостевом блоге

[ редактировать ]

Спам в гостевых блогах — это процесс размещения гостевых блогов на веб-сайтах с единственной целью получить ссылку на другой веб-сайт или веб-сайты. К сожалению, их часто путают с законными формами гостевого блоггинга, имеющими иные мотивы, чем размещение ссылок. Эту технику прославил Мэтт Каттс , публично объявивший «войну» этой форме ссылочного спама. [18]

Покупка просроченных доменов

[ редактировать ]

Некоторые ссылочные спамеры используют программное обеспечение для сканирования доменов с истекшим сроком действия или отслеживают записи DNS для доменов, срок действия которых скоро истечет, а затем покупают их, когда срок их действия истекает, и заменяют страницы ссылками на их страницы. Однако возможно, но не подтверждено, что Google сбрасывает данные ссылок на доменах с истекшим сроком действия. [ нужна ссылка ] Чтобы сохранить все предыдущие данные рейтинга домена в Google, желательно, чтобы покупатель захватил домен до того, как он будет «удален».

Некоторые из этих методов могут быть применены для создания бомбы Google , то есть для сотрудничества с другими пользователями с целью повышения рейтинга конкретной страницы по конкретному запросу.

Использование общедоступных страниц

[ редактировать ]

Веб-сайты, которые могут редактироваться пользователями, могут использоваться спамдексерами для вставки ссылок на спам-сайты, если не приняты соответствующие меры по борьбе со спамом.

Автоматизированные спам-боты могут быстро сделать непригодной для использования часть сайта, редактируемую пользователем.Программисты разработали множество автоматизированных методов предотвращения спама, позволяющих блокировать или хотя бы замедлять спам-боты.

Спам в блогах

[ редактировать ]

Спам в блогах — это случайное размещение или навязывание ссылок на других сайтах, включающее желаемое ключевое слово в текст входящей ссылки с гиперссылкой. Гостевые книги, форумы, блоги и любые сайты, принимающие комментарии посетителей, являются особыми целями и часто становятся жертвами спама, когда автоматизированное программное обеспечение создает бессмысленные сообщения со ссылками, которые обычно нерелевантны и нежелательны.

Спам в комментариях

[ редактировать ]

Спам в комментариях – это форма ссылочного спама, возникающая на веб-страницах, допускающих динамическое редактирование пользователем, таких как вики , блоги и гостевые книги . Это может быть проблематично, поскольку можно написать агенты , которые автоматически случайным образом выбирают веб-страницу, редактируемую пользователем, например статью в Википедии, и добавляют спам-ссылки. [19]

Вики-спам

[ редактировать ]

Вики-спам — это когда спамер использует открытую возможность редактирования вики-систем для размещения ссылок с вики-сайта на спам-сайт.

Спам в журналах рефереров

[ редактировать ]

Реферальный спам имеет место, когда распространитель или посредник, занимающийся спамом, получает доступ к веб-странице ( реферер ), переходя по ссылке с другой веб-страницы ( реферер ), так что реферер получает адрес реферера в интернет-браузере человека. На некоторых веб-сайтах есть журнал рефереров, который показывает, какие страницы ссылаются на этот сайт. Если робот случайным образом обращается ко многим сайтам достаточное количество раз, используя сообщение или конкретный адрес, указанный в качестве реферера, это сообщение или интернет-адрес затем появляется в журнале реферера тех сайтов, у которых есть журналы реферера. Поскольку некоторые поисковые системы определяют важность сайтов по количеству различных сайтов, ссылающихся на них, спам в журналах рефереров может повысить рейтинг спамерских сайтов в поисковых системах. Кроме того, администраторы сайта, заметившие записи журнала реферера в своих журналах, могут перейти по ссылке обратно на страницу реферера спамера.

Контрмеры

[ редактировать ]

Из-за большого количества спама, отправляемого на редактируемые пользователем веб-страницы, Google предложил тег «nofollow», который можно было встроить в ссылки. Поисковая система на основе ссылок, такая как система Google PageRank , не будет использовать ссылку для повышения рейтинга связанного веб-сайта, если ссылка содержит тег nofollow. Это гарантирует, что спам-ссылки на редактируемые пользователем веб-сайты не повысят рейтинг сайтов в поисковых системах. Nofollow используется несколькими крупными веб-сайтами, включая Wordpress , Blogger и Wikipedia . [ нужна ссылка ]

Другие типы

[ редактировать ]

Зеркальные сайты

[ редактировать ]

Зеркальный сайт — это хостинг нескольких веб-сайтов с концептуально схожим содержанием, но с разными URL-адресами . Некоторые поисковые системы присваивают более высокий рейтинг результатам, в URL которых встречается искомое ключевое слово.

перенаправление URL-адресов

[ редактировать ]

Перенаправление URL-адреса — это переход пользователя на другую страницу без его или ее вмешательства, например , с использованием тегов обновления META , Flash , JavaScript , Java или перенаправления на стороне сервера . Однако 301 Redirect или постоянное перенаправление не считается вредоносным поведением.

Маскировка

[ редактировать ]

Клоакинг поисковой системы страницы относится к любому из нескольких способов предоставления пауку , отличной от той, которую видят пользователи-люди. Это может быть попыткой ввести поисковые системы в заблуждение относительно содержания определенного веб-сайта. Однако клоакинг также можно использовать для этического повышения доступности сайта для пользователей с ограниченными возможностями или для предоставления пользователям-людям контента, который поисковые системы не могут обработать или проанализировать. Он также используется для доставки контента в зависимости от местоположения пользователя; Сам Google использует IP-доставку , форму клоакинга, для доставки результатов. Другой формой маскировки является замена кода , т. е . оптимизация страницы для получения высшего рейтинга с последующей заменой другой страницы на ее месте после достижения верхнего рейтинга. Google называет такие перенаправления скрытыми перенаправлениями . [20]

Контрмеры

[ редактировать ]

Пропуск страницы поисковой системой

[ редактировать ]

Страницы, подвергшиеся спаму, иногда удаляются поисковой системой из результатов поиска.

Пропуск страницы пользователем

[ редактировать ]

Пользователи могут использовать операторы поиска для фильтрации. Для Google ключевое слово, которому предшествует «-» (минус), будет исключать из результатов поиска сайты, содержащие это ключевое слово на своих страницах или в URL-адресах страниц. Например, поиск «-<нежелательный сайт>» исключит сайты, содержащие на своих страницах слово «<нежелательный сайт>», а также страницы, URL-адрес которых содержит «<нежелательный сайт>».

Пользователи также могли использовать расширение Google Chrome «Персональный черный список (от Google)», запущенное Google в 2011 году в рамках мер противодействия фармингу контента . [21] С помощью расширения пользователи могли заблокировать появление определенной страницы или набора страниц в результатах поиска. По состоянию на 2021 год исходное расширение, похоже, будет удалено, хотя можно использовать расширения с аналогичным функционалом.

Возможные решения по преодолению отравления поисковым перенаправлением, перенаправлением на нелегальные интернет-аптеки, включают уведомление операторов уязвимых легальных доменов. Кроме того, ручная оценка поисковой выдачи, ранее опубликованные алгоритмы на основе ссылок и контента, а также специально разработанные механизмы автоматического обнаружения и классификации могут использоваться в качестве эталонов для эффективной идентификации кампаний мошенничества в фармацевтической отрасли. [22]

См. также

[ редактировать ]
  1. ^ SearchEngineLand , видеообъяснение Дэнни Салливаном спама в поисковых системах, октябрь 2008 г. Архивировано 17 декабря 2008 г. на Wayback Machine. «Центр поиска Google» . 2023-02-23. . Проверено 16 мая 2023 г.
  2. ^ Перейти обратно: а б с «Word Spy — спамдексирование» (определение), март 2003 г., веб-страница: WordSpy-spamdexing. Архивировано 18 июля 2014 г. на Wayback Machine .
  3. ^ Перейти обратно: а б Дьёндьи, Золтан ; Гарсиа-Молина, Гектор (2005 г.), «Таксономия веб-спама» (PDF) , Материалы Первого международного семинара по состязательному поиску информации в Интернете (AIRWeb), 2005 г., на 14-й Международной конференции World Wide Web (WWW 2005), 10 мая. , (Вторник)-14 (Суббота), 2005, Конференц-центр Ниппон (Макухари Мессе), Тиба, Япония. , Нью-Йорк, штат Нью-Йорк: ACM Press, ISBN.  1-59593-046-9 , заархивировано (PDF) из оригинала 15 февраля 2020 г. , получено 5 октября 2007 г.
  4. ^ Зузе, Герберт; Вайдеман, Мелиус (12 апреля 2013 г.). «Наполнение ключевыми словами и большая тройка поисковых систем» . Интернет-обзор информации . 37 (2): 268–286. doi : 10.1108/OIR-11-2011-0193 . ISSN   1468-4527 .
  5. ^ Перейти обратно: а б Нтулас, Александрос ; Манасс, Марк ; Найорк, Марк ; Феттерли, Деннис (2006 г.), «Обнаружение спам-страниц с помощью анализа контента», 15-я Международная конференция Всемирной паутины (WWW 2006), 23–26 мая 2006 г., Эдинбург, Шотландия. , Нью-Йорк, штат Нью-Йорк: ACM Press, ISBN.  1-59593-323-9
  6. ^ «Основы SEO: что такое черное SEO?» . Цифровой гид IONOS . 23 мая 2017 года . Проверено 22 августа 2022 г.
  7. ^ Смарти, Энн (17 декабря 2008 г.). «Что такое BlackHat SEO? 5 определений» . Журнал поисковых систем . Архивировано из оригинала 21 июня 2012 г. Проверено 5 июля 2012 г.
  8. ^ Монтти, Роджер (03 октября 2020 г.). «Все, что вам нужно знать о скрытом тексте и SEO» . Журнал поисковых систем . Архивировано из оригинала 22 ноября 2021 г. Проверено 22 ноября 2021 г.
  9. ^ «Google не использует метатег ключевых слов в веб-рейтинге» . Гугл для разработчиков . Гугл Инк . Проверено 21 сентября 2009 г.
  10. ^ Сигал, Дэвид (13 февраля 2011 г.). «Маленькие грязные секреты поиска» . Нью-Йорк Таймс . Архивировано из оригинала 23 июля 2012 г. Проверено 3 июля 2012 г.
  11. ^ Дэвисон, Брайан (2000), «Распознавание непотистских ссылок в сети» (PDF) , семинар AAAI-2000 по искусственному интеллекту для веб-поиска , Бостон: AAAI Press, стр. 23–28, заархивировано (PDF) из оригинала 2007 г. -04-18 , получено 23 октября 2007 г.
  12. ^ «Поисковые системы: технологии, общество и бизнес — Марти Херст, 29 августа 2005 г.» (PDF) . Беркли.edu . Архивировано (PDF) из оригинала 8 июля 2007 г. Проверено 1 августа 2007 г.
  13. ^ «Google нацелен на сайты, использующие частные сети блогов, с помощью ручных санкций за ранжирование» . Земля поисковых систем . 23 сентября 2014 г. Архивировано из оригинала 22 ноября 2016 г. Проверено 12 декабря 2016 г.
  14. ^ Шрайбер, Флора Рета (1973). Сибил . Чикаго: Регнери. ISBN  0-8092-0001-5 . OCLC   570440 .
  15. ^ Когель Буфорд, Джон Ф. (2009). «14». P2P-сети и приложения . Хун Хизер Ю, Энг Кеонг Луа. Амстердам: Эльзевир/Морган Кауфманн. ISBN  978-0-12-374214-8 . OCLC   318353755 .
  16. ^ Финин, Тим; Джоши, Анупам; Колари, Пранам; Джава, Акшай; Кале, Анубхав; Карандикар, Амит (6 сентября 2008 г.). «Информационная экология социальных сетей и интернет-сообществ» . Журнал ИИ . 29 (3): 77. doi : 10.1609/aimag.v29i3.2158 . hdl : 11603/12123 . ISSN   0738-4602 .
  17. ^ Беванс, Брэндон (2016). Категоризация спама в блогах (тезис). Библиотека Роберта Э. Кеннеди, Калифорнийский политехнический институт. дои : 10.15368/тезисы.2016.91 .
  18. ^ «Упадок и падение гостевого блоггинга для SEO» . mattcutts.com . 20 января 2014 г. Архивировано из оригинала 3 февраля 2015 г. Проверено 11 января 2015 г.
  19. ^ Мишне, Гилад ; Дэвид Кармель; Ронни Лемпель (2005). «Блокировка спама в блогах при несогласии с языковой моделью» (PDF) . Материалы Первого международного семинара по состязательному поиску информации в сети . Архивировано (PDF) из оригинала 21 июля 2011 г. Проверено 24 октября 2007 г.
  20. ^ «Скрытые перенаправления – Cправка Search Console» . support.google.com . Архивировано из оригинала 18 мая 2015 г. Проверено 14 мая 2015 г.
  21. ^ «Новинка: блокировка сайтов из результатов Google с помощью «персонального черного списка» Chrome — Search Engine Land» . searchengineland.com . 14 февраля 2011 года. Архивировано из оригинала 6 октября 2017 года . Проверено 6 октября 2017 г.
  22. ^ Фиттлер, Андраш; Пачолаи, Петер; Ашраф, Амир Реза; Пурхашеми, Амир; Иваньи, Питер (08.11.2022). «Распространенность отравленных результатов поиска в Google о лекарствах от эректильной дисфункции, перенаправленных в нелегальные интернет-аптеки: исследование анализа данных» . Журнал медицинских интернет-исследований . 24 (11): e38957. дои : 10.2196/38957 . ПМЦ   9682446 . ПМИД   36346655 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bf12336b2deaf99239b34c6cacc4dff0__1720796940
URL1:https://arc.ask3.ru/arc/aa/bf/f0/bf12336b2deaf99239b34c6cacc4dff0.html
Заголовок, (Title) документа по адресу, URL1:
Spamdexing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)