Спамдексинг
Эта статья нуждается в дополнительных цитатах для проверки . ( февраль 2021 г. ) |
Было предложено эту статью наполнение ключевыми словами объединить в . ( Обсудить ) Предлагается с января 2024 г. |
Было предложено #Spamdexing объединить Metasearch_engine в эту статью. ( Обсудить ) Предлагается с мая 2024 г. |
Спамдексирование (также известное как поисковый спам , отравление поисковых систем , черная поисковая оптимизация , поисковый спам или веб-спам ) [1] это преднамеренное манипулирование поисковых систем индексами . Он включает в себя ряд методов, таких как создание ссылок и повторение несвязанных фраз, для манипулирования релевантностью или известностью ресурсов, проиндексированных способом, несовместимым с целью системы индексирования. [2] [3]
Спамдексирование можно рассматривать как часть поисковой оптимизации . [4] хотя существует множество методов SEO, которые улучшают качество и внешний вид содержимого веб-сайтов и предоставляют контент, полезный для многих пользователей. [5]
Обзор
[ редактировать ]Поисковые системы используют различные алгоритмы для определения рейтинга релевантности . Некоторые из них включают определение того, отображается ли поисковый запрос в основном тексте или URL-адресе страницы веб- . Многие поисковые системы проверяют случаи спамдексинга и удаляют подозрительные страницы из своих индексов. Кроме того, операторы поисковых систем могут быстро заблокировать результаты целых веб-сайтов, использующих спамдексирование, возможно, в ответ на жалобы пользователей на ложные совпадения. Рост популярности спама в середине 1990-х годов сделал ведущие поисковые системы того времени менее полезными. Использование неэтичных методов для повышения рейтинга веб-сайтов в результатах поисковых систем, чем в противном случае, в индустрии SEO (поисковой оптимизации) обычно называют «черным SEO». [6] Эти методы больше ориентированы на нарушение правил и рекомендаций поискового продвижения. В дополнение к этому, злоумышленники рискуют подвергнуться суровому наказанию своих веб-сайтов со стороны Google Panda и Google Penguin . алгоритмов ранжирования результатов поиска [7]
Распространенные методы спамдексинга можно разделить на два больших класса: контентный спам. [5] ( терминальный спам ) и ссылочный спам . [3]
История
[ редактировать ]Самая ранняя известная ссылка [2] Термин «спамдексинг» принадлежит Эрику Конви в его статье «Порнография снова проникает в Интернет», The Boston Herald , 22 мая 1996 г., где он сказал:
Проблема возникает, когда операторы сайтов загружают свои веб-страницы сотнями посторонних терминов, поэтому поисковые системы включают их в число законных адресов.Этот процесс называется «спамдексированием» — сочетанием спама (интернет-термин, обозначающий рассылку пользователям нежелательной информации) и « индексации ». [2]
Контентный спам
[ редактировать ]Эти методы включают изменение логического представления содержимого страницы, которое поисковая система имеет. Все они нацелены на варианты модели векторного пространства для поиска информации в текстовых коллекциях.
Наполнение ключевыми словами
[ редактировать ]Наполнение ключевыми словами предполагает расчетное размещение ключевых слов на странице для увеличения количества ключевых слов, разнообразия и плотности страницы. Это полезно для того, чтобы страница выглядела релевантной для веб-сканера и повышала вероятность ее обнаружения. Пример: промоутер схемы Понци владеет сайтом, рекламирующим мошенничество, и хочет привлечь к нему людей. Мошенник размещает на странице скрытый текст, соответствующий фан-странице популярной музыкальной группы, в надежде, что страница будет указана как фан-сайт и ее посетит множество любителей музыки. Старые версии программ индексирования просто подсчитывали частоту появления ключевого слова и использовали это для определения уровня релевантности. Большинство современных поисковых систем имеют возможность анализировать страницу на предмет наполненности ключевыми словами и определять, соответствует ли частота показов другим сайтам, созданным специально для привлечения трафика поисковых систем. Кроме того, большие веб-страницы обрезаются, поэтому огромные списки словарей не могут быть проиндексированы на одной веб-странице. [ нужна ссылка ]
Скрытый или невидимый текст
[ редактировать ]Несвязанный скрытый текст маскируется, делая его того же цвета, что и фон, используя крошечный размер шрифта или скрывая его в HTML- коде, например, в разделах «без рамки», атрибутах alt нулевого размера , элементах DIV и разделах «без сценария». Люди, вручную проверяющие веб-сайты, помеченные красным флажком, на предмет наличия поисковой компании, могут временно или навсегда заблокировать весь веб-сайт из-за наличия невидимого текста на некоторых его страницах. Однако скрытый текст не всегда является спамдексом: его также можно использовать для повышения доступности . [8]
Наполнение метатегами
[ редактировать ]Это предполагает повторение ключевых слов в метатегах и использование метаключевых слов, не связанных с содержимым сайта. Эта тактика оказалась неэффективной. В сентябре 2009 года Google заявил, что не использует метатег ключевых слов в своем рейтинге онлайн-поиска. [9]
Страницы дорвеев
[ редактировать ]«Шлюзы» или дорвейные страницы — это веб-страницы низкого качества, созданные с очень небольшим количеством контента, которые вместо этого заполнены очень похожими ключевыми словами и фразами. Они созданы для того, чтобы занимать высокие позиции в результатах поиска, но не служат никакой цели для посетителей, ищущих информацию. На странице дорвея обычно имеется надпись «нажмите здесь, чтобы войти»; Для этой цели также можно использовать автопересылку. В 2006 году Google уволил производителя автомобилей BMW за использование «дорвеев» на немецком сайте компании BMW.de. [10]
Сайты-скребки
[ редактировать ]Сайты-скребки создаются с использованием различных программ, предназначенных для «очистки» страниц результатов поисковых систем или других источников контента и создания «контента» для веб-сайта. [ нужна ссылка ] Конкретное представление контента на этих сайтах уникально, но представляет собой просто объединение контента, взятого из других источников, часто без разрешения. Такие веб-сайты обычно полны рекламы (например, рекламы с оплатой за клик ) или перенаправляют пользователя на другие сайты. Сайты-скраперы даже могут превзойти оригинальные сайты по их собственной информации и названиям организаций.
Статья крутится
[ редактировать ]Раскрутка статей предполагает переписывание существующих статей, а не простое удаление контента с других сайтов, чтобы избежать штрафов, налагаемых поисковыми системами за дублированный контент . Этот процесс осуществляют наемные авторы. [ нужна ссылка ] или автоматизировано с использованием базы данных тезауруса или искусственной нейронной сети .
Машинный перевод
[ редактировать ]Подобно раскрутке статей , некоторые сайты используют машинный перевод для перевода своего контента на несколько языков без необходимости редактирования человеком, в результате чего получаются непонятные тексты, которые, тем не менее, продолжают индексироваться поисковыми системами, тем самым привлекая трафик.
Ссылочный спам
[ редактировать ]Ссылочный спам определяется как ссылки между страницами, которые присутствуют по каким-либо причинам.кроме заслуг. [11] Ссылочный спам использует преимущества алгоритмов ранжирования на основе ссылок, которые повышают рейтинг веб-сайтов по мере того, как на него ссылаются другие веб-сайты с высоким рейтингом. Эти методы также направлены на влияние на другие методы ранжирования на основе ссылок, такие как алгоритм HITS . [ нужна ссылка ]
Связать фермы
[ редактировать ]Фермы ссылок — это тесно связанные сети веб-сайтов, которые ссылаются друг на друга с единственной целью — использовать алгоритмы ранжирования поисковых систем. Их также в шутку называют обществами взаимного восхищения . [12] Использование ферм ссылок значительно сократилось с запуском первого обновления Google Panda в феврале 2011 года, которое внесло значительные улучшения в алгоритм обнаружения спама.
Сети частных блогов
[ редактировать ]Сети блогов (PBN) — это группа авторитетных веб-сайтов, используемых в качестве источника контекстных ссылок, которые указывают на основной веб-сайт владельца для достижения более высокого рейтинга в поисковых системах. Владельцы веб-сайтов PBN используют домены с истекшим сроком действия или аукционные домены , на которые есть обратные ссылки с авторитетных веб-сайтов. Google несколько раз преследовал и наказывал пользователей PBN с помощью нескольких масштабных кампаний по деиндексации, начиная с 2014 года. [13]
Скрытые ссылки
[ редактировать ]Размещение гиперссылок там, где посетители их не увидят, используется для повышения популярности ссылок . Выделенный текст ссылки может помочь повысить рейтинг веб-страницы по совпадению с этой фразой.
Сивилла атакует
[ редактировать ]Атака Сивиллы — это подделка нескольких личностей со злым умыслом, названная в честь знаменитой пациентки с диссоциативным расстройством личности и книги о ней, носящей то же имя, « Сивилла ». [14] [15] Спамер может создать несколько веб-сайтов с разными доменными именами , которые ссылаются друг на друга, например фальшивые блоги (известные как спам-блоги ).
Спам-блоги
[ редактировать ]Спам-блоги — это блоги, созданные исключительно для коммерческого продвижения и передачи авторитета ссылок на целевые сайты. Часто эти «слоги» разрабатываются ошибочным образом, создавая эффект законного веб-сайта, но при внимательном рассмотрении они часто написаны с использованием вращающегося программного обеспечения или очень плохо написаны с едва читаемым контентом. По своей природе они аналогичны связующим фермам. [16] [17]
Спам в гостевом блоге
[ редактировать ]Спам в гостевых блогах — это процесс размещения гостевых блогов на веб-сайтах с единственной целью получить ссылку на другой веб-сайт или веб-сайты. К сожалению, их часто путают с законными формами гостевого блоггинга, имеющими иные мотивы, чем размещение ссылок. Эту технику прославил Мэтт Каттс , публично объявивший «войну» этой форме ссылочного спама. [18]
Покупка просроченных доменов
[ редактировать ]Некоторые ссылочные спамеры используют программное обеспечение для сканирования доменов с истекшим сроком действия или отслеживают записи DNS для доменов, срок действия которых скоро истечет, а затем покупают их, когда срок их действия истекает, и заменяют страницы ссылками на их страницы. Однако возможно, но не подтверждено, что Google сбрасывает данные ссылок на доменах с истекшим сроком действия. [ нужна ссылка ] Чтобы сохранить все предыдущие данные рейтинга домена в Google, желательно, чтобы покупатель захватил домен до того, как он будет «удален».
Некоторые из этих методов могут быть применены для создания бомбы Google , то есть для сотрудничества с другими пользователями с целью повышения рейтинга конкретной страницы по конкретному запросу.
Использование общедоступных страниц
[ редактировать ]Веб-сайты, которые могут редактироваться пользователями, могут использоваться спамдексерами для вставки ссылок на спам-сайты, если не приняты соответствующие меры по борьбе со спамом.
Автоматизированные спам-боты могут быстро сделать непригодной для использования часть сайта, редактируемую пользователем.Программисты разработали множество автоматизированных методов предотвращения спама, позволяющих блокировать или хотя бы замедлять спам-боты.
Спам в блогах
[ редактировать ]Спам в блогах — это случайное размещение или навязывание ссылок на других сайтах, включающее желаемое ключевое слово в текст входящей ссылки с гиперссылкой. Гостевые книги, форумы, блоги и любые сайты, принимающие комментарии посетителей, являются особыми целями и часто становятся жертвами спама, когда автоматизированное программное обеспечение создает бессмысленные сообщения со ссылками, которые обычно нерелевантны и нежелательны.
Спам в комментариях
[ редактировать ]Спам в комментариях – это форма ссылочного спама, возникающая на веб-страницах, допускающих динамическое редактирование пользователем, таких как вики , блоги и гостевые книги . Это может быть проблематично, поскольку можно написать агенты , которые автоматически случайным образом выбирают веб-страницу, редактируемую пользователем, например статью в Википедии, и добавляют спам-ссылки. [19]
Вики-спам
[ редактировать ]Вики-спам — это когда спамер использует открытую возможность редактирования вики-систем для размещения ссылок с вики-сайта на спам-сайт.
Спам в журналах рефереров
[ редактировать ]Реферальный спам имеет место, когда распространитель или посредник, занимающийся спамом, получает доступ к веб-странице ( реферер ), переходя по ссылке с другой веб-страницы ( реферер ), так что реферер получает адрес реферера в интернет-браузере человека. На некоторых веб-сайтах есть журнал рефереров, который показывает, какие страницы ссылаются на этот сайт. Если робот случайным образом обращается ко многим сайтам достаточное количество раз, используя сообщение или конкретный адрес, указанный в качестве реферера, это сообщение или интернет-адрес затем появляется в журнале реферера тех сайтов, у которых есть журналы реферера. Поскольку некоторые поисковые системы в Интернете определяют важность сайтов по количеству различных сайтов, ссылающихся на них, спам в журналах рефереров может повысить рейтинг спамерских сайтов в поисковых системах. Кроме того, администраторы сайта, заметившие записи журнала реферера в своих журналах, могут перейти по ссылке обратно на страницу реферера спамера.
Контрмеры
[ редактировать ]Из-за большого количества спама, отправляемого на редактируемые пользователем веб-страницы, Google предложил тег «nofollow», который можно было встраивать в ссылки. Поисковая система на основе ссылок, такая как система Google PageRank , не будет использовать ссылку для повышения рейтинга связанного веб-сайта, если ссылка содержит тег nofollow. Это гарантирует, что спам-ссылки на редактируемые пользователем веб-сайты не повысят рейтинг сайтов в поисковых системах. Nofollow используется несколькими крупными веб-сайтами, включая Wordpress , Blogger и Wikipedia . [ нужна ссылка ]
Другие типы
[ редактировать ]Зеркальные сайты
[ редактировать ]Зеркальный сайт — это хостинг нескольких веб-сайтов с концептуально схожим содержанием, но с разными URL-адресами . Некоторые поисковые системы дают более высокий рейтинг результатам, в URL которых встречается искомое ключевое слово.
перенаправление URL-адресов
[ редактировать ]Перенаправление URL-адреса — это переход пользователя на другую страницу без его или ее вмешательства, например , с использованием тегов обновления META , Flash , JavaScript , Java или перенаправления на стороне сервера . Однако 301 Redirect или постоянное перенаправление не считается вредоносным поведением.
Маскировка
[ редактировать ]Клоакинг поисковой системы страницы относится к любому из нескольких способов предоставления пауку , отличной от той, которую видят пользователи-люди. Это может быть попыткой ввести поисковые системы в заблуждение относительно содержания определенного веб-сайта. Однако клоакинг также можно использовать для этического повышения доступности сайта для пользователей с ограниченными возможностями или для предоставления пользователям-людям контента, который поисковые системы не могут обработать или проанализировать. Он также используется для доставки контента в зависимости от местоположения пользователя; Сам Google использует IP-доставку , форму клоакинга, для доставки результатов. Другой формой маскировки является замена кода , т. е . оптимизация страницы для получения высшего рейтинга с последующей заменой другой страницы на ее месте после достижения верхнего рейтинга. Google называет такие перенаправления скрытыми перенаправлениями . [20]
Контрмеры
[ редактировать ]Этот раздел нуждается в расширении . Вы можете помочь, добавив к нему . ( октябрь 2017 г. ) |
Пропуск страницы поисковой системой
[ редактировать ]Страницы, подвергшиеся спаму, иногда удаляются поисковой системой из результатов поиска.
Пропуск страницы пользователем
[ редактировать ]Пользователи могут использовать операторы поиска для фильтрации. Для Google ключевое слово, которому предшествует «-» (минус), будет исключать из результатов поиска сайты, содержащие это ключевое слово на своих страницах или в URL-адресах страниц. Например, поиск «-<нежелательный сайт>» исключит сайты, содержащие на своих страницах слово «<нежелательный сайт>», а также страницы, URL-адрес которых содержит «<нежелательный сайт>».
Пользователи также могли использовать расширение Google Chrome «Персональный черный список (от Google)», запущенное Google в 2011 году в рамках мер противодействия фармингу контента . [21] С помощью расширения пользователи могут заблокировать появление определенной страницы или набора страниц в результатах поиска. По состоянию на 2021 год исходное расширение, похоже, будет удалено, хотя можно использовать расширения с аналогичным функционалом.
Возможные решения по преодолению отравления поисковым перенаправлением, перенаправлением на нелегальные интернет-аптеки, включают уведомление операторов уязвимых легальных доменов. Кроме того, ручная оценка поисковой выдачи, ранее опубликованные алгоритмы на основе ссылок и контента, а также специально разработанные механизмы автоматического обнаружения и классификации могут использоваться в качестве эталонов для эффективной идентификации кампаний мошенничества в фармацевтической отрасли. [22]
См. также
[ редактировать ]- Поиск состязательной информации
- Индекс (поисковая система) – обзор технологии индексирования поисковыми системами.
- ТрастРанк
- Парсинг веб-страниц
- Microsoft Смартскрин
- Защитник Майкрософт
Ссылки
[ редактировать ]- ^ SearchEngineLand , видеообъяснение Дэнни Салливаном спама в поисковых системах, октябрь 2008 г. Архивировано 17 декабря 2008 г. на Wayback Machine. «Центр поиска Google» . 2023-02-23. . Проверено 16 мая 2023 г.
- ^ Jump up to: а б с «Word Spy — спамдексирование» (определение), март 2003 г., веб-страница: WordSpy-spamdexing. Архивировано 18 июля 2014 г. на Wayback Machine .
- ^ Jump up to: а б Дьёндьи, Золтан ; Гарсия-Молина, Гектор (2005 г.), «Таксономия веб-спама» (PDF) , Материалы Первого международного семинара по состязательному поиску информации в Интернете (AIRWeb), 2005 г., на 14-й Международной конференции World Wide Web (WWW 2005), 10 мая. , (Вторник)-14 (Суббота), 2005, Конференц-центр Ниппон (Макухари Мессе), Тиба, Япония. , Нью-Йорк, штат Нью-Йорк: ACM Press, ISBN. 1-59593-046-9 , заархивировано (PDF) из оригинала 15 февраля 2020 г. , получено 5 октября 2007 г.
- ^ Зузе, Герберт; Вайдеман, Мелиус (12 апреля 2013 г.). «Наполнение ключевыми словами и большая тройка поисковых систем» . Интернет-обзор информации . 37 (2): 268–286. doi : 10.1108/OIR-11-2011-0193 . ISSN 1468-4527 .
- ^ Jump up to: а б Нтулас, Александрос ; Манасс, Марк ; Найорк, Марк ; Феттерли, Деннис (2006 г.), «Обнаружение спам-страниц с помощью анализа контента», 15-я Международная конференция Всемирной паутины (WWW 2006), 23–26 мая 2006 г., Эдинбург, Шотландия. , Нью-Йорк, штат Нью-Йорк: ACM Press, ISBN. 1-59593-323-9
- ^ «Основы SEO: что такое черное SEO?» . Цифровой гид IONOS . 23 мая 2017 года . Проверено 22 августа 2022 г.
- ^ Смарти, Энн (17 декабря 2008 г.). «Что такое BlackHat SEO? 5 определений» . Журнал поисковых систем . Архивировано из оригинала 21 июня 2012 г. Проверено 5 июля 2012 г.
- ^ Монтти, Роджер (03 октября 2020 г.). «Все, что вам нужно знать о скрытом тексте и SEO» . Журнал поисковых систем . Архивировано из оригинала 22 ноября 2021 г. Проверено 22 ноября 2021 г.
- ^ «Google не использует метатег ключевых слов в веб-рейтинге» . Гугл для разработчиков . Гугл Инк . Проверено 21 сентября 2009 г.
- ^ Сигал, Дэвид (13 февраля 2011 г.). «Маленькие грязные секреты поиска» . Нью-Йорк Таймс . Архивировано из оригинала 23 июля 2012 г. Проверено 3 июля 2012 г.
- ^ Дэвисон, Брайан (2000), «Распознавание непотистских ссылок в сети» (PDF) , семинар AAAI-2000 по искусственному интеллекту для веб-поиска , Бостон: AAAI Press, стр. 23–28, заархивировано (PDF) из оригинала 2007 г. -04-18 , получено 23 октября 2007 г.
- ^ «Поисковые системы: технологии, общество и бизнес — Марти Херст, 29 августа 2005 г.» (PDF) . Беркли.edu . Архивировано (PDF) из оригинала 8 июля 2007 г. Проверено 1 августа 2007 г.
- ^ «Google нацеливает сайты, использующие частные сети блогов, с помощью ручных санкций за ранжирование» . Земля поисковых систем . 23 сентября 2014 г. Архивировано из оригинала 22 ноября 2016 г. Проверено 12 декабря 2016 г.
- ^ Шрайбер, Флора Рета (1973). Сибил . Чикаго: Регнери. ISBN 0-8092-0001-5 . OCLC 570440 .
- ^ Когель Буфорд, Джон Ф. (2009). «14». P2P-сети и приложения . Хун Хизер Ю, Энг Кеонг Луа. Амстердам: Эльзевир/Морган Кауфманн. ISBN 978-0-12-374214-8 . OCLC 318353755 .
- ^ Финин, Тим; Джоши, Анупам; Колари, Пранам; Джава, Акшай; Кале, Анубхав; Карандикар, Амит (6 сентября 2008 г.). «Информационная экология социальных сетей и интернет-сообществ» . Журнал ИИ . 29 (3): 77. doi : 10.1609/aimag.v29i3.2158 . hdl : 11603/12123 . ISSN 0738-4602 .
- ^ Беванс, Брэндон (2016). Категоризация спама в блогах (тезис). Библиотека Роберта Э. Кеннеди, Калифорнийский политехнический институт. дои : 10.15368/тезисы.2016.91 .
- ^ «Упадок и падение гостевого блоггинга для SEO» . mattcutts.com . 20 января 2014 г. Архивировано из оригинала 3 февраля 2015 г. Проверено 11 января 2015 г.
- ^ Мишне, Гилад ; Дэвид Кармель; Ронни Лемпель (2005). «Блокировка спама в блогах при несогласии с языковой моделью» (PDF) . Материалы Первого международного семинара по состязательному поиску информации в сети . Архивировано (PDF) из оригинала 21 июля 2011 г. Проверено 24 октября 2007 г.
- ^ «Скрытые перенаправления – Cправка Search Console» . support.google.com . Архивировано из оригинала 18 мая 2015 г. Проверено 14 мая 2015 г.
- ^ «Новинка: блокировка сайтов из результатов Google с помощью «персонального черного списка» Chrome — Search Engine Land» . searchengineland.com . 14 февраля 2011 года. Архивировано из оригинала 6 октября 2017 года . Проверено 6 октября 2017 г.
- ^ Фиттлер, Андраш; Пачолаи, Петер; Ашраф, Амир Реза; Пурхашеми, Амир; Иваньи, Питер (08.11.2022). «Распространенность отравленных результатов поиска в Google о лекарствах от эректильной дисфункции, перенаправляющих в нелегальные интернет-аптеки: исследование анализа данных» . Журнал медицинских интернет-исследований . 24 (11): e38957. дои : 10.2196/38957 . ПМЦ 9682446 . ПМИД 36346655 .
Внешние ссылки
[ редактировать ]- Словарное определение спамдексинга в Викисловаре