Дублирующийся контент
Дублированный контент — это термин, используемый в области поисковой оптимизации для описания контента , который появляется более чем на одной веб-странице. Дублированный контент может составлять значительную часть контента внутри домена или между доменами и может быть либо точно повторяющимся, либо очень похожим. [1] Когда несколько страниц содержат по существу один и тот же контент, поисковые системы, такие как Google и Bing, могут наказать или прекратить отображение копирующего сайта в любых релевантных результатах поиска.
Типы
[ редактировать ]Незлонамеренный
[ редактировать ]Невредоносный дублирующийся контент может включать варианты одной и той же страницы, например версии, оптимизированные для обычного HTML, мобильных устройств или для печати на принтере, или элементы магазина, которые могут отображаться через несколько разных URL-адресов. [1] Проблемы с дублированием контента также могут возникнуть, если сайт доступен под несколькими поддоменами, например с www или без него. или когда сайты не могут правильно обрабатывать косую черту в URL-адресах. [2] Другим распространенным источником невредоносного дублированного контента является нумерация страниц , при которой контент и/или соответствующие комментарии разделены на отдельные страницы. [3]
Синдицированный контент — это популярная форма дублированного контента. Если сайт объединяет контент с других сайтов, обычно считается важным убедиться, что поисковые системы могут определить, какая версия контента является оригинальной, чтобы оригинал мог получить преимущества более широкого распространения через результаты поисковых систем. [1] Способы сделать это включают в себя размещение тега rel=canonical на синдицированной странице, указывающего на оригинал, отсутствие индексации синдицированной копии или размещение ссылки в синдицированной копии, ведущей на исходную статью. Если ни одно из этих решений не будет реализовано, синдицированную копию можно будет рассматривать как оригинал и получить все преимущества. [4]
Количество возможных сканируемых URL-адресов, генерируемых серверным программным обеспечением, также мешает веб-сканерам избегать получения дублированного контента. Существуют бесконечные комбинации параметров HTTP GET (на основе URL-адресов), из которых лишь небольшая часть фактически возвращает уникальный контент. Например, простая онлайн-галерея фотографий может предлагать пользователям три варианта, как указано в параметрах HTTP GET в URL-адресе. Если существует четыре способа сортировки изображений, три варианта размера миниатюр , два формата файлов и возможность отключения пользовательского контента, то к одному и тому же набору контента можно получить доступ с помощью 48 различных URL-адресов, каждый из которых может быть связан с сайт. Эта математическая комбинация создает проблему для сканеров, поскольку им приходится перебирать бесконечные комбинации относительно незначительных изменений сценария, чтобы получить уникальный контент.
На разных веб-страницах может быть схожий контент в виде схожего контента продуктов. Обычно это наблюдается на веб-сайтах электронной коммерции, где использование аналогичных ключевых слов для аналогичных категорий продуктов приводит к такой форме невредоносного дублированного контента. Это часто случается, когда выпускаются новые итерации и версии продуктов, но продавец или моды веб-сайта электронной коммерции не предоставляют полные описания продуктов. [5]
вредоносный
[ редактировать ]Вредоносный дублированный контент — это контент, который намеренно дублируется с целью манипулирования результатами поиска и увеличения трафика. Это известно как поисковый спам . Существует ряд инструментов для проверки уникальности контента. [6] В некоторых случаях поисковые системы наказывают веб-сайты и отдельные страницы-нарушители рейтинга на страницах результатов поисковых систем (SERP) за дублированный контент, который считается «спамом».
Обнаружение дублированного контента
[ редактировать ]Обнаружение плагиата или обнаружение сходства контента — это процесс выявления случаев плагиата или нарушения авторских прав в произведении или документе. Широкое использование компьютеров и появление Интернета облегчили плагиат чужих работ. [7] [8]
Обнаружение плагиата может осуществляться различными способами. Обнаружение людей — наиболее традиционная форма выявления плагиата в письменных работах. Это может оказаться длительной и трудоемкой задачей для читателя. [8] а также может привести к несоответствию в том, как выявляется плагиат внутри организации. [9] Программное обеспечение для сопоставления текста (TMS), которое также называют «программным обеспечением для обнаружения плагиата» или «программным обеспечением для борьбы с плагиатом», стало широко доступным как в виде коммерчески доступных продуктов, так и в виде продуктов с открытым исходным кодом. [ необходимы примеры ] программное обеспечение. TMS фактически не обнаруживает плагиат как таковой, а вместо этого находит определенные отрывки текста в одном документе, которые совпадают с текстом в другом документе.Резолюции
[ редактировать ]Если контент был скопирован, обеим сторонам доступно несколько разрешений. [10]
- Получите удаление контента на сайте копировального устройства, связавшись с владельцем дублированного контента и попросив его удалить скопированный контент.
- Наймите адвоката , чтобы он отправил копировальному устройству уведомление об удалении.
- Перепишите контент, чтобы снова сделать контент сайта уникальным.
Перенаправление HTTP 301 (301 Moved Permanently) — это метод борьбы с повторяющимся контентом, позволяющий перенаправлять пользователей и сканеров поисковых систем на единственную подходящую версию контента. [1]
См. также
[ редактировать ]- Раскрутка статей – техника спама для поисковой оптимизации
- Элемент канонической ссылки — тип гиперссылки.
- Дедупликация данных - метод обработки данных для устранения дублирующих копий повторяющихся данных.
- Нормализация URL-адресов — процесс, с помощью которого URI стандартизируются.
Ссылки
[ редактировать ]- ^ Jump up to: а б с д «Дубликат контента» . Гугл Инк . Проверено 7 января 2016 г.
- ^ «Дублируемый контент — Дублируемый контент» . Проверено 19 декабря 2011 г.
- ^ «Дубликат контента: причинно-следственная связь и значение» . Эффективный рост бизнеса . Проверено 15 мая 2017 г.
- ^ Энге, Эрик (28 апреля 2014 г.). «Синдицированный контент: почему, когда и как» . Земля поисковых систем . Третья дверь СМИ . Проверено 25 июня 2018 г.
- ^ Избегайте штрафов со стороны Google за дублированный контент.
- ^ Ахмад, Билал (20 мая 2011 г.). «6 бесплатных инструментов проверки дублированного контента» . TechMaish.com . Проверено 15 мая 2017 г.
- ^ Калвин, Финтан; Ланкастер, Томас (2001). «Плагиат, предотвращение, сдерживание и выявление» . CiteSeerX 10.1.1.107.178 . Архивировано из оригинала 18 апреля 2021 года . Получено 11 ноября 2022 г. - через Академию высшего образования .
- ^ Jump up to: а б Бретаг Т. и Махмуд С. (2009). Модель определения студенческого плагиата: электронное обнаружение и академическая оценка. Журнал практики университетского преподавания и обучения, 6 (1). Получено с http://ro.uow.edu.au/jutlp/vol6/iss1/6.
- ^ Макдональд Р. и Кэрролл Дж. (2006). Плагиат — сложная проблема, требующая целостного институционального подхода. Оценка и оценка в высшем образовании, 31 (2), 233–245. дои : 10.1080/02602930500262536
- ^ «Есть дублированный контент? Это может снизить ваш рейтинг» . OrangeFox.com . Оранжевый Фокс . Проверено 27 марта 2016 г.