Дублирующийся контент

Дублированный контент — это термин, используемый в области поисковой оптимизации для описания контента , который появляется более чем на одной веб-странице. Дублированный контент может составлять значительную часть контента внутри домена или между доменами и может быть либо точно повторяющимся, либо очень похожим. ^[1] Когда несколько страниц содержат по существу один и тот же контент, поисковые системы, такие как Google и Bing, могут наказать или прекратить отображение копирующего сайта в любых релевантных результатах поиска.

Типы

Незлонамеренный

Невредоносный дублирующийся контент может включать варианты одной и той же страницы, например версии, оптимизированные для обычного HTML, мобильных устройств или для печати на принтере, или элементы магазина, которые могут отображаться через несколько разных URL-адресов. ^[1] Проблемы с дублированием контента также могут возникнуть, если сайт доступен под несколькими поддоменами, например с www или без него. или когда сайты не могут правильно обрабатывать косую черту в URL-адресах. ^[2] Другим распространенным источником невредоносного дублированного контента является нумерация страниц , при которой контент и/или соответствующие комментарии разделены на отдельные страницы. ^[3]

Синдицированный контент — это популярная форма дублированного контента. Если сайт объединяет контент с других сайтов, обычно считается важным убедиться, что поисковые системы могут определить, какая версия контента является оригинальной, чтобы оригинал мог получить преимущества более широкого распространения через результаты поисковых систем. ^[1] Способы сделать это включают в себя размещение тега rel=canonical на синдицированной странице, указывающего на оригинал, отсутствие индексации синдицированной копии или размещение ссылки в синдицированной копии, ведущей на исходную статью. Если ни одно из этих решений не будет реализовано, синдицированную копию можно будет рассматривать как оригинал и получить все преимущества. ^[4]

Количество возможных сканируемых URL-адресов, генерируемых серверным программным обеспечением, также мешает веб-сканерам избегать получения дублированного контента. Существуют бесконечные комбинации параметров HTTP GET (на основе URL-адресов), из которых лишь небольшая часть фактически возвращает уникальный контент. Например, простая онлайн-галерея фотографий может предлагать пользователям три варианта, как указано в параметрах HTTP GET в URL-адресе. Если существует четыре способа сортировки изображений, три варианта размера миниатюр , два формата файлов и возможность отключения пользовательского контента, то к одному и тому же набору контента можно получить доступ с помощью 48 различных URL-адресов, каждый из которых может быть связан с сайт. Эта математическая комбинация создает проблему для сканеров, поскольку им приходится перебирать бесконечные комбинации относительно незначительных изменений сценария, чтобы получить уникальный контент.

На разных веб-страницах может быть схожий контент в виде схожего контента продуктов. Обычно это наблюдается на веб-сайтах электронной коммерции, где использование аналогичных ключевых слов для аналогичных категорий продуктов приводит к такой форме невредоносного дублированного контента. Это часто случается, когда выпускаются новые итерации и версии продуктов, но продавец или моды веб-сайта электронной коммерции не предоставляют полные описания продуктов. ^[5]

вредоносный

Вредоносный дублированный контент — это контент, который намеренно дублируется с целью манипулирования результатами поиска и увеличения трафика. Это известно как поисковый спам . Существует ряд инструментов для проверки уникальности контента. ^[6] В некоторых случаях поисковые системы наказывают веб-сайты и отдельные страницы-нарушители рейтинга на страницах результатов поисковых систем (SERP) за дублированный контент, который считается «спамом».

Обнаружение дублированного контента

Обнаружение плагиата или обнаружение сходства контента — это процесс выявления случаев плагиата или нарушения авторских прав в произведении или документе. Широкое использование компьютеров и появление Интернета облегчили плагиат чужих работ. ^[7]^[8]

Обнаружение плагиата может осуществляться различными способами. Обнаружение людей — наиболее традиционная форма выявления плагиата в письменных работах. Это может оказаться длительной и трудоемкой задачей для читателя. ^[8] а также может привести к несоответствию в том, как выявляется плагиат внутри организации. ^[9] Программное обеспечение для сопоставления текста (TMS), которое также называют «программным обеспечением для обнаружения плагиата» или «программным обеспечением для борьбы с плагиатом», стало широко доступным как в виде коммерчески доступных продуктов, так и в виде продуктов с открытым исходным кодом. ^{[ необходимы примеры ]} программное обеспечение. TMS фактически не обнаруживает плагиат как таковой, а вместо этого находит определенные отрывки текста в одном документе, которые совпадают с текстом в другом документе.

Резолюции

Если контент был скопирован, обеим сторонам доступно несколько разрешений. ^[10]

Получите удаление контента на сайте копировального устройства, связавшись с владельцем дублированного контента и попросив его удалить скопированный контент.
Наймите адвоката , чтобы он отправил копировальному устройству уведомление об удалении.
Перепишите контент, чтобы снова сделать контент сайта уникальным.

Перенаправление HTTP 301 (301 Moved Permanently) — это метод борьбы с повторяющимся контентом, позволяющий перенаправлять пользователей и сканеров поисковых систем на единственную подходящую версию контента. ^[1]

См. также

Раскрутка статей – техника спама для поисковой оптимизации
Элемент канонической ссылки — тип гиперссылки.
Дедупликация данных - метод обработки данных для устранения дублирующих копий повторяющихся данных.
Нормализация URL-адресов — процесс, с помощью которого URI стандартизируются.

Ссылки

^ Jump up to: ^а ^б ^с ^д «Дубликат контента» . Гугл Инк . Проверено 7 января 2016 г.
^ «Дублируемый контент — Дублируемый контент» . Проверено 19 декабря 2011 г.
^ «Дубликат контента: причинно-следственная связь и значение» . Эффективный рост бизнеса . Проверено 15 мая 2017 г.
^ Энге, Эрик (28 апреля 2014 г.). «Синдицированный контент: почему, когда и как» . Земля поисковых систем . Третья дверь СМИ . Проверено 25 июня 2018 г.
^ Избегайте штрафов со стороны Google за дублированный контент.
^ Ахмад, Билал (20 мая 2011 г.). «6 бесплатных инструментов проверки дублированного контента» . TechMaish.com . Проверено 15 мая 2017 г.
^ Калвин, Финтан; Ланкастер, Томас (2001). «Плагиат, предотвращение, сдерживание и выявление» . CiteSeerX 10.1.1.107.178 . Архивировано из оригинала 18 апреля 2021 года . Получено 11 ноября 2022 г. - через Академию высшего образования .
^ Jump up to: ^а ^б Бретаг Т. и Махмуд С. (2009). Модель определения студенческого плагиата: электронное обнаружение и академическая оценка. Журнал практики университетского преподавания и обучения, 6 (1). Получено с http://ro.uow.edu.au/jutlp/vol6/iss1/6.
^ Макдональд Р. и Кэрролл Дж. (2006). Плагиат — сложная проблема, требующая целостного институционального подхода. Оценка и оценка в высшем образовании, 31 (2), 233–245. дои : 10.1080/02602930500262536
^ «Есть дублированный контент? Это может снизить ваш рейтинг» . OrangeFox.com . Оранжевый Фокс . Проверено 27 марта 2016 г.

[Google-1] Jump up to: ^а ^б ^с ^д «Дубликат контента» . Гугл Инк . Проверено 7 января 2016 г.

[danclarkie.co.uk-2] «Дублируемый контент — Дублируемый контент» . Проверено 19 декабря 2011 г.

[3] «Дубликат контента: причинно-следственная связь и значение» . Эффективный рост бизнеса . Проверено 15 мая 2017 г.

[4] Энге, Эрик (28 апреля 2014 г.). «Синдицированный контент: почему, когда и как» . Земля поисковых систем . Третья дверь СМИ . Проверено 25 июня 2018 г.

[5] Избегайте штрафов со стороны Google за дублированный контент.

[6] Ахмад, Билал (20 мая 2011 г.). «6 бесплатных инструментов проверки дублированного контента» . TechMaish.com . Проверено 15 мая 2017 г.

[7] Калвин, Финтан; Ланкастер, Томас (2001). «Плагиат, предотвращение, сдерживание и выявление» . CiteSeerX 10.1.1.107.178 . Архивировано из оригинала 18 апреля 2021 года . Получено 11 ноября 2022 г. - через Академию высшего образования .

[Content_similarity_detection_:0-8] Jump up to: ^а ^б Бретаг Т. и Махмуд С. (2009). Модель определения студенческого плагиата: электронное обнаружение и академическая оценка. Журнал практики университетского преподавания и обучения, 6 (1). Получено с http://ro.uow.edu.au/jutlp/vol6/iss1/6.

[9] Макдональд Р. и Кэрролл Дж. (2006). Плагиат — сложная проблема, требующая целостного институционального подхода. Оценка и оценка в высшем образовании, 31 (2), 233–245. дои : 10.1080/02602930500262536

[10] «Есть дублированный контент? Это может снизить ваш рейтинг» . OrangeFox.com . Оранжевый Фокс . Проверено 27 марта 2016 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]