Дубликаты страниц на сайте: чем вредны и как от них избавиться?

Россия+7 (495) 960-65-87
Шрифт:
0 10482

При анализе сайта на предмет технических ошибок мы часто сталкиваемся с такой проблемой, как дубликаты страниц. Давайте подробнее разберемся, что это такое, какие виды дубликатов существуют, как их выявить и избавиться.

Примечание: если вы знаете что такое дубли страниц и чем они вредны для продвижения, можно сразу перейти в четвертый раздел «Как выявить дубли страниц».

Разберем общее понятие:

Дубликаты страниц — это полная или частичная копия основной веб-страницы на сайте, которая участвует в продвижении. Как правило копия находится на отдельном URL-адресе.

Чем вредны дубликаты страниц при продвижении сайта?

Многие владельцы сайтов даже не подозревают о том, что на сайте может присутствовать большое количество дубликатов, наличие которых плохо сказывается на общем ранжировании сайта. Поисковые системы воспринимают данные документы как отдельные, поэтому контент страницы перестает быть уникальным, тем самым снижается ссылочный вес страницы.

Наличие небольшого количества дублей страниц не будет являться большой проблемой для сайта. Но если их число зашкаливает, то от них необходимо избавляться в срочном порядке.

Виды дубликатов страниц

Существуют различные виды дубликатов страниц, самые распространенные из них представлены в рисунке 1:

Рис. 1. Виды дубликатов страниц.jpg

Рис. 1. Виды дубликатов страниц

Разберем подробнее представленные виды дублей страниц.

Полные дубликаты страниц — полное дублирование контента веб-документа, различия только в URL-адресе.

Частичные дубликаты страниц — частичное дублирование контента веб-документов, когда дублируется наполнение сайта с небольшими различиями. Например, большие фрагменты текстов дублируются на нескольких страницах сайта — это уже частичные дубликаты или похожие карточки товаров, которые отличаются только одной незначительной характеристикой.

Внешние дубликаты страниц — полное или частичное дублирование контента на разных сайтах.

Технические дубликаты — это дубликаты, которые генерируются автоматически из-за неправильных настроек системы управления сайтом.

Дубликаты, созданные человеком — это дубликаты страниц, которые были созданы по невнимательности самим вебмастером.

Как выявить дубли страниц?

Способов обнаружить дубликаты страниц — множество. В данной статье рассмотрим несколько основных методов, которые используются в работе чаще всего.

1. Парсинг сайта в сервисе

При парсинге сайта в каком-либо сервисе (в последнее время чаще всего используют сервис Screaming Frog) наглядно можно увидеть страницы-дубликаты.

К примеру, когда не склеены зеркала либо у страниц есть какие-то параметры, которые добавляются автоматически при отслеживании эффективности рекламных кампаний и др.

Рис. 2. Пример парсинга сайта в сервисе Screaming Frog при не склеенных зеркалах.jpg

Рис. 2. Пример парсинга сайта в сервисе Screaming Frog при не склеенных зеркалах

Небольшой лайфхак для работы с сервисом Screaming Frog: если у сайта огромное количеством страниц, и вы сразу заметили, что зеркала не склеены и поставили проект на парсинг, естественно процесс замедлится и уменьшит скорость работы вашей системы (если у вашего ПК, конечно, не мощные системные характеристики).

Чтобы этого избежать можно использовать функцию Configuration – URL Rewriting – Regex Replace.

В вкладке Regex Replace создаем следующее правило (используя регулярное выражение, «говорим» сервису, как нужно склеивать зеркала, чтобы он выводил только страницы с HTTPS):

Рис. 3. Скриншот из сервиса Screaming Frog — Использование функции URL Rewriting.png

Рис. 3. Скриншот из сервиса Screaming Frog — Использование функции URL Rewriting

Далее нажимаем кнопку «ОК» и переходим во вкладку «Test». В данной вкладке сервис вам покажет, правильно ли вы задали правило и как будут склеиваться зеркала. В нашем случаем должен выходить такой результат:

Рис. 4. Скриншот из сервиса Screaming Frog.png

Рис. 4. Скриншот из сервиса Screaming Frog — Использование функции Test

Таким же способом можно склеивать страницы с «www» и без «www», а также задавать различные параметры, чтобы не выводить ненужные страницы (например, страницы пагинации).

После всех операций спокойно запускаем парсинг сайта без дополнительной нагрузки на систему.

2. Использование панели Яндекс.Вебмастер

В Яндекс.Вебмастер есть очень удобный пункт сервиса - «Индексирование» — «Страницы в поиске». Данный пункт наглядно показывает текущую индексацию сайта, а также дубликаты страниц (то, что мы ищем):

Рис. 5. Скриншот из панели Яндекс.Вебмастер — Использование функции Страницы в Поиске.png

Рис. 5. Скриншот из панели Яндекс.Вебмастер — Использование функции Страницы в Поиске

Для полного анализа дубликатов страниц рекомендуется выгрузить xls-файл всех страниц, которые присутствуют в поиске:

Рис. 6. Выгрузка страниц в поиске из панели Яндекс.Вебмастер.png

Рис. 6. Выгрузка страниц в поиске из панели Яндекс.Вебмастер

Открываем наш xls-файл и включаем фильтр: Данные – Фильтр:

Рис. 7. Скриншот из xls-файла «Выгрузка страниц в поиске из панели Яндекс.Вебмастер».png

Рис. 7. Скриншот из xls-файла «Выгрузка страниц в поиске из панели Яндекс.Вебмастер»

В фильтре выбираем «DUPLICATE», и перед нами будет список дубликатов страниц. Рекомендуется проанализировать каждую страницу или один тип страниц, (если, например, это только карточки товаров) на предмет дублирования.

Например: поисковая система может признать дубликатами похожие карточки товаров с незначительными отличиями. Тогда необходимо переписать содержание страницы: основной контент, теги и метатеги, если они дублируются, либо такие карточки склеить с помощью атрибута rel=”canonical”. Другие рекомендации по избавлению от дубликатов страниц подробно описаны в пункте 5.

3. Использование Google Search Console

Заходим в Google Search Console, выбираем свой сайт, в левом меню кликаем «Вид в поиске» – «Оптимизация HTML» и смотрим такие пункты, которые связаны с термином «Повторяющееся»:

Рис. 8. Скриншот из панели «Google Console».png

Рис. 8. Скриншот из панели «Google Console»

Данные страницы могут и не являются дубликатами, но проанализировать их нужно и при необходимости устранить проблемы с дублированием.

4. Использование операторов поиска

Для поиска дубликатов также можно использовать операторы поиска «site:» и «inurl», но данный метод уже устарел. Его полностью заменила функция «Страницы в поиске» в Яндекс.Вебмастере.

Рис. 9. Скриншот из поисковой выдачи – использование поисковых операторов.png

Рис. 9. Скриншот из поисковой выдачи – использование поисковых операторов

5. Ручной поиск

Для ручного поиска дубликатов страниц необходимо уже обладать знаниями о том, какие дубликаты могут быть. Вручную обычно проверяются такие типы дубликатов, как:

一 URL-адрес с “/” и без “/” в конце. Проверяем первую страницу сайта с “/” и без “/” в конце в сервисе bertal. Если обе страницы отдают код ответа сервера 200 ОК, то такие страницы являются дубликатами и их необходимо склеить 301 редиректом

一 добавление в URL-адрес каких-либо символов в конце адреса или в середине. Если после перезагрузки страница не отдает 404 код ответа сервера или не настроен 301 Moved Permanently на текущую основную страницу, то перед нами, по сути, тоже дубликат, от которого необходимо избавиться. Такая ошибка является системной, и ее нужно решать на автоматическом уровне.

Как избавиться от дубликатов страниц: основные виды и методы

В данном пункте разберем наиболее часто встречающиеся виды дубликатов страниц и варианты их устранения:

  1. Не склеенные страницы с «/» и без «/», с www и без www, страницы с http и с https.

Варианты устранения:

一 Настроить 301 Moved Permanently на основное зеркало, обязательно выполните необходимые настройки по выбору основного зеркала сайта в Яндекс.Вебмастер.

  1. Страницы пагинации, когда дублируется текст с первой страницы на все остальные, при этом товар разный.

Выполнить следующие действия:

一 Использовать теги next/prev для связки страниц пагинации между собой;

一 Если первая страница пагинации дублируется с основной, необходимо на первую страницу пагинации поставить тег rel=”canonical” со ссылкой на основную;

一 Добавить на все страницы пагинации тег:

< meta name="robots" content="noindex, follow" / >

Данный тег не позволяет роботу поисковой системы индексировать контент, но дает переходить по ссылкам на странице.

  1. Страницы, которые появляются из-за некорректно работающего фильтра.

Варианты устранения:

一 Корректно настроить страницы фильтрации, чтобы они были статическими. Также их необходимо правильно оптимизировать. Если все корректно настроено, сайт будет дополнительно собирать трафик на страницы фильтрации;

一 Закрыть страницы-дубликаты в файле robots.txt с помощью директивы Disallow.

  1. Идентичные товары, которые не имеют существенных различий (например: цвет, размер и т.д.).

Варианты устранения:

一 Склеить похожие товары с помощью тега rel=”canonical”;

一 Реализовать новый функционал на странице карточки товара по выбору характеристики. Например, если есть несколько почти одинаковых товаров, которые различаются только, к примеру, цветом изделия, то рекомендуется реализовать выбор цвета на одной карточке товара, далее – с остальных настроить 301 редирект на основную карточку.

  1. Страницы для печати.

Вариант устранения:

一 Закрыть в файле robots.txt.

  1. Страницы с неправильной настройкой 404 кода ответа сервера.

Вариант устранения:

一 Настроить корректный 404 код ответа сервера.

  1. Дубли, которые появились после некорректной смены структуры сайта.

Вариант устранения:

一 Настроить 301 редирект со страниц старой структуры на аналогичные страницы в новой структуре.

  1. Дубли, которые появляются из-за некорректной работы Яндекс.Вебмастера. Например, такие URL-адреса, которые заканчиваются на index.php, index.html и др.

Варианты устранения:

一 Закрыть в файле robots.txt;

一 Настроить 301 редирект со страниц дубликатов на основные.

  1. Страницы, к примеру, одного и того же товара, которые дублируются в разных категориях по отдельным URL-адресам.

Варианты устранения:

一 Cклеить страницы с помощью тега rel=”canonical”;

一 Лучшим решением будет вынести все страницы товаров под отдельный параметр в URL-адресе, например “/product/”, без привязки к разделам, тогда все товары можно раскидывать по разделам, и не будут “плодиться” дубликаты карточек товаров.

  1. Дубли, которые возникают при добавлении get-параметров, различных utm-меток, пометок счетчиков для отслеживания эффективности рекламных кампаний: Google Analytics, Яндекс.Метрика, реферальных ссылок, например, страницы с такими параметрами как: gclid=, yclid=, openstat= и др.

Варианты устранения:

一 В данном случае необходимо проставить на всех страницах тег rel=”canonical” со ссылкой страницы на саму себя, так как закрытие таких страниц в файле robots.txt может повредить корректному отслеживанию эффективности рекламных кампаний.

Устранение дублей позволит поисковым системам лучше понимать и ранжировать ваш сайт. Используйте советы из этой статьи, и тогда поиск и устранение дублей не будет казаться сложным процессом.

И повторюсь: малое количество дубликатов не так значительно скажется на ранжировании вашего сайта, но большое количество (более 50% от общего числа страниц сайта) явно нанесет вред.

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Кейс: как продвинуть сайт производителя мебели на заказ в Москве
    Art Moderator
    2
    комментария
    0
    читателей
    Полный профиль
    Art Moderator -
    Рейтинг «Известность бренда SEO-компаний 2017»: народное голосование
    Гость
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость - 1) Ingate 2) Ашманов 3) Кокос 4) Russian Promo 5) Netpeak
    «Баден-Баден»: как выйти из-под фильтра
    Гость
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость - Здравствуйте! У меня совсем новый сайт (около месяца). Как только добавила страницы - были на 64, 45 и т.д. местах в выдаче яндекса по нч и сч запросам, но через несколько дней улетели за пределы 200. Что это баден - баден или песочница? Текст вроде не спамный, но мне трудно судить. Сайт portretnazakaz.ru
    Второе дыхание ссылочного продвижения
    Rookee.ru
    24
    комментария
    0
    читателей
    Полный профиль
    Rookee.ru - Еще лучше, когда продвижение осуществляется комплексно :)
    32 инструмента в помощь SEO-специалисту
    Alex Wise
    5
    комментариев
    0
    читателей
    Полный профиль
    Alex Wise - Данис, я тысячу раз извиняюсь насчёт имени! :( Хотя уверен, что лучше всех вас понимаю по этому поводу, ибо меня всегда называют "Алексеем", хотя я Александр: всё из-за сокращения Alex ;) Жду фидбека по новой версии 3.0!
    Исследование: влияние smart-ссылок на продвижение по СЧ-запросам
    Анатолий Шевчик
    1
    комментарий
    0
    читателей
    Полный профиль
    Анатолий Шевчик - +1097988
    Контекст под SEO. Как поисковая реклама помогает позициям в органической выдаче
    Сергей Дембицкий «Sima-Land.ru»
    22
    комментария
    0
    читателей
    Полный профиль
    Сергей Дембицкий «Sima-Land.ru» - Боже мой, неужели SEO-маги вернулись??? Открыть в роботс utm-метки для индексации и наплодить дублей...что? А расчеты в конце статьи про бюджет на SEO и контекст...откуда эти пропорции? Как по мне, SEO-магия вне Хогвартс. Спасибо, развеселили!
    Западные специалисты выяснили, как повысить позиции ресурса в выдаче Google
    Максим Мирошник
    2
    комментария
    0
    читателей
    Полный профиль
    Максим Мирошник -
    Все, что нужно SEO-специалисту. Обзор инструментов
    Администратор Сайта
    1
    комментарий
    1
    читатель
    Полный профиль
    Администратор Сайта - Шаришь в seo! Сервис реально хороший
    «Прямая линия» с Артуром Латыповым: отвечаем на вопросы
    God Koss
    1
    комментарий
    0
    читателей
    Полный профиль
    God Koss - Добрый день! Есть сайты одной компании продвигающиеся в разных странах. .ru .com .net. На российском сайте два языка ru и en, на остальных до 10 языков. Недавно сайт ru по основному брендовому запросу выпал из выдачи Яндекс но после апа вернулся на вторую позицию. На вопрос аффилирования в тех поддержку, получит ответ, что всё в порядке и сайт com не учавствует в выдаче. Но он есть и занимает 1 место. Как быть в данной ситуации? Так же, после возврата в топ 10 по этому запросу зашла еще одна внутренняя страница. Могло ли это случиться из-за каннибализации запроса? Немного изменил description на внутренней, исключил вхождения брендового запроса. Жду апа. Хотел бы услышать ваше мнение. Заранее благодарю!
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    321
    Комментариев
    262
    Комментариев
    234
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    86
    Комментариев
    80
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    57
    Комментариев
    55
    Комментариев
    54
    Комментариев
    53

    Отправьте отзыв!
    Отправьте отзыв!