Дубликаты страниц на сайте: чем вредны и как от них избавиться?

Россия+7 (495) 960-65-87
Шрифт:
3 26890

При анализе сайта на предмет технических ошибок мы часто сталкиваемся с такой проблемой, как дубликаты страниц. Давайте подробнее разберемся, что это такое, какие виды дубликатов существуют, как их выявить и избавиться.

Примечание: если вы знаете что такое дубли страниц и чем они вредны для продвижения, можно сразу перейти в четвертый раздел «Как выявить дубли страниц».

Разберем общее понятие:

Дубликаты страниц — это полная или частичная копия основной веб-страницы на сайте, которая участвует в продвижении. Как правило копия находится на отдельном URL-адресе.

Чем вредны дубликаты страниц при продвижении сайта?

Многие владельцы сайтов даже не подозревают о том, что на сайте может присутствовать большое количество дубликатов, наличие которых плохо сказывается на общем ранжировании сайта. Поисковые системы воспринимают данные документы как отдельные, поэтому контент страницы перестает быть уникальным, тем самым снижается ссылочный вес страницы.

Наличие небольшого количества дублей страниц не будет являться большой проблемой для сайта. Но если их число зашкаливает, то от них необходимо избавляться в срочном порядке.

Виды дубликатов страниц

Существуют различные виды дубликатов страниц, самые распространенные из них представлены в рисунке 1:

Рис. 1. Виды дубликатов страниц.jpg

Рис. 1. Виды дубликатов страниц

Разберем подробнее представленные виды дублей страниц.

Полные дубликаты страниц — полное дублирование контента веб-документа, различия только в URL-адресе.

Частичные дубликаты страниц — частичное дублирование контента веб-документов, когда дублируется наполнение сайта с небольшими различиями. Например, большие фрагменты текстов дублируются на нескольких страницах сайта — это уже частичные дубликаты или похожие карточки товаров, которые отличаются только одной незначительной характеристикой.

Внешние дубликаты страниц — полное или частичное дублирование контента на разных сайтах.

Технические дубликаты — это дубликаты, которые генерируются автоматически из-за неправильных настроек системы управления сайтом.

Дубликаты, созданные человеком — это дубликаты страниц, которые были созданы по невнимательности самим вебмастером.

Как выявить дубли страниц?

Способов обнаружить дубликаты страниц — множество. В данной статье рассмотрим несколько основных методов, которые используются в работе чаще всего.

1. Парсинг сайта в сервисе

При парсинге сайта в каком-либо сервисе (в последнее время чаще всего используют сервис Screaming Frog) наглядно можно увидеть страницы-дубликаты.

К примеру, когда не склеены зеркала либо у страниц есть какие-то параметры, которые добавляются автоматически при отслеживании эффективности рекламных кампаний и др.

Рис. 2. Пример парсинга сайта в сервисе Screaming Frog при не склеенных зеркалах.jpg

Рис. 2. Пример парсинга сайта в сервисе Screaming Frog при не склеенных зеркалах

Небольшой лайфхак для работы с сервисом Screaming Frog: если у сайта огромное количеством страниц, и вы сразу заметили, что зеркала не склеены и поставили проект на парсинг, естественно процесс замедлится и уменьшит скорость работы вашей системы (если у вашего ПК, конечно, не мощные системные характеристики).

Чтобы этого избежать можно использовать функцию Configuration – URL Rewriting – Regex Replace.

В вкладке Regex Replace создаем следующее правило (используя регулярное выражение, «говорим» сервису, как нужно склеивать зеркала, чтобы он выводил только страницы с HTTPS):

Рис. 3. Скриншот из сервиса Screaming Frog — Использование функции URL Rewriting.png

Рис. 3. Скриншот из сервиса Screaming Frog — Использование функции URL Rewriting

Далее нажимаем кнопку «ОК» и переходим во вкладку «Test». В данной вкладке сервис вам покажет, правильно ли вы задали правило и как будут склеиваться зеркала. В нашем случаем должен выходить такой результат:

Рис. 4. Скриншот из сервиса Screaming Frog.png

Рис. 4. Скриншот из сервиса Screaming Frog — Использование функции Test

Таким же способом можно склеивать страницы с «www» и без «www», а также задавать различные параметры, чтобы не выводить ненужные страницы (например, страницы пагинации).

После всех операций спокойно запускаем парсинг сайта без дополнительной нагрузки на систему.

2. Использование панели Яндекс.Вебмастер

В Яндекс.Вебмастер есть очень удобный пункт сервиса - «Индексирование» — «Страницы в поиске». Данный пункт наглядно показывает текущую индексацию сайта, а также дубликаты страниц (то, что мы ищем):

Рис. 5. Скриншот из панели Яндекс.Вебмастер — Использование функции Страницы в Поиске.png

Рис. 5. Скриншот из панели Яндекс.Вебмастер — Использование функции Страницы в Поиске

Для полного анализа дубликатов страниц рекомендуется выгрузить xls-файл всех страниц, которые присутствуют в поиске:

Рис. 6. Выгрузка страниц в поиске из панели Яндекс.Вебмастер.png

Рис. 6. Выгрузка страниц в поиске из панели Яндекс.Вебмастер

Открываем наш xls-файл и включаем фильтр: Данные – Фильтр:

Рис. 7. Скриншот из xls-файла «Выгрузка страниц в поиске из панели Яндекс.Вебмастер».png

Рис. 7. Скриншот из xls-файла «Выгрузка страниц в поиске из панели Яндекс.Вебмастер»

В фильтре выбираем «DUPLICATE», и перед нами будет список дубликатов страниц. Рекомендуется проанализировать каждую страницу или один тип страниц, (если, например, это только карточки товаров) на предмет дублирования.

Например: поисковая система может признать дубликатами похожие карточки товаров с незначительными отличиями. Тогда необходимо переписать содержание страницы: основной контент, теги и метатеги, если они дублируются, либо такие карточки склеить с помощью атрибута rel=”canonical”. Другие рекомендации по избавлению от дубликатов страниц подробно описаны в пункте 5.

3. Использование Google Search Console

Заходим в Google Search Console, выбираем свой сайт, в левом меню кликаем «Вид в поиске» – «Оптимизация HTML» и смотрим такие пункты, которые связаны с термином «Повторяющееся»:

Рис. 8. Скриншот из панели «Google Console».png

Рис. 8. Скриншот из панели «Google Console»

Данные страницы могут и не являются дубликатами, но проанализировать их нужно и при необходимости устранить проблемы с дублированием.

4. Использование операторов поиска

Для поиска дубликатов также можно использовать операторы поиска «site:» и «inurl», но данный метод уже устарел. Его полностью заменила функция «Страницы в поиске» в Яндекс.Вебмастере.

Рис. 9. Скриншот из поисковой выдачи – использование поисковых операторов.png

Рис. 9. Скриншот из поисковой выдачи – использование поисковых операторов

5. Ручной поиск

Для ручного поиска дубликатов страниц необходимо уже обладать знаниями о том, какие дубликаты могут быть. Вручную обычно проверяются такие типы дубликатов, как:

一 URL-адрес с “/” и без “/” в конце. Проверяем первую страницу сайта с “/” и без “/” в конце в сервисе bertal. Если обе страницы отдают код ответа сервера 200 ОК, то такие страницы являются дубликатами и их необходимо склеить 301 редиректом

一 добавление в URL-адрес каких-либо символов в конце адреса или в середине. Если после перезагрузки страница не отдает 404 код ответа сервера или не настроен 301 Moved Permanently на текущую основную страницу, то перед нами, по сути, тоже дубликат, от которого необходимо избавиться. Такая ошибка является системной, и ее нужно решать на автоматическом уровне.

Как избавиться от дубликатов страниц: основные виды и методы

В данном пункте разберем наиболее часто встречающиеся виды дубликатов страниц и варианты их устранения:

  1. Не склеенные страницы с «/» и без «/», с www и без www, страницы с http и с https.

Варианты устранения:

一 Настроить 301 Moved Permanently на основное зеркало, обязательно выполните необходимые настройки по выбору основного зеркала сайта в Яндекс.Вебмастер.

  1. Страницы пагинации, когда дублируется текст с первой страницы на все остальные, при этом товар разный.

Выполнить следующие действия:

一 Использовать теги next/prev для связки страниц пагинации между собой;

一 Если первая страница пагинации дублируется с основной, необходимо на первую страницу пагинации поставить тег rel=”canonical” со ссылкой на основную;

一 Добавить на все страницы пагинации тег:

< meta name="robots" content="noindex, follow" / >

Данный тег не позволяет роботу поисковой системы индексировать контент, но дает переходить по ссылкам на странице.

  1. Страницы, которые появляются из-за некорректно работающего фильтра.

Варианты устранения:

一 Корректно настроить страницы фильтрации, чтобы они были статическими. Также их необходимо правильно оптимизировать. Если все корректно настроено, сайт будет дополнительно собирать трафик на страницы фильтрации;

一 Закрыть страницы-дубликаты в файле robots.txt с помощью директивы Disallow.

  1. Идентичные товары, которые не имеют существенных различий (например: цвет, размер и т.д.).

Варианты устранения:

一 Склеить похожие товары с помощью тега rel=”canonical”;

一 Реализовать новый функционал на странице карточки товара по выбору характеристики. Например, если есть несколько почти одинаковых товаров, которые различаются только, к примеру, цветом изделия, то рекомендуется реализовать выбор цвета на одной карточке товара, далее – с остальных настроить 301 редирект на основную карточку.

  1. Страницы для печати.

Вариант устранения:

一 Закрыть в файле robots.txt.

  1. Страницы с неправильной настройкой 404 кода ответа сервера.

Вариант устранения:

一 Настроить корректный 404 код ответа сервера.

  1. Дубли, которые появились после некорректной смены структуры сайта.

Вариант устранения:

一 Настроить 301 редирект со страниц старой структуры на аналогичные страницы в новой структуре.

  1. Дубли, которые появляются из-за некорректной работы Яндекс.Вебмастера. Например, такие URL-адреса, которые заканчиваются на index.php, index.html и др.

Варианты устранения:

一 Закрыть в файле robots.txt;

一 Настроить 301 редирект со страниц дубликатов на основные.

  1. Страницы, к примеру, одного и того же товара, которые дублируются в разных категориях по отдельным URL-адресам.

Варианты устранения:

一 Cклеить страницы с помощью тега rel=”canonical”;

一 Лучшим решением будет вынести все страницы товаров под отдельный параметр в URL-адресе, например “/product/”, без привязки к разделам, тогда все товары можно раскидывать по разделам, и не будут “плодиться” дубликаты карточек товаров.

  1. Дубли, которые возникают при добавлении get-параметров, различных utm-меток, пометок счетчиков для отслеживания эффективности рекламных кампаний: Google Analytics, Яндекс.Метрика, реферальных ссылок, например, страницы с такими параметрами как: gclid=, yclid=, openstat= и др.

Варианты устранения:

一 В данном случае необходимо проставить на всех страницах тег rel=”canonical” со ссылкой страницы на саму себя, так как закрытие таких страниц в файле robots.txt может повредить корректному отслеживанию эффективности рекламных кампаний.

Устранение дублей позволит поисковым системам лучше понимать и ранжировать ваш сайт. Используйте советы из этой статьи, и тогда поиск и устранение дублей не будет казаться сложным процессом.

И повторюсь: малое количество дубликатов не так значительно скажется на ранжировании вашего сайта, но большое количество (более 50% от общего числа страниц сайта) явно нанесет вред.

(Нет голосов)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Ростислав
    1
    комментарий
    0
    читателей
    Ростислав
    1 месяц назад
    Лично мы у себя на сайте joomlok.com ищем дубли специальными расширениями для движка, а не рабочие ссылки специальной программой xenu (не реклама) без занудства и она бесплатна. Рекомендую начинающим
    -
    0
    +
    Ответить
  • Алексей Степанов
    5
    комментариев
    0
    читателей
    Алексей Степанов
    3 месяца назад
    Пишете про параметризованные ссылки с параметрами типа  gclid=, yclid=, openstat= и др.
    «так как закрытие таких страниц в файле robots.txt может повредить корректному отслеживанию эффективности рекламных кампаний» — а каким именно образом это может навредить отслеживанию?

    Ниже даете совет про установку тега rel=”canonical” со ссылкой страницы на саму себя — При такой настройке поисковики как раз и будут воспринимать страницу как дубль, наверное у вас тут опечатка ...
    Пишете про параметризованные ссылки с параметрами типа  gclid=, yclid=, openstat= и др.
    «так как закрытие таких страниц в файле robots.txt может повредить корректному отслеживанию эффективности рекламных кампаний» — а каким именно образом это может навредить отслеживанию?

    Ниже даете совет про установку тега rel=”canonical” со ссылкой страницы на саму себя — При такой настройке поисковики как раз и будут воспринимать страницу как дубль, наверное у вас тут опечатка и вы имели в виду настройку каноникала на основную страницу (без параметров)? Или я что-то не так понял?

    И еще — не будет ли эффективнее подклеить параметризованные ссылки к основному URL через «clean-param» в Яндексе или «Параметры URL» в Google?
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Рейтинг Известности 2018: старт народного голосования
Михаил Р
1
комментарий
0
читателей
Полный профиль
Михаил Р - 1. Demis 2. кокс 3. Ашманов 4. Скобеев 5. Digital Strategy
Тест: Кто как пробежал, или Итоги клиентского рейтинга SEOnews 2018
Анна Макарова
338
комментариев
0
читателей
Полный профиль
Анна Макарова - Друзья, спасибо всем за участие! Мы определили победителей. Кто ими стал - вы найдете по ссылке: www.seonews.ru/events/darim-knigi-ot-mif-pobediteli-opredeleny/ Если вы стали одним из победителей, обязательно свяжитесь с нами по указанной в новости (по ссылке выше) почте. Всем хороших выходных! =)
SEO глазами клиентов 2018
Артур Якушев
1
комментарий
0
читателей
Полный профиль
Артур Якушев - >сейчас же сложно найти агентства, которые специализируются только на SEO Не так и сложно найти нас www.msk.lapkinlab.ru
Рейтинг Известности 2018: второй этап народного голосования
Константин Сокол
3
комментария
0
читателей
Полный профиль
Константин Сокол - Кто был ответственный за дизайн таблицы голосования? Копирайтер?
Комплексный аудит интернет-магазина от «Ашманов и партнеры». Часть 1
Александр Сова
1
комментарий
0
читателей
Полный профиль
Александр Сова - А вот и сеошники подъехали, покидать на вентилятор :D
Кейс: вывод лендинга по изготовлению флагов на заказ в ТОП 1 по Санкт-Петербургу
utka21
4
комментария
0
читателей
Полный профиль
utka21 - Кейс как кейс. Для некоторых станет вполне возможно полезным. ( Для конкурентов точно) . А вот с комментариями , что то пошло не так )
Не очень удачный кейс продвижения сайта по услуге «Трезвый водитель» в Москве
Кирилл Щербаков
3
комментария
0
читателей
Полный профиль
Кирилл Щербаков - "даже пришлось подключить отслеживание звонков с сайта" "Даже" - как будто это что-то нереальное
Как использовать Python для LSI-копирайтинга
Evgeny Montana
6
комментариев
0
читателей
Полный профиль
Evgeny Montana - спасибо)
Стартовал сбор заявок на участие в рейтинге «Известность бренда SEO-компаний 2018»
Артем Первухин
1
комментарий
0
читателей
Полный профиль
Артем Первухин - Make KINETICA Great Again!
Эксперимент: как уникальность контента влияет на продвижение сайта
Ilia Nazmutdinov
2
комментария
0
читателей
Полный профиль
Ilia Nazmutdinov - Кстати, ПФ не работают на нулевом трафике. Пока на сайт не льются тысячи показов по одним и тем же запросам влияние оказывает ток ссылочное\внешнее и внутреннее\ и внутренняя оптимизация.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
338
Комментариев
262
Комментариев
241
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
97
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
67
Комментариев
61
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
55
Комментариев
54

Отправьте отзыв!
Отправьте отзыв!