×
Россия +7 (495) 139-20-33

Война с дубликатами. Как нужно и как не нужно канонизировать URL

Россия +7 (495) 139-20-33
Шрифт:
13 13038

Представьте ситуацию: поисковой бот приходит к вам на сайт, сканирует контент и находит несколько одинаковых страниц. Как боту выбрать лучший вариант для ранжирования?

Бот доверится подсказкам, которые вы ему предоставите (если только вы не будете манипулировать алгоритмами поисковика). Если же вы не укажете, какой URL является каноническим (оригинальным / более важным для вас), бот сделает выбор за вас. А еще бот может расценить дублирующие страницы как одинаково важные. Тогда поисковик потратит краулинговый бюджет на повторяющийся контент, а прибыльные страницы могу в индекс так и не попасть.

Как избежать такого расклада? Ответ может показаться сложным, но в этой статье я объясню все просто. Итак, чтобы бот забрал в индекс выгодные страницы, их нужно канонизировать.

Читайте ниже, что это значит, как это нужно и не нужно делать.

Вы уверены, что у вас на сайте нет дубликатов?

Канонический URL – это страница, которую Google воспринимает как наиболее важную из нескольких дублирующихся URL-ов на сайте. Возможно вы думаете: «Я не копирую URL-ы у себя на сайте, поэтому мне не о чем беспокоиться». На самом деле дубликаты могут быть созданы автоматически. Например, поисковые роботы могут зайти на вашу страницу разными способами:

  • Через протоколы HTTP и HTTPS:

http://www.yourwebsite.com

https://www.yourwebsite.com

  • Через WWW и не WWW:

http://example.com

http://www.example.com/

Как лучше попасть к вам на сайт? Выберите лучший способ и не забудьте рассказать поисковым системам о своем выборе.

Рассмотрим еще один пример, когда множество дубликатов создается на коммерческом сайте автоматически. Сортировка товаров с помощью URL параметров по размеру, цвету, бренду и т. д. генерирует тысячи дубликатов. Например:

  • yourwebsite.com/products/girls?category=dresses&color=white

yourwebsite.com/products/girls?category=dresses&color=black

  • yourwebsite.com/dress?style=casual,long-sleeve 

yourwebsite.com/dress?style=casual&style=long-sleeve)

Когда бот находит на сайте практически идентичный контент на разных URL-ах, авторитет сайта/позиция в органическом поиске снижается. Ведь поисковики ценят уникальный контент и ранжируют его выше, а дубликаты только тратят их ресурсы. Поэтому важно оптимальным способом разметить, какой контент на вашем сайте оригинальный, а какой нет. В статье я расскажу о четырех способах канонизации страниц. Мы поговорим о плюсах, минусах и особенностях использования каждого из них.

1. Тег Rel=canonical

Предположим, вы хотите сделать страницу https://yourwesite.com/page.php/ канонической. Для этого добавьте элемент link с атрибутом rel="canonical" и ссылку на каноническую страницу в заголовок head всех дубликатов:

Использование тега в коде

Если у канонической страницы есть вариант для мобильных устройств, добавьте элемент link с атрибутом rel="alternate" и ссылкой на мобильную версию, например:
link rel="alternate" media="only screen and (max-width: 660px)" href="https://m.yourwesite.com/page.php/"

Элемент link с атрибутом rel="canonical" должны содержать абсолютный URL (полный), а не относительный (сокращенный) адрес.

2. Rel=canonical HTTP header

Тег Rel=canonical канонизирует HTML-страницы. Для других же форматов, как, например, PDF, Google рекомендует прописывать атрибут rel=canonical в HTTP-заголовке. PDF на сайте необходимо канонизировать потому, что боты просматривают и индексируют такие файлы так же, как и HTML страницы.

Этим способом можно воспользоваться только если у вас есть доступ к настройкам сервера. Не буду детально описывать процесс создания rel=canonical HTTP, так как необходимо углубиться в технические детали, и статья растянется страниц на 10. Оставляю ссылку на хорошую статью от MOZ со всеми нюансами внедрения rel="canonical" HTTP Headers. Так же, как и в rel=canonical link, URL-ы в HTTP-заголовке должны быть абсолютными.

3. 301 редирект

301 статус код – это перенаправление пользователей и ботов на другой URL.

Когда лучше применить 301 статус код:

  • смена домена сайта;
  • для ошибки 404 и контента, утратившего актуальность, но имеющего релевантные ссылки и большой трафик;
  • для контента, который переехал на другой URL навсегда.

4. Sitemap/Карта сайта

Sitemap, или по-русски карта сайта — это XML-файл с информацией о местонахождении URL-ов, дате их последнего обновления, частоте обновления и др. Вебмастер Google Джон Мюллер подтвердил, что страницы в картах сайта бот воспринимает как приоритетные для индексации и ранжирования.


«...мы используем URL-ы в sitemap как способ понять, какой URL следует считать каноническим для определенного контента».

Все страницы в этом файле бот считает каноническими

Не добавляйте в Sitemap неканонические страницы.

Как делать НЕ нужно

1. НЕ канонизируйте несколько дубликатов разными способами. Предположим, у вас есть страницы А и В с одинаковым контентом. В body страницы А вы добавляете тег rel=canonical, а страницу В указываете в sitemap (напоминаю, что все страницы в sitemap бот считает каноническими). Теперь бот запутался и потратил время и ресурсы, пытаясь понять, какой же контент считать оригинальным. Не надо так.

2. НЕ используйте rel=canonical link tag/ HTTP header на страницах категорий товаров и фильтров. На коммерческих сайтах товары можно отсортировать по цвету, размеру, бренду и т.д. Если на каждой странице поставить тег canonical, то бот будет ходить по каждому параметру URL-а и тратить краулинговый бюджет там. Страницы сортировки лучше закрыть в robots.txt или в meta “noindex”, в зависимости от размера сайта и его специфики.

3. Не используйте robots.txt для канонизации. Директивы в robots.txt показывают, какие страницы/папки нужно краулить боту, а какие нет. Однако вебмастер Google не рекомендует таким образом канонизировать страницы, ведь бот не может даже зайти на страницу и понять, что это дубликат/оригинал. 


Джон Мюллер о канонических страницах

Источник: Twitter

Джон Мюллер: 

Блокировка через robots.txt работает так, что мы даже не можем сказать, что это дубликаты. Лучше дать поисковой системе понять, что дубликаты есть, но ранжировать нужно страницу с rel=canonical элементом…

4. НЕ линкуйте дубликаты URL-ов внутри вашего сайта. Если вы канонизируете страницу, вы считаете ее более важной. Согласитесь, это странно, если вы ссылаетесь на неканонические/менее важные версии страниц.

5. НЕ вписывайте дубликаты в URL removal tool в Google Search Console. Этот метод временно блокирует доступ ботов не только к дублям, но и к оригинальным версиям.

Инструмент Remove URLs в Search Console

6. НЕ канонизируйте HTTP, если на сайте есть версия страницы с HTTPS-протоколом. Наличие SSL-сертификата (который поддерживает HTTP) является одним из факторов ранжирования Google, поэтому переход на протокол HTTPS повышает позиции страницы в поиске.

Коротко о главном

Итак, канонизация – это способ показать Google, какие страницы предпочтительно показывать в поисковой выдаче.

Используйте эти четыре рекомендованных Google способа канонизации:

  • Rel=canonical link tag – когда нужно канонизировать HTML страницы;
  • Rel=canonical HTTP header – когда нужно канонизировать не HTML-файлы;
  • 301 redirect – когда контент навсегда переезжает на другую страницу;
  • XML Sitemap - чтобы перечислить все канонические страницы на сайте и облегчить боту сканирование (теги canonical также необходимо проставить).

Чтобы оптимизировать краулинговый бюджет и отправить прибыльные страницы в индекс, следуйте этим советам:

  • Не канонизируйте несколько URL-ов с одинаковым контентом разными способами;
  • Нe используйте rel=canonical tag на страницах фильтров;
  • Не используйте robots.txt для канонизации;
  • Не линкуйте дубликаты внутри вашего сайта;
  • Не отправляйте дубликаты страниц в removal tool от GSC;
  • Не канонизируйте HTTP-страницы.

(Голосов: 9, Рейтинг: 4.33)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Ане Макаровой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Дмитрий
    1
    комментарий
    0
    читателей
    Дмитрий
    4 месяца назад
    Здравствуйте, на сайте возможно несколькими путями дойти до почти одинаковой страницы, те отличаться будет только незначительная часть H1, а контент будет одинаковым, дело в применимости автозапчастей к разным автомобилям. Что из этого будет каноничной ссылкой и какие есть пути для решения подобных ситуаций?
    1 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-sedan-2011-2014/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/
    2 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c...
    Здравствуйте, на сайте возможно несколькими путями дойти до почти одинаковой страницы, те отличаться будет только незначительная часть H1, а контент будет одинаковым, дело в применимости автозапчастей к разным автомобилям. Что из этого будет каноничной ссылкой и какие есть пути для решения подобных ситуаций?
    1 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-sedan-2011-2014/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/
    2 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-rest-sedan-2014-n-v-/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/
    -
    0
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Дмитрий
      3 месяца назад
      Дмитрий, добрый день!
      Если вы проставили на странице с автозапчастями  rel=canonical ( а я вижу в коде, что не проставили) или в HTTP хедере, то бот, как правило: выберит ту страницу главной, которую вы указали в  rel=canonical ссылке. Eсли же вы этого не сделали, то бот сам выберит оригинал (алгоритмы, по которым бот это делает, скрыты Googl-ом)
      -
      0
      +
      Ответить
  • Гость
    1
    комментарий
    0
    читателей
    Гость
    4 месяца назад
    А страницы пагнации нужно канонизировать? Или лучше закрыть в robots??
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Гость
      4 месяца назад
      добрый день! Спасибо за ваш вопрос.
      Ответ зависит от тематики сайта - допустим у вас на страницах пагинации меняется только размер/цвет или другие параметры товаров - тогда лучше закрывать пагинацию в роботс.
      если же, например, на первой странице пользователь задал вопрос, а нужный для себя ответ находит на 2-10-20-той странце   (как на форумах, например) - лучше разрешить боту сканировать контент - ведь пользователь тоже может перейти к вам на сайт потому, что в...
      добрый день! Спасибо за ваш вопрос.
      Ответ зависит от тематики сайта - допустим у вас на страницах пагинации меняется только размер/цвет или другие параметры товаров - тогда лучше закрывать пагинацию в роботс.
      если же, например, на первой странице пользователь задал вопрос, а нужный для себя ответ находит на 2-10-20-той странце   (как на форумах, например) - лучше разрешить боту сканировать контент - ведь пользователь тоже может перейти к вам на сайт потому, что видит интересный для себя ответ на 2-10-20-той странице.
      -
      1
      +
      Ответить
  • Сергей Демин
    4
    комментария
    0
    читателей
    Сергей Демин
    4 месяца назад
    не понимаю почему нельзя использовать роботс, зачем поиску видеть дублирующий контент, где логика. зачем тогда вообще нужен этот файл если его нерекомендуется использовать
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      2
      комментария
      0
      читателей
      Ann Yaroshenko
      Сергей Демин
      4 месяца назад
      Сергей, добрый день! Спасибо вам за внимание к моей статье
      Файл роботс.ткс нужно и важно использовать, ведь он показывает что сканировать, а что нет на вашем сайте.  
      1. Почему нельзя использовать роботс. Гугл не рекомендует использовать роботс.ткт как метод канонизации потому, что тогда бот не сможет зайти на страницу (ему директива не позволит) и не поймет как  соотносятся страницы между собой. Но! в SEO ничего не стоит говорить однозначно, команда на...
      Сергей, добрый день! Спасибо вам за внимание к моей статье
      Файл роботс.ткс нужно и важно использовать, ведь он показывает что сканировать, а что нет на вашем сайте.  
      1. Почему нельзя использовать роботс. Гугл не рекомендует использовать роботс.ткт как метод канонизации потому, что тогда бот не сможет зайти на страницу (ему директива не позволит) и не поймет как  соотносятся страницы между собой. Но! в SEO ничего не стоит говорить однозначно, команда нашего краулера рекомендует большим сайтам (от100тыс страниц) все же закрывать страницы в роботс, чтобы бот тратил краулинговый бюджет только на прибыльные страницы. Для сайтов же меньшего размера, краулингового бюджета по опыту анализа лог файлов хватает
      2. Зачем поиску видеть дублирующий контент. Поисковики считают, что дубликаты на сайте - это нормально.  Боту нужно видеть дубликаты, ведь таким образом он понимает как связаны страницы между собой. А теги на странцах помогают ему увидеть какие страницы для вас приоритетные,  а какие в индекс брать не стоит
      -
      0
      +
      Ответить
  • vitalii
    1
    комментарий
    0
    читателей
    vitalii
    4 месяца назад
    почему именно 4-ре способа канонизации вы считаете самыми лучшими? как вы эти способы отбирали?
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      vitalii
      4 месяца назад
      Добрый день! Спасибо за дельный вопрос. Проверять качестово источников важно, согласна с вами!
      именно 4-ре способа канонизации  рекомендует Гугл как оптимальные. Именно поэтому я описала их в статье. Оставляю список на официальный блог Гугл
      support.google.com/webmasters/answer/139066?hl=ru
      -
      1
      +
      Ответить
  • Ксения
    1
    комментарий
    0
    читателей
    Ксения
    5 месяцев назад
    Спасибо за статью! А как понять, правильно ли проставлены Рел теги?
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Ксения
      4 месяца назад
      Добрый день! Спасибо за вопрос
      Я рекомендую проверить теги с помощью кралера. Этот интрумент ищет технические баги на вашем сайте, в том числе  и неправильно проставленые канонические теги. Краулер покажет сколько страниц на сайт канонизировано, закрытые от индексации каниноческие страницы и другие полезные данные для технической оптимизации.
      Вот инструкция как проверить rel=canonical на вашем сайте с помощью краулера JetOctopus
      docs.google.com/document/d/1DEy9o53...
      Добрый день! Спасибо за вопрос
      Я рекомендую проверить теги с помощью кралера. Этот интрумент ищет технические баги на вашем сайте, в том числе  и неправильно проставленые канонические теги. Краулер покажет сколько страниц на сайт канонизировано, закрытые от индексации каниноческие страницы и другие полезные данные для технической оптимизации.
      Вот инструкция как проверить rel=canonical на вашем сайте с помощью краулера JetOctopus
      docs.google.com/document/d/1DEy9o53PXE14-ScUGjeRX7zKBxyntJQROtOje9JiR6c/edit#heading=h.tzv618a70ig1
      -
      0
      +
      Ответить
  • Jenny
    2
    комментария
    0
    читателей
    Jenny
    5 месяцев назад
    Какие методы обычно используют?
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Jenny
      4 месяца назад
      Добрый день! спасибо Вам за вопрос
      Рекомендованые Гуглом способы канонизации таковы:
      1. Тег Rel=canonical
      2. Rel=canonical HTTP header
      3. 301 редирект
      4. карта сайта
      в статье написано когда и как лучше использовать каждый метод
      -
      0
      +
      Ответить
  • Jenny
    2
    комментария
    0
    читателей
    Jenny
    5 месяцев назад
    I'm really interested in ways, that are usually used. Couldn't you tell me your point of view?
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
#SEOnews14: мы празднуем – вы получаете подарки!
Анна Макарова
361
комментарий
0
читателей
Полный профиль
Анна Макарова - Гость, добрый день! С победителями мы связывались сразу после розыгрыша. Если мы вам не написали, значит, ваш номер не выпал. Но не расстраивайтесь, у нас обязательно будут новые розыгрыши!
Что скрывает «Прогноз бюджета Яндекс.Директ»?
Михаил Мухин
9
комментариев
0
читателей
Полный профиль
Михаил Мухин - Дожидаться 100 попыток не будем - не дождемся :) Подведем итоги и опубликуем решение 13 Декабря
Как ускорить сайт на WordPress, чтобы получить 100/100 в Google PageSpeed Insights
Георгий
1
комментарий
0
читателей
Полный профиль
Георгий - Все что рекомендуется в этой статье есть у w.tools. Ни разу не пожалел что подключился. Своя CDN сеть, кеш статики и динамики, минификация js\css и кешируемого html, оптимизация всех типов картинок и еще куча всего полезного. Сайт летает и я не знаю проблем. Могу рекомендовать от души.
Война с дубликатами. Как нужно и как не нужно канонизировать URL
Ann Yaroshenko
5
комментариев
0
читателей
Полный профиль
Ann Yaroshenko - Дмитрий, добрый день! Если вы проставили на странице с автозапчастями rel=canonical ( а я вижу в коде, что не проставили) или в HTTP хедере, то бот, как правило: выберит ту страницу главной, которую вы указали в rel=canonical ссылке. Eсли же вы этого не сделали, то бот сам выберит оригинал (алгоритмы, по которым бот это делает, скрыты Googl-ом)
«Аудит, чтобы ты заплакала…», или Что делать, когда получил сторонний аудит сайта
Евгений
1
комментарий
0
читателей
Полный профиль
Евгений - Воообще, на самом деле здесь двоякое впечатление от таких аудитов. Конечно, для полного глубокого анализа и подготовки рекомендаций по сайту - нужны доступы к системам аналитики и инструментам вебмастера. Но если оценивать подобные аудиты с точки зрения чистого SEO (которое все больше и больше становится лишь малой частью digital-маркетинга, лишь одним из каналов) - они имеют место быть. Но с оговоркой, что они сделаны с учетом анализа конкурентов/отрасли. Современные инструменты и алгоритмы позволяют делать это маркетологам в автоматическом режиме, и даже давать рекомендации - возможностями машинного обучения уже никого не удивишь. Да, полное перечисление "мифического" списка ошибок, построенного по предикативным правилам, да еще и с учетом устаревших особенностей ПС - это явный признак некачественного аудита. В первую очередь потому, что эти "ошибки" следует рассматривать в качестве рекомендаций от ПС (как и говорится в справочнике вебмастера у Яндекса/Google). Однако если эти данные даются с отсылкой на данные о конкурентах, об отрасли, используются методы ML и Natural language processing для обработки исходных данных, кластеризации запросов, классификации страниц/запросов/сайтов, определения структуры документа - такие отчеты имеют право на существование. Но ключевым моментом является то, что подобные инструменты достаточно сложны в разработке, а значит требуют квалифицированных специалистов для их разработки. Которых просто нет у студий рассылающих подобные "сео отчеты". Подобные отчеты по "ошибках" тоже неплохой источник информации, но лишь на 0 этапе анализа сайта. И в принципе, теоретически, возможно почти полное составление "хороших аудитов" без участия маркетолога, на основе лишь открытых данных сайта/внешних источников, но только при соответствующем применении всех современных возможностей анализа данных и рекомендательных систем. И в любом случае подобный "хороший отчет" требует конечного заключения от эксперта.
От мечты стать юристом к собственному SMM-агентству. Как найти себя в современном цифровом мире
Виктор Брухис
5
комментариев
0
читателей
Полный профиль
Виктор Брухис - Статья выглядит так, как пожелали редакторы и интервьюер) Вопросы к интервью подбирал не я)) Хотя, в целом я согласен с вашим видением. А за пожелание удачи большое спасибо!
BDD 2019: Как перестать убивать время на сбор и обработку тонны данных для SEO-аудита
Kosta Bankovski
4
комментария
0
читателей
Полный профиль
Kosta Bankovski - Спасибо за приятные слова! Буду и дальше делиться наработками ;)
Как провести анализ содержания страниц товаров и категорий
Никита Седнин
3
комментария
0
читателей
Полный профиль
Никита Седнин - Спасибо!
Как вывести сайт в ТОП 10 Google в 2019 году
Ирина
8
комментариев
0
читателей
Полный профиль
Ирина - Работают. Как естественные, так и закупные. >Мои сайты в первую очередь заточены на яндекс Соболезную. >Насколько поисковые алгоритмы с гугловскими у него. Разница в 10 лет. Вон в Яше все долбят на ключи, на вхождения и прочий трэш из древностей. А у Гугла, вон почитайте про eat, ymyl Не все понятно но спасибо за ответы. Я так понимаю что с ссылками деть никто точно не знает) Ну это и хорошо вообщем. Самому разбираться как то интересней. Но не всегда. Есть к примеру 2captcha.com/ru и на него 100к ссылок есть. Ну а смысл какой?
Как я пытался купить CRM-систему, но мне ее поленились продать
Kristina
1
комментарий
0
читателей
Полный профиль
Kristina - Очень рекомендую CRM-систему польской фирмы Firmao. Все функции настраиваются в соответствии с индивидуальным потребностям компании! Советую попробовать бесплатную демо-версию, чтобы попробовать все необходимые функции, без лишних кнопок и траты дополнительных финансов! :) Сайт: firmao.ru/info
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
361
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
107
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
79
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
55

Отправьте отзыв!
Отправьте отзыв!