×
Россия +7 (495) 139-20-33

Война с дубликатами. Как нужно и как не нужно канонизировать URL

Россия +7 (495) 139-20-33
Шрифт:
13 22562
Подпишитесь на нас в Telegram

Представьте ситуацию: поисковой бот приходит к вам на сайт, сканирует контент и находит несколько одинаковых страниц. Как боту выбрать лучший вариант для ранжирования?

Бот доверится подсказкам, которые вы ему предоставите (если только вы не будете манипулировать алгоритмами поисковика). Если же вы не укажете, какой URL является каноническим (оригинальным / более важным для вас), бот сделает выбор за вас. А еще бот может расценить дублирующие страницы как одинаково важные. Тогда поисковик потратит краулинговый бюджет на повторяющийся контент, а прибыльные страницы могу в индекс так и не попасть.

Как избежать такого расклада? Ответ может показаться сложным, но в этой статье я объясню все просто. Итак, чтобы бот забрал в индекс выгодные страницы, их нужно канонизировать.

Читайте ниже, что это значит, как это нужно и не нужно делать.

Вы уверены, что у вас на сайте нет дубликатов?

Канонический URL – это страница, которую Google воспринимает как наиболее важную из нескольких дублирующихся URL-ов на сайте. Возможно вы думаете: «Я не копирую URL-ы у себя на сайте, поэтому мне не о чем беспокоиться». На самом деле дубликаты могут быть созданы автоматически. Например, поисковые роботы могут зайти на вашу страницу разными способами:

  • Через протоколы HTTP и HTTPS:

http://www.yourwebsite.com

https://www.yourwebsite.com

  • Через WWW и не WWW:

http://example.com

http://www.example.com/

Как лучше попасть к вам на сайт? Выберите лучший способ и не забудьте рассказать поисковым системам о своем выборе.

Рассмотрим еще один пример, когда множество дубликатов создается на коммерческом сайте автоматически. Сортировка товаров с помощью URL параметров по размеру, цвету, бренду и т. д. генерирует тысячи дубликатов. Например:

  • yourwebsite.com/products/girls?category=dresses&color=white

yourwebsite.com/products/girls?category=dresses&color=black

  • yourwebsite.com/dress?style=casual,long-sleeve 

yourwebsite.com/dress?style=casual&style=long-sleeve)

Когда бот находит на сайте практически идентичный контент на разных URL-ах, авторитет сайта/позиция в органическом поиске снижается. Ведь поисковики ценят уникальный контент и ранжируют его выше, а дубликаты только тратят их ресурсы. Поэтому важно оптимальным способом разметить, какой контент на вашем сайте оригинальный, а какой нет. В статье я расскажу о четырех способах канонизации страниц. Мы поговорим о плюсах, минусах и особенностях использования каждого из них.

1. Тег Rel=canonical

Предположим, вы хотите сделать страницу https://yourwesite.com/page.php/ канонической. Для этого добавьте элемент link с атрибутом rel="canonical" и ссылку на каноническую страницу в заголовок head всех дубликатов:

Использование тега в коде

Если у канонической страницы есть вариант для мобильных устройств, добавьте элемент link с атрибутом rel="alternate" и ссылкой на мобильную версию, например:
link rel="alternate" media="only screen and (max-width: 660px)" href="https://m.yourwesite.com/page.php/"

Элемент link с атрибутом rel="canonical" должны содержать абсолютный URL (полный), а не относительный (сокращенный) адрес.

2. Rel=canonical HTTP header

Тег Rel=canonical канонизирует HTML-страницы. Для других же форматов, как, например, PDF, Google рекомендует прописывать атрибут rel=canonical в HTTP-заголовке. PDF на сайте необходимо канонизировать потому, что боты просматривают и индексируют такие файлы так же, как и HTML страницы.

Этим способом можно воспользоваться только если у вас есть доступ к настройкам сервера. Не буду детально описывать процесс создания rel=canonical HTTP, так как необходимо углубиться в технические детали, и статья растянется страниц на 10. Оставляю ссылку на хорошую статью от MOZ со всеми нюансами внедрения rel="canonical" HTTP Headers. Так же, как и в rel=canonical link, URL-ы в HTTP-заголовке должны быть абсолютными.

3. 301 редирект

301 статус код – это перенаправление пользователей и ботов на другой URL.

Когда лучше применить 301 статус код:

  • смена домена сайта;
  • для ошибки 404 и контента, утратившего актуальность, но имеющего релевантные ссылки и большой трафик;
  • для контента, который переехал на другой URL навсегда.

4. Sitemap/Карта сайта

Sitemap, или по-русски карта сайта — это XML-файл с информацией о местонахождении URL-ов, дате их последнего обновления, частоте обновления и др. Вебмастер Google Джон Мюллер подтвердил, что страницы в картах сайта бот воспринимает как приоритетные для индексации и ранжирования.


«...мы используем URL-ы в sitemap как способ понять, какой URL следует считать каноническим для определенного контента».

Все страницы в этом файле бот считает каноническими

Не добавляйте в Sitemap неканонические страницы.

Как делать НЕ нужно

1. НЕ канонизируйте несколько дубликатов разными способами. Предположим, у вас есть страницы А и В с одинаковым контентом. В body страницы А вы добавляете тег rel=canonical, а страницу В указываете в sitemap (напоминаю, что все страницы в sitemap бот считает каноническими). Теперь бот запутался и потратил время и ресурсы, пытаясь понять, какой же контент считать оригинальным. Не надо так.

2. НЕ используйте rel=canonical link tag/ HTTP header на страницах категорий товаров и фильтров. На коммерческих сайтах товары можно отсортировать по цвету, размеру, бренду и т.д. Если на каждой странице поставить тег canonical, то бот будет ходить по каждому параметру URL-а и тратить краулинговый бюджет там. Страницы сортировки лучше закрыть в robots.txt или в meta “noindex”, в зависимости от размера сайта и его специфики.

3. Не используйте robots.txt для канонизации. Директивы в robots.txt показывают, какие страницы/папки нужно краулить боту, а какие нет. Однако вебмастер Google не рекомендует таким образом канонизировать страницы, ведь бот не может даже зайти на страницу и понять, что это дубликат/оригинал. 


Джон Мюллер о канонических страницах

Источник: Twitter

Джон Мюллер: 

Блокировка через robots.txt работает так, что мы даже не можем сказать, что это дубликаты. Лучше дать поисковой системе понять, что дубликаты есть, но ранжировать нужно страницу с rel=canonical элементом…

4. НЕ линкуйте дубликаты URL-ов внутри вашего сайта. Если вы канонизируете страницу, вы считаете ее более важной. Согласитесь, это странно, если вы ссылаетесь на неканонические/менее важные версии страниц.

5. НЕ вписывайте дубликаты в URL removal tool в Google Search Console. Этот метод временно блокирует доступ ботов не только к дублям, но и к оригинальным версиям.

Инструмент Remove URLs в Search Console

6. НЕ канонизируйте HTTP, если на сайте есть версия страницы с HTTPS-протоколом. Наличие SSL-сертификата (который поддерживает HTTP) является одним из факторов ранжирования Google, поэтому переход на протокол HTTPS повышает позиции страницы в поиске.

Коротко о главном

Итак, канонизация – это способ показать Google, какие страницы предпочтительно показывать в поисковой выдаче.

Используйте эти четыре рекомендованных Google способа канонизации:

  • Rel=canonical link tag – когда нужно канонизировать HTML страницы;
  • Rel=canonical HTTP header – когда нужно канонизировать не HTML-файлы;
  • 301 redirect – когда контент навсегда переезжает на другую страницу;
  • XML Sitemap - чтобы перечислить все канонические страницы на сайте и облегчить боту сканирование (теги canonical также необходимо проставить).

Чтобы оптимизировать краулинговый бюджет и отправить прибыльные страницы в индекс, следуйте этим советам:

  • Не канонизируйте несколько URL-ов с одинаковым контентом разными способами;
  • Нe используйте rel=canonical tag на страницах фильтров;
  • Не используйте robots.txt для канонизации;
  • Не линкуйте дубликаты внутри вашего сайта;
  • Не отправляйте дубликаты страниц в removal tool от GSC;
  • Не канонизируйте HTTP-страницы.

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Дмитрий
    1
    комментарий
    0
    читателей
    Дмитрий
    больше года назад
    Здравствуйте, на сайте возможно несколькими путями дойти до почти одинаковой страницы, те отличаться будет только незначительная часть H1, а контент будет одинаковым, дело в применимости автозапчастей к разным автомобилям. Что из этого будет каноничной ссылкой и какие есть пути для решения подобных ситуаций?
    1 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-sedan-2011-2014/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/
    2 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c...
    Здравствуйте, на сайте возможно несколькими путями дойти до почти одинаковой страницы, те отличаться будет только незначительная часть H1, а контент будет одинаковым, дело в применимости автозапчастей к разным автомобилям. Что из этого будет каноничной ссылкой и какие есть пути для решения подобных ситуаций?
    1 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-sedan-2011-2014/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/
    2 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-rest-sedan-2014-n-v-/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/
    -
    0
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Дмитрий
      больше года назад
      Дмитрий, добрый день!
      Если вы проставили на странице с автозапчастями  rel=canonical ( а я вижу в коде, что не проставили) или в HTTP хедере, то бот, как правило: выберит ту страницу главной, которую вы указали в  rel=canonical ссылке. Eсли же вы этого не сделали, то бот сам выберит оригинал (алгоритмы, по которым бот это делает, скрыты Googl-ом)
      -
      0
      +
      Ответить
  • Гость
    1
    комментарий
    0
    читателей
    Гость
    больше года назад
    А страницы пагнации нужно канонизировать? Или лучше закрыть в robots??
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Гость
      больше года назад
      добрый день! Спасибо за ваш вопрос.
      Ответ зависит от тематики сайта - допустим у вас на страницах пагинации меняется только размер/цвет или другие параметры товаров - тогда лучше закрывать пагинацию в роботс.
      если же, например, на первой странице пользователь задал вопрос, а нужный для себя ответ находит на 2-10-20-той странце   (как на форумах, например) - лучше разрешить боту сканировать контент - ведь пользователь тоже может перейти к вам на сайт потому, что в...
      добрый день! Спасибо за ваш вопрос.
      Ответ зависит от тематики сайта - допустим у вас на страницах пагинации меняется только размер/цвет или другие параметры товаров - тогда лучше закрывать пагинацию в роботс.
      если же, например, на первой странице пользователь задал вопрос, а нужный для себя ответ находит на 2-10-20-той странце   (как на форумах, например) - лучше разрешить боту сканировать контент - ведь пользователь тоже может перейти к вам на сайт потому, что видит интересный для себя ответ на 2-10-20-той странице.
      -
      1
      +
      Ответить
  • Сергей Демин
    9
    комментариев
    0
    читателей
    Сергей Демин
    больше года назад
    не понимаю почему нельзя использовать роботс, зачем поиску видеть дублирующий контент, где логика. зачем тогда вообще нужен этот файл если его нерекомендуется использовать
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      2
      комментария
      0
      читателей
      Ann Yaroshenko
      Сергей Демин
      больше года назад
      Сергей, добрый день! Спасибо вам за внимание к моей статье
      Файл роботс.ткс нужно и важно использовать, ведь он показывает что сканировать, а что нет на вашем сайте.  
      1. Почему нельзя использовать роботс. Гугл не рекомендует использовать роботс.ткт как метод канонизации потому, что тогда бот не сможет зайти на страницу (ему директива не позволит) и не поймет как  соотносятся страницы между собой. Но! в SEO ничего не стоит говорить однозначно, команда на...
      Сергей, добрый день! Спасибо вам за внимание к моей статье
      Файл роботс.ткс нужно и важно использовать, ведь он показывает что сканировать, а что нет на вашем сайте.  
      1. Почему нельзя использовать роботс. Гугл не рекомендует использовать роботс.ткт как метод канонизации потому, что тогда бот не сможет зайти на страницу (ему директива не позволит) и не поймет как  соотносятся страницы между собой. Но! в SEO ничего не стоит говорить однозначно, команда нашего краулера рекомендует большим сайтам (от100тыс страниц) все же закрывать страницы в роботс, чтобы бот тратил краулинговый бюджет только на прибыльные страницы. Для сайтов же меньшего размера, краулингового бюджета по опыту анализа лог файлов хватает
      2. Зачем поиску видеть дублирующий контент. Поисковики считают, что дубликаты на сайте - это нормально.  Боту нужно видеть дубликаты, ведь таким образом он понимает как связаны страницы между собой. А теги на странцах помогают ему увидеть какие страницы для вас приоритетные,  а какие в индекс брать не стоит
      -
      1
      +
      Ответить
  • vitalii
    1
    комментарий
    0
    читателей
    vitalii
    больше года назад
    почему именно 4-ре способа канонизации вы считаете самыми лучшими? как вы эти способы отбирали?
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      vitalii
      больше года назад
      Добрый день! Спасибо за дельный вопрос. Проверять качестово источников важно, согласна с вами!
      именно 4-ре способа канонизации  рекомендует Гугл как оптимальные. Именно поэтому я описала их в статье. Оставляю список на официальный блог Гугл
      support.google.com/webmasters/answer/139066?hl=ru
      -
      1
      +
      Ответить
  • Ксения
    1
    комментарий
    0
    читателей
    Ксения
    больше года назад
    Спасибо за статью! А как понять, правильно ли проставлены Рел теги?
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Ксения
      больше года назад
      Добрый день! Спасибо за вопрос
      Я рекомендую проверить теги с помощью кралера. Этот интрумент ищет технические баги на вашем сайте, в том числе  и неправильно проставленые канонические теги. Краулер покажет сколько страниц на сайт канонизировано, закрытые от индексации каниноческие страницы и другие полезные данные для технической оптимизации.
      Вот инструкция как проверить rel=canonical на вашем сайте с помощью краулера JetOctopus
      docs.google.com/document/d/1DEy9o53...
      Добрый день! Спасибо за вопрос
      Я рекомендую проверить теги с помощью кралера. Этот интрумент ищет технические баги на вашем сайте, в том числе  и неправильно проставленые канонические теги. Краулер покажет сколько страниц на сайт канонизировано, закрытые от индексации каниноческие страницы и другие полезные данные для технической оптимизации.
      Вот инструкция как проверить rel=canonical на вашем сайте с помощью краулера JetOctopus
      docs.google.com/document/d/1DEy9o53PXE14-ScUGjeRX7zKBxyntJQROtOje9JiR6c/edit#heading=h.tzv618a70ig1
      -
      0
      +
      Ответить
  • Jenny
    2
    комментария
    0
    читателей
    Jenny
    больше года назад
    Какие методы обычно используют?
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Jenny
      больше года назад
      Добрый день! спасибо Вам за вопрос
      Рекомендованые Гуглом способы канонизации таковы:
      1. Тег Rel=canonical
      2. Rel=canonical HTTP header
      3. 301 редирект
      4. карта сайта
      в статье написано когда и как лучше использовать каждый метод
      -
      0
      +
      Ответить
  • Jenny
    2
    комментария
    0
    читателей
    Jenny
    больше года назад
    I'm really interested in ways, that are usually used. Couldn't you tell me your point of view?
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Накрутка поведенческих факторов: дорого, сложно, но можно. Если очень хочется
Oleg_bobr2012
1
комментарий
0
читателей
Полный профиль
Oleg_bobr2012 - Мда...Может Анне сразу в Яндекс написать кейсы по накрутке ПФ. Я бы такого сотрудника гнал вон.
28 способов повысить конверсию интернет-магазина
Татьяна
1
комментарий
0
читателей
Полный профиль
Татьяна - Очень действенные рекомендации представлены в статье! Всё четко расписано и легко внедряемо в работу интернет-магазинов.Удобство и наглядность+различные бонусы и скидки-именно то, что и цепляет покупателя.
7 актуальных сервисов для анализа сайта: сравнительная характеристика
Jenimeon
1
комментарий
0
читателей
Полный профиль
Jenimeon - SimilarWeb один из моих фаворитов, частенько им пользуюсь. Ценник не малый, но функционал хороший. Be1 тоже годный.
Как онлайн-магазинам получать максимум трафика с помощью Поиска по товарам Яндекса
Гость из Тюмени
1
комментарий
0
читателей
Полный профиль
Гость из Тюмени - Производим пиломатериалы под заказ, от 1 до 14 дней. Яндекс постоянно банит наш яндекс фид по причине отсутствия товара на складе во время своих тайных проверок. Не возможно донести до модератора, что мы работаем под заказ, поэтому товара нет на складе, т.е. пришёл заказ - мы изготовили.
Создали ресурс для металлургов, который позволяет следить за аналитикой рынка и осуществлять продажи
Наталья Сталь
3
комментария
0
читателей
Полный профиль
Наталья Сталь -
Какие сайты лидировали в поиске Яндекса и Google в 2023 году
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Если что по рейтингу вы не правы, есть ядро по которому производиться оценка и вы можете по нему самостоятельно все посмотреть. Единственный объективный рейтинг по SEO. Других не знаю Ну я вам скажу что это не так и в предыдущие года сайт моего клиента попадал в рейтинг, при чем несколько раз. И я прекрасно знал еще до объявления результатов кто лидер - рейтинг прозрачный, есть фразы по которым набираются баллы. В этом году наш сайт не попал в рейтинг например и это было понятно, что не попадет (по статистике позиций)
5 способов увидеть сайт глазами поисковика: анализируем скрытый контент и cloaking
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Сейчас клоаку прячут, так что под нее можно глянуть только с гуггловских ip. Сейчас только гуггл сервисами можно глянуть
Как легко определять спрос на продукцию. Проводим мини-исследование, привлекая ChatGPT
Гость
1
комментарий
0
читателей
Полный профиль
Гость - норм статья, надо юзать и не бояться
Число доменов в зоне .ru достигло рекордных показателей с 2017 года
Валерия Власова
3
комментария
0
читателей
Полный профиль
Валерия Власова - Благодарим за внимательность, в зоне .рф зарегистрировано 762 тыс. доменов.
Видеокурс по Telegram Ads: кому подходит реклама в мессенджере
eLama
1
комментарий
0
читателей
Полный профиль
eLama - Елена, добрый день! Нам очень жаль, что у вас сложилось такое впечатление о работе нашего сервиса. Мы бы хотели разобраться в возникшей ситуации. Будем признательны, если вы пришлете ваш ID в eLama нам в личные сообщения ВКонтакте, чтобы мы могли проверить информацию по вашему кабинету: vk.com/elama
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
386
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
120
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
64
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!