×
Россия +7 (495) 139-20-33

Война с дубликатами. Как нужно и как не нужно канонизировать URL

Россия +7 (495) 139-20-33
Шрифт:
13 21857
Подпишитесь на нас в Telegram

Представьте ситуацию: поисковой бот приходит к вам на сайт, сканирует контент и находит несколько одинаковых страниц. Как боту выбрать лучший вариант для ранжирования?

Бот доверится подсказкам, которые вы ему предоставите (если только вы не будете манипулировать алгоритмами поисковика). Если же вы не укажете, какой URL является каноническим (оригинальным / более важным для вас), бот сделает выбор за вас. А еще бот может расценить дублирующие страницы как одинаково важные. Тогда поисковик потратит краулинговый бюджет на повторяющийся контент, а прибыльные страницы могу в индекс так и не попасть.

Как избежать такого расклада? Ответ может показаться сложным, но в этой статье я объясню все просто. Итак, чтобы бот забрал в индекс выгодные страницы, их нужно канонизировать.

Читайте ниже, что это значит, как это нужно и не нужно делать.

Вы уверены, что у вас на сайте нет дубликатов?

Канонический URL – это страница, которую Google воспринимает как наиболее важную из нескольких дублирующихся URL-ов на сайте. Возможно вы думаете: «Я не копирую URL-ы у себя на сайте, поэтому мне не о чем беспокоиться». На самом деле дубликаты могут быть созданы автоматически. Например, поисковые роботы могут зайти на вашу страницу разными способами:

  • Через протоколы HTTP и HTTPS:

http://www.yourwebsite.com

https://www.yourwebsite.com

  • Через WWW и не WWW:

http://example.com

http://www.example.com/

Как лучше попасть к вам на сайт? Выберите лучший способ и не забудьте рассказать поисковым системам о своем выборе.

Рассмотрим еще один пример, когда множество дубликатов создается на коммерческом сайте автоматически. Сортировка товаров с помощью URL параметров по размеру, цвету, бренду и т. д. генерирует тысячи дубликатов. Например:

  • yourwebsite.com/products/girls?category=dresses&color=white

yourwebsite.com/products/girls?category=dresses&color=black

  • yourwebsite.com/dress?style=casual,long-sleeve 

yourwebsite.com/dress?style=casual&style=long-sleeve)

Когда бот находит на сайте практически идентичный контент на разных URL-ах, авторитет сайта/позиция в органическом поиске снижается. Ведь поисковики ценят уникальный контент и ранжируют его выше, а дубликаты только тратят их ресурсы. Поэтому важно оптимальным способом разметить, какой контент на вашем сайте оригинальный, а какой нет. В статье я расскажу о четырех способах канонизации страниц. Мы поговорим о плюсах, минусах и особенностях использования каждого из них.

1. Тег Rel=canonical

Предположим, вы хотите сделать страницу https://yourwesite.com/page.php/ канонической. Для этого добавьте элемент link с атрибутом rel="canonical" и ссылку на каноническую страницу в заголовок head всех дубликатов:

Использование тега в коде

Если у канонической страницы есть вариант для мобильных устройств, добавьте элемент link с атрибутом rel="alternate" и ссылкой на мобильную версию, например:
link rel="alternate" media="only screen and (max-width: 660px)" href="https://m.yourwesite.com/page.php/"

Элемент link с атрибутом rel="canonical" должны содержать абсолютный URL (полный), а не относительный (сокращенный) адрес.

2. Rel=canonical HTTP header

Тег Rel=canonical канонизирует HTML-страницы. Для других же форматов, как, например, PDF, Google рекомендует прописывать атрибут rel=canonical в HTTP-заголовке. PDF на сайте необходимо канонизировать потому, что боты просматривают и индексируют такие файлы так же, как и HTML страницы.

Этим способом можно воспользоваться только если у вас есть доступ к настройкам сервера. Не буду детально описывать процесс создания rel=canonical HTTP, так как необходимо углубиться в технические детали, и статья растянется страниц на 10. Оставляю ссылку на хорошую статью от MOZ со всеми нюансами внедрения rel="canonical" HTTP Headers. Так же, как и в rel=canonical link, URL-ы в HTTP-заголовке должны быть абсолютными.

3. 301 редирект

301 статус код – это перенаправление пользователей и ботов на другой URL.

Когда лучше применить 301 статус код:

  • смена домена сайта;
  • для ошибки 404 и контента, утратившего актуальность, но имеющего релевантные ссылки и большой трафик;
  • для контента, который переехал на другой URL навсегда.

4. Sitemap/Карта сайта

Sitemap, или по-русски карта сайта — это XML-файл с информацией о местонахождении URL-ов, дате их последнего обновления, частоте обновления и др. Вебмастер Google Джон Мюллер подтвердил, что страницы в картах сайта бот воспринимает как приоритетные для индексации и ранжирования.


«...мы используем URL-ы в sitemap как способ понять, какой URL следует считать каноническим для определенного контента».

Все страницы в этом файле бот считает каноническими

Не добавляйте в Sitemap неканонические страницы.

Как делать НЕ нужно

1. НЕ канонизируйте несколько дубликатов разными способами. Предположим, у вас есть страницы А и В с одинаковым контентом. В body страницы А вы добавляете тег rel=canonical, а страницу В указываете в sitemap (напоминаю, что все страницы в sitemap бот считает каноническими). Теперь бот запутался и потратил время и ресурсы, пытаясь понять, какой же контент считать оригинальным. Не надо так.

2. НЕ используйте rel=canonical link tag/ HTTP header на страницах категорий товаров и фильтров. На коммерческих сайтах товары можно отсортировать по цвету, размеру, бренду и т.д. Если на каждой странице поставить тег canonical, то бот будет ходить по каждому параметру URL-а и тратить краулинговый бюджет там. Страницы сортировки лучше закрыть в robots.txt или в meta “noindex”, в зависимости от размера сайта и его специфики.

3. Не используйте robots.txt для канонизации. Директивы в robots.txt показывают, какие страницы/папки нужно краулить боту, а какие нет. Однако вебмастер Google не рекомендует таким образом канонизировать страницы, ведь бот не может даже зайти на страницу и понять, что это дубликат/оригинал. 


Джон Мюллер о канонических страницах

Источник: Twitter

Джон Мюллер: 

Блокировка через robots.txt работает так, что мы даже не можем сказать, что это дубликаты. Лучше дать поисковой системе понять, что дубликаты есть, но ранжировать нужно страницу с rel=canonical элементом…

4. НЕ линкуйте дубликаты URL-ов внутри вашего сайта. Если вы канонизируете страницу, вы считаете ее более важной. Согласитесь, это странно, если вы ссылаетесь на неканонические/менее важные версии страниц.

5. НЕ вписывайте дубликаты в URL removal tool в Google Search Console. Этот метод временно блокирует доступ ботов не только к дублям, но и к оригинальным версиям.

Инструмент Remove URLs в Search Console

6. НЕ канонизируйте HTTP, если на сайте есть версия страницы с HTTPS-протоколом. Наличие SSL-сертификата (который поддерживает HTTP) является одним из факторов ранжирования Google, поэтому переход на протокол HTTPS повышает позиции страницы в поиске.

Коротко о главном

Итак, канонизация – это способ показать Google, какие страницы предпочтительно показывать в поисковой выдаче.

Используйте эти четыре рекомендованных Google способа канонизации:

  • Rel=canonical link tag – когда нужно канонизировать HTML страницы;
  • Rel=canonical HTTP header – когда нужно канонизировать не HTML-файлы;
  • 301 redirect – когда контент навсегда переезжает на другую страницу;
  • XML Sitemap - чтобы перечислить все канонические страницы на сайте и облегчить боту сканирование (теги canonical также необходимо проставить).

Чтобы оптимизировать краулинговый бюджет и отправить прибыльные страницы в индекс, следуйте этим советам:

  • Не канонизируйте несколько URL-ов с одинаковым контентом разными способами;
  • Нe используйте rel=canonical tag на страницах фильтров;
  • Не используйте robots.txt для канонизации;
  • Не линкуйте дубликаты внутри вашего сайта;
  • Не отправляйте дубликаты страниц в removal tool от GSC;
  • Не канонизируйте HTTP-страницы.

Друзья, теперь вы можете поддержать SEOnews https://pay.cloudtips.ru/p/8828f772
Ваши донаты помогут нам развивать издание и дальше радовать вас полезным контентом.

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Дмитрий
    1
    комментарий
    0
    читателей
    Дмитрий
    больше года назад
    Здравствуйте, на сайте возможно несколькими путями дойти до почти одинаковой страницы, те отличаться будет только незначительная часть H1, а контент будет одинаковым, дело в применимости автозапчастей к разным автомобилям. Что из этого будет каноничной ссылкой и какие есть пути для решения подобных ситуаций?
    1 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-sedan-2011-2014/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/
    2 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c...
    Здравствуйте, на сайте возможно несколькими путями дойти до почти одинаковой страницы, те отличаться будет только незначительная часть H1, а контент будет одинаковым, дело в применимости автозапчастей к разным автомобилям. Что из этого будет каноничной ссылкой и какие есть пути для решения подобных ситуаций?
    1 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-sedan-2011-2014/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/
    2 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-rest-sedan-2014-n-v-/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/
    -
    0
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Дмитрий
      больше года назад
      Дмитрий, добрый день!
      Если вы проставили на странице с автозапчастями  rel=canonical ( а я вижу в коде, что не проставили) или в HTTP хедере, то бот, как правило: выберит ту страницу главной, которую вы указали в  rel=canonical ссылке. Eсли же вы этого не сделали, то бот сам выберит оригинал (алгоритмы, по которым бот это делает, скрыты Googl-ом)
      -
      0
      +
      Ответить
  • Гость
    1
    комментарий
    0
    читателей
    Гость
    больше года назад
    А страницы пагнации нужно канонизировать? Или лучше закрыть в robots??
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Гость
      больше года назад
      добрый день! Спасибо за ваш вопрос.
      Ответ зависит от тематики сайта - допустим у вас на страницах пагинации меняется только размер/цвет или другие параметры товаров - тогда лучше закрывать пагинацию в роботс.
      если же, например, на первой странице пользователь задал вопрос, а нужный для себя ответ находит на 2-10-20-той странце   (как на форумах, например) - лучше разрешить боту сканировать контент - ведь пользователь тоже может перейти к вам на сайт потому, что в...
      добрый день! Спасибо за ваш вопрос.
      Ответ зависит от тематики сайта - допустим у вас на страницах пагинации меняется только размер/цвет или другие параметры товаров - тогда лучше закрывать пагинацию в роботс.
      если же, например, на первой странице пользователь задал вопрос, а нужный для себя ответ находит на 2-10-20-той странце   (как на форумах, например) - лучше разрешить боту сканировать контент - ведь пользователь тоже может перейти к вам на сайт потому, что видит интересный для себя ответ на 2-10-20-той странице.
      -
      1
      +
      Ответить
  • Сергей Демин
    9
    комментариев
    0
    читателей
    Сергей Демин
    больше года назад
    не понимаю почему нельзя использовать роботс, зачем поиску видеть дублирующий контент, где логика. зачем тогда вообще нужен этот файл если его нерекомендуется использовать
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      2
      комментария
      0
      читателей
      Ann Yaroshenko
      Сергей Демин
      больше года назад
      Сергей, добрый день! Спасибо вам за внимание к моей статье
      Файл роботс.ткс нужно и важно использовать, ведь он показывает что сканировать, а что нет на вашем сайте.  
      1. Почему нельзя использовать роботс. Гугл не рекомендует использовать роботс.ткт как метод канонизации потому, что тогда бот не сможет зайти на страницу (ему директива не позволит) и не поймет как  соотносятся страницы между собой. Но! в SEO ничего не стоит говорить однозначно, команда на...
      Сергей, добрый день! Спасибо вам за внимание к моей статье
      Файл роботс.ткс нужно и важно использовать, ведь он показывает что сканировать, а что нет на вашем сайте.  
      1. Почему нельзя использовать роботс. Гугл не рекомендует использовать роботс.ткт как метод канонизации потому, что тогда бот не сможет зайти на страницу (ему директива не позволит) и не поймет как  соотносятся страницы между собой. Но! в SEO ничего не стоит говорить однозначно, команда нашего краулера рекомендует большим сайтам (от100тыс страниц) все же закрывать страницы в роботс, чтобы бот тратил краулинговый бюджет только на прибыльные страницы. Для сайтов же меньшего размера, краулингового бюджета по опыту анализа лог файлов хватает
      2. Зачем поиску видеть дублирующий контент. Поисковики считают, что дубликаты на сайте - это нормально.  Боту нужно видеть дубликаты, ведь таким образом он понимает как связаны страницы между собой. А теги на странцах помогают ему увидеть какие страницы для вас приоритетные,  а какие в индекс брать не стоит
      -
      1
      +
      Ответить
  • vitalii
    1
    комментарий
    0
    читателей
    vitalii
    больше года назад
    почему именно 4-ре способа канонизации вы считаете самыми лучшими? как вы эти способы отбирали?
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      vitalii
      больше года назад
      Добрый день! Спасибо за дельный вопрос. Проверять качестово источников важно, согласна с вами!
      именно 4-ре способа канонизации  рекомендует Гугл как оптимальные. Именно поэтому я описала их в статье. Оставляю список на официальный блог Гугл
      support.google.com/webmasters/answer/139066?hl=ru
      -
      1
      +
      Ответить
  • Ксения
    1
    комментарий
    0
    читателей
    Ксения
    больше года назад
    Спасибо за статью! А как понять, правильно ли проставлены Рел теги?
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Ксения
      больше года назад
      Добрый день! Спасибо за вопрос
      Я рекомендую проверить теги с помощью кралера. Этот интрумент ищет технические баги на вашем сайте, в том числе  и неправильно проставленые канонические теги. Краулер покажет сколько страниц на сайт канонизировано, закрытые от индексации каниноческие страницы и другие полезные данные для технической оптимизации.
      Вот инструкция как проверить rel=canonical на вашем сайте с помощью краулера JetOctopus
      docs.google.com/document/d/1DEy9o53...
      Добрый день! Спасибо за вопрос
      Я рекомендую проверить теги с помощью кралера. Этот интрумент ищет технические баги на вашем сайте, в том числе  и неправильно проставленые канонические теги. Краулер покажет сколько страниц на сайт канонизировано, закрытые от индексации каниноческие страницы и другие полезные данные для технической оптимизации.
      Вот инструкция как проверить rel=canonical на вашем сайте с помощью краулера JetOctopus
      docs.google.com/document/d/1DEy9o53PXE14-ScUGjeRX7zKBxyntJQROtOje9JiR6c/edit#heading=h.tzv618a70ig1
      -
      0
      +
      Ответить
  • Jenny
    2
    комментария
    0
    читателей
    Jenny
    больше года назад
    Какие методы обычно используют?
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Jenny
      больше года назад
      Добрый день! спасибо Вам за вопрос
      Рекомендованые Гуглом способы канонизации таковы:
      1. Тег Rel=canonical
      2. Rel=canonical HTTP header
      3. 301 редирект
      4. карта сайта
      в статье написано когда и как лучше использовать каждый метод
      -
      0
      +
      Ответить
  • Jenny
    2
    комментария
    0
    читателей
    Jenny
    больше года назад
    I'm really interested in ways, that are usually used. Couldn't you tell me your point of view?
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Примеры использования ChatGPT в SEO-стратегии
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Если кто то хочет протестировать Cat GPT в SЕО проектах на базе нашего агенства, приглашаем наудалкнную работу Tg: @thegoodlink
Эффективное продвижение сайтов: 10 лет опыта в SEO в Рунете и Буржунете
Павел Горбунов
11
комментариев
0
читателей
Полный профиль
Павел Горбунов - Вы учтите, что за такие водные статьи хейтеры повалят жесткие. Сеошники воды не любят.
Как онлайн-магазинам получать максимум трафика с помощью Поиска по товарам Яндекса
Гость из Тюмени
1
комментарий
0
читателей
Полный профиль
Гость из Тюмени - Производим пиломатериалы под заказ, от 1 до 14 дней. Яндекс постоянно банит наш яндекс фид по причине отсутствия товара на складе во время своих тайных проверок. Не возможно донести до модератора, что мы работаем под заказ, поэтому товара нет на складе, т.е. пришёл заказ - мы изготовили.
Особенности внутренней перелинковки для крупных сайтов
Злобная булочка
1
комментарий
0
читателей
Полный профиль
Злобная булочка - Ну это ж ингейт)
'SEO глазами клиентов 2023'
Валерия Власова
2
комментария
0
читателей
Полный профиль
Валерия Власова - Приветствую! На момент проверки сайтов клиентов получились такие показатели. Возможно, самостоятельно вы проверяете свои проекты по другим параметрам. Поэтому получились разные результаты.
Увеличили трафик в 4 раза с помощью узких ключей и контентного SEO: кейс ОТП Банка
Бурлуцкий Сергей
1
комментарий
0
читателей
Полный профиль
Бурлуцкий Сергей - В работе по ссылочному делаем упор по получению естественных ссылок в сочетании с краудом. Более подробно об этом мы рассказывали на нашем недавнем митапе - www.youtube.com/watch?v=dbl_vFHWqWQ (Второй доклад).
Что такое Яндекс Советник, и кому от него жить хорошо
Мама Стифлера
1
комментарий
0
читателей
Полный профиль
Мама Стифлера - Вызывает сожаление, что вы не осознаете, что Яндекс.Советник может быть рассмотрен как форма рэкета, которая заставляет компании, размещающиеся в Яндекс.Маркете, выплачивать дополнительные финансовые средства, повышая в конечном итоге прибыль Яндекс.Маркета, но не принесет пользы для посетителей сайта.
Как быстро улучшить рейтинг компании на сайтах отзовиков
Zorgy Rihard
2
комментария
0
читателей
Полный профиль
Zorgy Rihard - давай я
Самые быстрорастущие доменные зоны в 2023 году. Исследование RU-CENTER
Станислав
1
комментарий
0
читателей
Полный профиль
Станислав - С 2019 года количество доменов в зоне .ru остается на одном и том же уровне - около 5 млн. Все изменения на уровне 1% от этого объема в плюс или минус
Как за месяц увеличить количество заявок в 1,7 раза, а их стоимость снизить в 1,6 раза. Кейс
Sputniki
1
комментарий
0
читателей
Полный профиль
Sputniki - Добрый день, Василий. Спасибо за вашу наблюдательность. На самом деле ошибки нет. Если вы сталкивались на практике с выгрузкой заявок из кабинета VK Рекламы, то заметите, что количество заявок не бьется с цифрами по рекламному кабинету (по статистике). Поэтому средняя цена заявки получается ниже чем у самых эффективных трех.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
386
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
120
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
64
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!