×
Россия +7 (495) 139-20-33

Война с дубликатами. Как нужно и как не нужно канонизировать URL

Россия +7 (495) 139-20-33
Шрифт:
13 22697
Подпишитесь на нас в Telegram

Представьте ситуацию: поисковой бот приходит к вам на сайт, сканирует контент и находит несколько одинаковых страниц. Как боту выбрать лучший вариант для ранжирования?

Бот доверится подсказкам, которые вы ему предоставите (если только вы не будете манипулировать алгоритмами поисковика). Если же вы не укажете, какой URL является каноническим (оригинальным / более важным для вас), бот сделает выбор за вас. А еще бот может расценить дублирующие страницы как одинаково важные. Тогда поисковик потратит краулинговый бюджет на повторяющийся контент, а прибыльные страницы могу в индекс так и не попасть.

Как избежать такого расклада? Ответ может показаться сложным, но в этой статье я объясню все просто. Итак, чтобы бот забрал в индекс выгодные страницы, их нужно канонизировать.

Читайте ниже, что это значит, как это нужно и не нужно делать.

Вы уверены, что у вас на сайте нет дубликатов?

Канонический URL – это страница, которую Google воспринимает как наиболее важную из нескольких дублирующихся URL-ов на сайте. Возможно вы думаете: «Я не копирую URL-ы у себя на сайте, поэтому мне не о чем беспокоиться». На самом деле дубликаты могут быть созданы автоматически. Например, поисковые роботы могут зайти на вашу страницу разными способами:

  • Через протоколы HTTP и HTTPS:

http://www.yourwebsite.com

https://www.yourwebsite.com

  • Через WWW и не WWW:

http://example.com

http://www.example.com/

Как лучше попасть к вам на сайт? Выберите лучший способ и не забудьте рассказать поисковым системам о своем выборе.

Рассмотрим еще один пример, когда множество дубликатов создается на коммерческом сайте автоматически. Сортировка товаров с помощью URL параметров по размеру, цвету, бренду и т. д. генерирует тысячи дубликатов. Например:

  • yourwebsite.com/products/girls?category=dresses&color=white

yourwebsite.com/products/girls?category=dresses&color=black

  • yourwebsite.com/dress?style=casual,long-sleeve 

yourwebsite.com/dress?style=casual&style=long-sleeve)

Когда бот находит на сайте практически идентичный контент на разных URL-ах, авторитет сайта/позиция в органическом поиске снижается. Ведь поисковики ценят уникальный контент и ранжируют его выше, а дубликаты только тратят их ресурсы. Поэтому важно оптимальным способом разметить, какой контент на вашем сайте оригинальный, а какой нет. В статье я расскажу о четырех способах канонизации страниц. Мы поговорим о плюсах, минусах и особенностях использования каждого из них.

1. Тег Rel=canonical

Предположим, вы хотите сделать страницу https://yourwesite.com/page.php/ канонической. Для этого добавьте элемент link с атрибутом rel="canonical" и ссылку на каноническую страницу в заголовок head всех дубликатов:

Использование тега в коде

Если у канонической страницы есть вариант для мобильных устройств, добавьте элемент link с атрибутом rel="alternate" и ссылкой на мобильную версию, например:
link rel="alternate" media="only screen and (max-width: 660px)" href="https://m.yourwesite.com/page.php/"

Элемент link с атрибутом rel="canonical" должны содержать абсолютный URL (полный), а не относительный (сокращенный) адрес.

2. Rel=canonical HTTP header

Тег Rel=canonical канонизирует HTML-страницы. Для других же форматов, как, например, PDF, Google рекомендует прописывать атрибут rel=canonical в HTTP-заголовке. PDF на сайте необходимо канонизировать потому, что боты просматривают и индексируют такие файлы так же, как и HTML страницы.

Этим способом можно воспользоваться только если у вас есть доступ к настройкам сервера. Не буду детально описывать процесс создания rel=canonical HTTP, так как необходимо углубиться в технические детали, и статья растянется страниц на 10. Оставляю ссылку на хорошую статью от MOZ со всеми нюансами внедрения rel="canonical" HTTP Headers. Так же, как и в rel=canonical link, URL-ы в HTTP-заголовке должны быть абсолютными.

3. 301 редирект

301 статус код – это перенаправление пользователей и ботов на другой URL.

Когда лучше применить 301 статус код:

  • смена домена сайта;
  • для ошибки 404 и контента, утратившего актуальность, но имеющего релевантные ссылки и большой трафик;
  • для контента, который переехал на другой URL навсегда.

4. Sitemap/Карта сайта

Sitemap, или по-русски карта сайта — это XML-файл с информацией о местонахождении URL-ов, дате их последнего обновления, частоте обновления и др. Вебмастер Google Джон Мюллер подтвердил, что страницы в картах сайта бот воспринимает как приоритетные для индексации и ранжирования.


«...мы используем URL-ы в sitemap как способ понять, какой URL следует считать каноническим для определенного контента».

Все страницы в этом файле бот считает каноническими

Не добавляйте в Sitemap неканонические страницы.

Как делать НЕ нужно

1. НЕ канонизируйте несколько дубликатов разными способами. Предположим, у вас есть страницы А и В с одинаковым контентом. В body страницы А вы добавляете тег rel=canonical, а страницу В указываете в sitemap (напоминаю, что все страницы в sitemap бот считает каноническими). Теперь бот запутался и потратил время и ресурсы, пытаясь понять, какой же контент считать оригинальным. Не надо так.

2. НЕ используйте rel=canonical link tag/ HTTP header на страницах категорий товаров и фильтров. На коммерческих сайтах товары можно отсортировать по цвету, размеру, бренду и т.д. Если на каждой странице поставить тег canonical, то бот будет ходить по каждому параметру URL-а и тратить краулинговый бюджет там. Страницы сортировки лучше закрыть в robots.txt или в meta “noindex”, в зависимости от размера сайта и его специфики.

3. Не используйте robots.txt для канонизации. Директивы в robots.txt показывают, какие страницы/папки нужно краулить боту, а какие нет. Однако вебмастер Google не рекомендует таким образом канонизировать страницы, ведь бот не может даже зайти на страницу и понять, что это дубликат/оригинал. 


Джон Мюллер о канонических страницах

Источник: Twitter

Джон Мюллер: 

Блокировка через robots.txt работает так, что мы даже не можем сказать, что это дубликаты. Лучше дать поисковой системе понять, что дубликаты есть, но ранжировать нужно страницу с rel=canonical элементом…

4. НЕ линкуйте дубликаты URL-ов внутри вашего сайта. Если вы канонизируете страницу, вы считаете ее более важной. Согласитесь, это странно, если вы ссылаетесь на неканонические/менее важные версии страниц.

5. НЕ вписывайте дубликаты в URL removal tool в Google Search Console. Этот метод временно блокирует доступ ботов не только к дублям, но и к оригинальным версиям.

Инструмент Remove URLs в Search Console

6. НЕ канонизируйте HTTP, если на сайте есть версия страницы с HTTPS-протоколом. Наличие SSL-сертификата (который поддерживает HTTP) является одним из факторов ранжирования Google, поэтому переход на протокол HTTPS повышает позиции страницы в поиске.

Коротко о главном

Итак, канонизация – это способ показать Google, какие страницы предпочтительно показывать в поисковой выдаче.

Используйте эти четыре рекомендованных Google способа канонизации:

  • Rel=canonical link tag – когда нужно канонизировать HTML страницы;
  • Rel=canonical HTTP header – когда нужно канонизировать не HTML-файлы;
  • 301 redirect – когда контент навсегда переезжает на другую страницу;
  • XML Sitemap - чтобы перечислить все канонические страницы на сайте и облегчить боту сканирование (теги canonical также необходимо проставить).

Чтобы оптимизировать краулинговый бюджет и отправить прибыльные страницы в индекс, следуйте этим советам:

  • Не канонизируйте несколько URL-ов с одинаковым контентом разными способами;
  • Нe используйте rel=canonical tag на страницах фильтров;
  • Не используйте robots.txt для канонизации;
  • Не линкуйте дубликаты внутри вашего сайта;
  • Не отправляйте дубликаты страниц в removal tool от GSC;
  • Не канонизируйте HTTP-страницы.

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Дмитрий
    1
    комментарий
    0
    читателей
    Дмитрий
    больше года назад
    Здравствуйте, на сайте возможно несколькими путями дойти до почти одинаковой страницы, те отличаться будет только незначительная часть H1, а контент будет одинаковым, дело в применимости автозапчастей к разным автомобилям. Что из этого будет каноничной ссылкой и какие есть пути для решения подобных ситуаций?
    1 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-sedan-2011-2014/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/
    2 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c...
    Здравствуйте, на сайте возможно несколькими путями дойти до почти одинаковой страницы, те отличаться будет только незначительная часть H1, а контент будет одинаковым, дело в применимости автозапчастей к разным автомобилям. Что из этого будет каноничной ссылкой и какие есть пути для решения подобных ситуаций?
    1 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-sedan-2011-2014/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/
    2 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-rest-sedan-2014-n-v-/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/
    -
    0
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Дмитрий
      больше года назад
      Дмитрий, добрый день!
      Если вы проставили на странице с автозапчастями  rel=canonical ( а я вижу в коде, что не проставили) или в HTTP хедере, то бот, как правило: выберит ту страницу главной, которую вы указали в  rel=canonical ссылке. Eсли же вы этого не сделали, то бот сам выберит оригинал (алгоритмы, по которым бот это делает, скрыты Googl-ом)
      -
      0
      +
      Ответить
  • Гость
    1
    комментарий
    0
    читателей
    Гость
    больше года назад
    А страницы пагнации нужно канонизировать? Или лучше закрыть в robots??
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Гость
      больше года назад
      добрый день! Спасибо за ваш вопрос.
      Ответ зависит от тематики сайта - допустим у вас на страницах пагинации меняется только размер/цвет или другие параметры товаров - тогда лучше закрывать пагинацию в роботс.
      если же, например, на первой странице пользователь задал вопрос, а нужный для себя ответ находит на 2-10-20-той странце   (как на форумах, например) - лучше разрешить боту сканировать контент - ведь пользователь тоже может перейти к вам на сайт потому, что в...
      добрый день! Спасибо за ваш вопрос.
      Ответ зависит от тематики сайта - допустим у вас на страницах пагинации меняется только размер/цвет или другие параметры товаров - тогда лучше закрывать пагинацию в роботс.
      если же, например, на первой странице пользователь задал вопрос, а нужный для себя ответ находит на 2-10-20-той странце   (как на форумах, например) - лучше разрешить боту сканировать контент - ведь пользователь тоже может перейти к вам на сайт потому, что видит интересный для себя ответ на 2-10-20-той странице.
      -
      1
      +
      Ответить
  • Сергей Демин
    9
    комментариев
    0
    читателей
    Сергей Демин
    больше года назад
    не понимаю почему нельзя использовать роботс, зачем поиску видеть дублирующий контент, где логика. зачем тогда вообще нужен этот файл если его нерекомендуется использовать
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      2
      комментария
      0
      читателей
      Ann Yaroshenko
      Сергей Демин
      больше года назад
      Сергей, добрый день! Спасибо вам за внимание к моей статье
      Файл роботс.ткс нужно и важно использовать, ведь он показывает что сканировать, а что нет на вашем сайте.  
      1. Почему нельзя использовать роботс. Гугл не рекомендует использовать роботс.ткт как метод канонизации потому, что тогда бот не сможет зайти на страницу (ему директива не позволит) и не поймет как  соотносятся страницы между собой. Но! в SEO ничего не стоит говорить однозначно, команда на...
      Сергей, добрый день! Спасибо вам за внимание к моей статье
      Файл роботс.ткс нужно и важно использовать, ведь он показывает что сканировать, а что нет на вашем сайте.  
      1. Почему нельзя использовать роботс. Гугл не рекомендует использовать роботс.ткт как метод канонизации потому, что тогда бот не сможет зайти на страницу (ему директива не позволит) и не поймет как  соотносятся страницы между собой. Но! в SEO ничего не стоит говорить однозначно, команда нашего краулера рекомендует большим сайтам (от100тыс страниц) все же закрывать страницы в роботс, чтобы бот тратил краулинговый бюджет только на прибыльные страницы. Для сайтов же меньшего размера, краулингового бюджета по опыту анализа лог файлов хватает
      2. Зачем поиску видеть дублирующий контент. Поисковики считают, что дубликаты на сайте - это нормально.  Боту нужно видеть дубликаты, ведь таким образом он понимает как связаны страницы между собой. А теги на странцах помогают ему увидеть какие страницы для вас приоритетные,  а какие в индекс брать не стоит
      -
      1
      +
      Ответить
  • vitalii
    1
    комментарий
    0
    читателей
    vitalii
    больше года назад
    почему именно 4-ре способа канонизации вы считаете самыми лучшими? как вы эти способы отбирали?
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      vitalii
      больше года назад
      Добрый день! Спасибо за дельный вопрос. Проверять качестово источников важно, согласна с вами!
      именно 4-ре способа канонизации  рекомендует Гугл как оптимальные. Именно поэтому я описала их в статье. Оставляю список на официальный блог Гугл
      support.google.com/webmasters/answer/139066?hl=ru
      -
      1
      +
      Ответить
  • Ксения
    1
    комментарий
    0
    читателей
    Ксения
    больше года назад
    Спасибо за статью! А как понять, правильно ли проставлены Рел теги?
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Ксения
      больше года назад
      Добрый день! Спасибо за вопрос
      Я рекомендую проверить теги с помощью кралера. Этот интрумент ищет технические баги на вашем сайте, в том числе  и неправильно проставленые канонические теги. Краулер покажет сколько страниц на сайт канонизировано, закрытые от индексации каниноческие страницы и другие полезные данные для технической оптимизации.
      Вот инструкция как проверить rel=canonical на вашем сайте с помощью краулера JetOctopus
      docs.google.com/document/d/1DEy9o53...
      Добрый день! Спасибо за вопрос
      Я рекомендую проверить теги с помощью кралера. Этот интрумент ищет технические баги на вашем сайте, в том числе  и неправильно проставленые канонические теги. Краулер покажет сколько страниц на сайт канонизировано, закрытые от индексации каниноческие страницы и другие полезные данные для технической оптимизации.
      Вот инструкция как проверить rel=canonical на вашем сайте с помощью краулера JetOctopus
      docs.google.com/document/d/1DEy9o53PXE14-ScUGjeRX7zKBxyntJQROtOje9JiR6c/edit#heading=h.tzv618a70ig1
      -
      0
      +
      Ответить
  • Jenny
    2
    комментария
    0
    читателей
    Jenny
    больше года назад
    Какие методы обычно используют?
    -
    1
    +
    Ответить
    • Ann Yaroshenko
      5
      комментариев
      0
      читателей
      Ann Yaroshenko
      Jenny
      больше года назад
      Добрый день! спасибо Вам за вопрос
      Рекомендованые Гуглом способы канонизации таковы:
      1. Тег Rel=canonical
      2. Rel=canonical HTTP header
      3. 301 редирект
      4. карта сайта
      в статье написано когда и как лучше использовать каждый метод
      -
      0
      +
      Ответить
  • Jenny
    2
    комментария
    0
    читателей
    Jenny
    больше года назад
    I'm really interested in ways, that are usually used. Couldn't you tell me your point of view?
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Накрутка поведенческих факторов: дорого, сложно, но можно. Если очень хочется
Oleg_bobr2012
1
комментарий
0
читателей
Полный профиль
Oleg_bobr2012 - Мда...Может Анне сразу в Яндекс написать кейсы по накрутке ПФ. Я бы такого сотрудника гнал вон.
28 способов повысить конверсию интернет-магазина
Татьяна
1
комментарий
0
читателей
Полный профиль
Татьяна - Очень действенные рекомендации представлены в статье! Всё четко расписано и легко внедряемо в работу интернет-магазинов.Удобство и наглядность+различные бонусы и скидки-именно то, что и цепляет покупателя.
Какие сайты лидировали в поиске Яндекса и Google в 2023 году
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Если что по рейтингу вы не правы, есть ядро по которому производиться оценка и вы можете по нему самостоятельно все посмотреть. Единственный объективный рейтинг по SEO. Других не знаю Ну я вам скажу что это не так и в предыдущие года сайт моего клиента попадал в рейтинг, при чем несколько раз. И я прекрасно знал еще до объявления результатов кто лидер - рейтинг прозрачный, есть фразы по которым набираются баллы. В этом году наш сайт не попал в рейтинг например и это было понятно, что не попадет (по статистике позиций)
Создали ресурс для металлургов, который позволяет следить за аналитикой рынка и осуществлять продажи
Наталья Сталь
3
комментария
0
читателей
Полный профиль
Наталья Сталь -
Optimization 2023: текстовый анализ в 2024 году и методы увеличения релевантности страниц
Игорь
1
комментарий
0
читателей
Полный профиль
Игорь - это информация максимум уровня middle seo. что такой проходняк делает в секции hard seo когда-то великой ашмановки, еще и в исполнении токсичного инфоцыгана большая загадка)) ходил последние 5 лет на нее, но больше пожалуй не стоит
5 ошибок отдела продаж, из-за которых вы теряете клиентов
Андрей
1
комментарий
0
читателей
Полный профиль
Андрей - Крутая статья! Можно еще указать: Работу без CRM-системы - я считаю, что это основа отдела продаж. Потому что не все компании решаются на внедрение отдельно системы для отдела продаж. Но зато можно что то многофункциональное внедрить аспро.клауд или что то подобное
Контекстная реклама, таргет и SEO вошли в топ-3 каналов продвижения бизнеса в 2023 году
Сергей
1
комментарий
0
читателей
Полный профиль
Сергей - Например, так {censored} - продвижение карточки в органике Google :) Также в Яндекс.Директ есть направление контекста для маркетплейсов.
Как продвигать сайт на Tilda: особенности продвижения и рекомендации специалистов
Konstantin Bulgakov
15
комментариев
0
читателей
Полный профиль
Konstantin Bulgakov - Спасибо за рекомендации, полезно. Но кажется, что тематика в кейсе не самая конкурентная + часть запросов в продвижение брендовые, там и без сео позиции будут в топе.
Простые SEO-работы, которые могут увеличить прибыль компании. Часть 1
roma.lisov
1
комментарий
0
читателей
Полный профиль
roma.lisov - Воспользовался советом по проверке и настройке картинок на сайте – реально дельный совет. Вот вроде и просто, казалось бы, а мне в голову раньше не пришло. А такие нюансы, конечно, нужно знать)
Как мы увеличили поисковый трафик на 30% с помощью ChatGPT
Светлана Светлана
23
комментария
0
читателей
Полный профиль
Светлана Светлана - Я сама работаю в маркетинге и недавно решила еще дополнительно пройти курсы по интернет маркетингу astobr.com/services/povyshenie-kvalifikatsii/menedzhment-upravlenie/internet-marketing/ , как по мне эти знания которые я получила, очень помогают мне в работе
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
388
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
120
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
64
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!