×
Россия +7 (495) 139-20-33

5 способов увидеть сайт глазами поисковика: анализируем скрытый контент и cloaking

Россия +7 (495) 139-20-33
Шрифт:
3 25840
Подпишитесь на нас в Telegram

Как SEO-специалисту притвориться поисковым ботом и посмотреть любой сайт глазами Яндекса, Google или другого поисковика? Разберем 5 простых инструментов, которые помогают определить скрытый контент или клоакинг.

P. S.: 90% сайтов в интернете имеют эту проблему!

Спойлер

Как упомянул выше, у 90% сайтов есть проблемы со скрытым контентом для поисковых ботов. И нет, они не всегда связаны с серверным рендерингом и javascript на странице. Кто хочет быстрее узнать, это user-agent подмена данных, о которой я упомяну во всех 5 способах.

Что это вам даст?

  1. Вы не только сможете смотреть как поисковый бот, но поймете, как различные сайты используют «черные» методы оптимизации и как избегают санкций поисковых систем. Самое важное, что вы вынесете из этой статьи, это методы отслеживания скрытого контента.
  2. Конечно же, вы поймете, какой контент у вас не видят боты, и сможете его проиндексировать, тем самым увеличите поисковый трафик.

Банальные способы проверки

Конечно, многие используют для проверки инструмент «Проверка ответа сервера в Яндекс Вебмастер» или «Проверка для оптимизации мобильных устройств от Google». Но что делать, если сайт под базовой авторизацией и поисковых ботов туда просто не пустит? Ниже разбираемся подробно…

User-agent поисковиков

Чтобы воспользоваться 5-ю методами ниже, вы должны понимать, что такое user-agent, для чего они нужны и какие user-agent бывают у поисковиков.

Что такое user-agent?

Для чего нужен user-agent?

Какие бывают user-agent?

Это строка, которая обычно отправляется браузером во время запроса к серверу. Она содержит информацию о клиентском программном обеспечении, операционной системе, версии и других деталях, которые помогают серверу определить, как отвечать на запрос.

Он помогает серверу понять, кто вы, и показать контент с учетом ваших предпочтений, ограничений и другой сопутствующей информации. Грубо говоря, помогает улучшить пользовательский опыт.

Они бывают разные, но как SEO-специалистов нас интересует мобильный и десктопный user-agent. То есть, как поисковые боты смотрят на наши сайты с мобильных устройств и десктопа. Вот тут можно посмотреть документация по user-agent Яндекса и user-agent Google.

Резюмируя, user-agent это просто «бездушная строка», которую ваш браузер либо браузер поисковых ботов отправляет на сервер запрашиваемого сайта. А этот сайт уже отдает контент, который считает нужным. Тем самым, зная user-agent поисковиков, мы можем притворяться ими и смотреть HTML-код под видом Яндекса или Google.

Способ 1: cURL

Сложность инструмента: средне

cURL

CURL (Client for URLs) – командная утилита для передачи данных по сети.

Если проще, то это встроенная утилита в терминал Windows и MAC OS, которая может ходить по заданному вами URL и получать различные данные. Но нас интересуют только данные по HTTP header и HTML страницы.

Создаем запрос в CURL

Чтобы посмотреть HTML сайта как поисковый бот и увидеть HTTP HEADER, мы создаем запрос следующего характера, где 

  • curl – название программы, 
  • -i – запрос на получение HTML страницы и HTTP header, 
  • -A – под каким user-agent нужно заходить на сайт.

cURL

Учтите, что CURL запрашивает информацию напрямую с сервера сайта и не эмулирует javascript на странице!

Что получаем от сервера

В обратку получаем HTTP Header и HTML код сайта. HTTP Header поможет нам узнать коды ответа сервера, robots, canonical и другие параметры. А HTML покажет вам, какой код видит именно поисковик, в нашем примере Яндекс.

cURL

Итого, в нашем примере за 1 минуту мы получили ответ сервера, адаптированный под поисковик Яндекса. Осталось теперь только сравнить то, что отдал CURL для Яндекса, и то, что отдал ваш браузер. Как подробно сравнивать, я рассказал в конце статьи в пункте «Как сравнить полученные данные?».

Плюсы и минусы cURL 

Плюсы

Минусы

Может обходить базовую авторизацию сайтов и смотреть на демо-контуре.

Не умеет обходить другие типы авторизации.

Показывает на 100% точные данные.

Не умеет обходить captcha, защиты от ddos и фаерволы.

Есть по умолчанию на любом устройстве: Windows и MAC.

Если SSL-сертификат у сайта не валидный, то CURL не сможет зайти на сайт, и нужно производить дополнительные настройки.


Не удобный UX/UI, весь код выводится в терминале и не структурирован.


Требует минимальные знания в работе GET, POST и других видов запросов.


Требует знания различных параметров, -i, -A и другие.


Не эмулирует javascript.

Способ 2: SEO ALL STARS 

SEO ALL STARS

Сложность инструмента: легко 

Расширение для Google Chrome SEO ALL STARS – мульти-функциональное и позволяет увидеть контент (текст, заголовки, ссылки, HTML), который не видит поисковый бот. А также сравнивает метатеги, анализирует ссылки, серверные и javascript редиректы, HTTP headers, скорость загрузки.  

Установить расширение можно в магазине Chrome web store, кликнув сюда

Шаг 1: открываем любой сайт 

После того как установили расширение, открываем любой сайт и нажимаем на расширение. Я тестировал на домене detmir.ru.  

Шаг 2: настройки 

Заходим в настройки и выбираем нужного вам бота. Доступны Яндекс mobile, Яндекс desktop, Google mobile, Google desktop. Я для теста выбрал Google desktop. 

Google desktop

Шаг 3: пролистываем до блока Differences 

3.1 В первом блоке можем увидеть разницу в количестве слов и количестве HTML-символов между нашим браузером и тем, как видит сайт Google. Разница в 1080 слов и 172487 символов в HTML. 

блок Differences

3.2 Во втором блоке мы можем увидеть разницу в контенте от сервера сайта, который отдаем нашему браузеру и Google. 

Разница в контенте

3.3 А вот этот блок считаю самым топовым! Он показывает, сколько текста и HTML не видит Google на сайте. Тут сразу можно выявить проблему рендеринга. 

Еще он показывает, какой текст не видит наш браузер, а видит Google. Тут можно узнать о «черном» SEO и выявить cloaking. 

Разница в контенте

3.4 Чтобы посмотреть, какой текст не видит Google, нажмите на Missing Text. Для просмотра невидимого HTML, нажимаем Missing HTML. Можем сразу понять, какие ключевые слова Google не учитывает, и предпринимаем действия. 

Разница в контенте

Шаг 4: остальной функционал 

Немного опишу функционал, который посчитал полезным тоже. Расширение сделано на логике сравнения вашего браузера и того, что видит поисковый бот.  

4.1 Отслеживает, какие URL на страницы скрыты от поисковиков. Показывает как внутренние ссылки, так и внешние. 

4.2 Отслеживает, какие заголовки < H > не видит поисковик или ваш браузер. 

функционал

4.3 Отслеживает разницу между метатегами у вас и у поисковика. Очень полезно, когда на сайтах меняют метатеги через javascript. Обычные расширения этого не покажут. 

4.4 Отслеживает скрытые редиректы. Полезно тогда, когда вам страница отдает 200 ответ, а поисковому боту 301 и подсовывает ему иную информацию. 

SEO ALL STARS  

Плюсы и минусы SEO ALL STARS  

Плюсы

Минусы

Показывает, какой текст и HTML поисковые боты не видят на странице.

Только на английском языке.

Показывает, насколько контент различается между тем, что видит ваш браузер и что видит поисковый бот.

Доступно только 2 поисковых бота: Google и Яндекс. Нельзя вручную указать другие user-agent.

Отображает, какие ссылки на странице индексируются поисковыми ботами, а какие нет.

Данные для поисковых ботов не прогрузятся, если у сайта стоит защита Cloudflare или captcha.

Сравнивает различие метатегов у вашего браузера и поисковых ботов.

Полученный HTML не структурирован, нужно скопировать его в стороннее приложение для анализа.

Показывает на 100% точные данные.


Способ 3: Postman 

Postman 

Сложность инструмента: средне 

Postman – инструмент для тестирования и разработки с отправкой HTTP-запросов к серверу и их анализа. Утилита доступна для Windows и MAC, скачать можно на официальном сайте www.postman.com.  

Как SEO-специалисты мы будем использовать Postman максимум на 10% от его функционала. Остальные возможности больше нужны для тестирования API и разработки.  

Создаем запрос в Postman 

1. Открываем Postman и нажимаем на «плюсик», так мы создаем новый HTTP-запрос. 

Postman

2. В поле выбираем GET и вставляем нужным нам URL, мы будем проверять https://pr-cy.ru/. 

Postman

3. Переходим во вкладку Headers, в поле Key вводим User-Agent, а в поле Value вводим самое значение user-agent, в нашем примере Яндекса – Mozilla/5.0 (compatible; YandexBot/3.0; + http://yandex.com/bots) и нажимаем кнопку SEND. 

Postman

4. Ниже в области BODY мы увидим полученный HTML-код именно таким, каким видит его Яндекс в десктопной версии (потому что user-agent мы использовали для десктопных устройств). 

5. А если нажать на CONSOLE, то сможем проанализировать HTTP Headers и цепочки редиректов!  

Postman

Плюсы и минусы Postman 

Плюсы

Минусы

Показывает на 100% точные данные.

Не умеет обходить captcha, защиты от ddos и фаерволы.

Выдает структурированный HTML, с которым удобно работать.

Требует минимальные знания в работе GET, POST и других видов запросов.

Можно обходить практически любую авторизацию сайтов. Можно смотреть сайты на демо-контурах.

Не эмулирует javascript.

Способ 4: Chrome DevTools 

 Chrome DevTools

Сложность инструмента: тяжело 

Кажется, Chrome DevTools в представлении не нуждается, но все же дадим краткое определение. Chrome DevTools – это набор инструментов для разработчиков, позволяющий отлаживать, тестировать и профилировать код в реальном времени. 

Вы скажете, а причем тут Google Chrome DevTools, ведь Chrome грузит javascript. В данном методе мы будем инспектировать вкладку Network и Network condition, чтобы настроить нужный нам user-agent и смотреть ответ сервера без стороннего javascript. Погнали! 

Шаг 1: Устанавливаем user-agent 

  • Открываем в браузере нужную страницу.
  • Нажимаем на 3 вертикальные точки, выбираем More tools и нажимаем на Network Condition. 

Chrome DevTools

  • Убираем галочку с пункта User agent Use browser default. 
  • Вставляем user-agent бота, в нашем случае Яндекса. 

Chrome DevTools

Шаг 2: Смотрим ответ от сервера для нашего поискового бота 

  • Переходим во вкладку Network. 
  • Прокручиваем в самый верх и выбираем нашу страницу. 
  • В поле Headers смотрим HTTP Headers, а в поле Response смотрим, какой HTML-код получил бы Яндекс. 

 Chrome DevTools

Плюсы и минусы Chrome DevTools 

Плюсы

Минусы

Решаем задачу в одном пространстве, браузере Google Chrome или подобных.

Времязатратный инструмент в связи с тем, что нужно переключаться по многим вкладкам в панели разработчика.

Показывает на 100% точные данные.

После установки user-agent и перехода в Network обязательно нужно перезагружать страницу, что тратит время анализа.

Позволяет обойти captcha, защиты от ddos и фаерволы.

Требует техническое понимание HTML, HTTP Headers.

Можно смотреть любые сайты под авторизацией, на демо-контурах.


Способ 5: JS Switcher 

JS Switcher

Сложность инструмента: легко 

Данный способ не является 100% точным, так как у проверяемого сайта может стоять сторонний пререндеринг, и при отключении javascript от вас скроется контент, но по факту поисковый бот его может видеть. 

JS Switcher – это расширение для SEO-специалистов и разработчиков, которое правильно отключает javascript на любом сайте. Установить расширение можно в магазине Chrome web store, кликнув сюда

Как использовать JS Switcher? 

UX очень простой. Просто устанавливаете расширение в браузер и нажимаете на него. Цветной значок значит, что javascript работает. Серый значок значит, что javascript выключен. 

Плюсы и минусы JS Switcher 

Плюсы

Минусы

Быстрота отключения javascript на странице.

Отключение только javascript не гарантирует того, что увидит поисковый бот.

Отключает с перезагрузкой и деструкцией всех скриптов.

Не умеет смотреть напрямую глазами поисковых ботов, инициирует код со стороны вашего браузера.

Резюмируем: какой инструмент лучше использовать и когда? 

cURL: удобный для получения сырого HTTP header и HTML, но не эмулирует javascript и требует знания параметров запросов. Идеальный, чтобы «въехать» в тему. 

SEO ALL STARS: мультифункциональное расширение для Chrome, которое экономит кучу времени. Выводит уже невидимый контент для поисковых ботов. Идеально, если вы часто анализируете сайты и не хотите руками сравнивать HTML и тексты. 

Postman: подойдет для тех, кто хочет сам проанализировать полученный HTML и сравнить его со своим. Тратится большое количество времени, но исследования иногда дают дополнительные инсайты. 

Chrome DevTools: инструмент для профессионалов. Может сделать все что угодно. Нужно лишь разобраться. Требует высокие знания сайтостроения, работы сервера и навыков javascript. 

JS Switcher: расширение для отключения javascript, быстро, но точность данных ограничена, может быть скрытый от ботов контент.

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Гость
    1
    комментарий
    0
    читателей
    Гость
    3 месяца назад
    Сейчас клоаку прячут, так что под нее можно глянуть только с гуггловских ip. Сейчас только гуггл сервисами можно глянуть
    -
    0
    +
    Ответить
  • Мой Генерал
    4
    комментария
    0
    читателей
    Мой Генерал
    5 месяцев назад
    вся суть госухи (ну, не вся, конечно, но большая часть) неэффективная трата ресурсов, ради чего?
    все то же самое (любой запрос с любыми параметрами, любой юзер-агент, получение заголовков ответа, тела страницы, отчет по последовательности кодов ответа) можно получить в 2 клика в Бертале! но нет, свободного времени вагон, надо его занять чем-нить.
    -
    -7
    +
    Ответить
    • Димас
      1
      комментарий
      0
      читателей
      Димас
      Мой Генерал
      5 месяцев назад
      Бертал лажа, как ты собираешься обходить защиту сайта при парсинге через Бертал?
      Или как ты собираешься дальше развиваться в it, если юзаешь только сторонний софт не разобравшись в бекграунд процессах?
      -
      3
      +
      Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Накрутка поведенческих факторов: дорого, сложно, но можно. Если очень хочется
Oleg_bobr2012
1
комментарий
0
читателей
Полный профиль
Oleg_bobr2012 - Мда...Может Анне сразу в Яндекс написать кейсы по накрутке ПФ. Я бы такого сотрудника гнал вон.
28 способов повысить конверсию интернет-магазина
Татьяна
1
комментарий
0
читателей
Полный профиль
Татьяна - Очень действенные рекомендации представлены в статье! Всё четко расписано и легко внедряемо в работу интернет-магазинов.Удобство и наглядность+различные бонусы и скидки-именно то, что и цепляет покупателя.
Создали ресурс для металлургов, который позволяет следить за аналитикой рынка и осуществлять продажи
Наталья Сталь
3
комментария
0
читателей
Полный профиль
Наталья Сталь -
Какие сайты лидировали в поиске Яндекса и Google в 2023 году
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Если что по рейтингу вы не правы, есть ядро по которому производиться оценка и вы можете по нему самостоятельно все посмотреть. Единственный объективный рейтинг по SEO. Других не знаю Ну я вам скажу что это не так и в предыдущие года сайт моего клиента попадал в рейтинг, при чем несколько раз. И я прекрасно знал еще до объявления результатов кто лидер - рейтинг прозрачный, есть фразы по которым набираются баллы. В этом году наш сайт не попал в рейтинг например и это было понятно, что не попадет (по статистике позиций)
5 способов увидеть сайт глазами поисковика: анализируем скрытый контент и cloaking
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Сейчас клоаку прячут, так что под нее можно глянуть только с гуггловских ip. Сейчас только гуггл сервисами можно глянуть
Михаил Сливинский (Яндекс): об алгоритмах качества в поиске, сгенерированных текстах и накрутке ПФ
Анна Макарова
388
комментариев
0
читателей
Полный профиль
Анна Макарова - Интересно, из каких именно слов Михаила, вы сделали такой вывод?
Optimization 2023: текстовый анализ в 2024 году и методы увеличения релевантности страниц
Игорь
1
комментарий
0
читателей
Полный профиль
Игорь - это информация максимум уровня middle seo. что такой проходняк делает в секции hard seo когда-то великой ашмановки, еще и в исполнении токсичного инфоцыгана большая загадка)) ходил последние 5 лет на нее, но больше пожалуй не стоит
5 ошибок отдела продаж, из-за которых вы теряете клиентов
Андрей
1
комментарий
0
читателей
Полный профиль
Андрей - Крутая статья! Можно еще указать: Работу без CRM-системы - я считаю, что это основа отдела продаж. Потому что не все компании решаются на внедрение отдельно системы для отдела продаж. Но зато можно что то многофункциональное внедрить аспро.клауд или что то подобное
Контекстная реклама, таргет и SEO вошли в топ-3 каналов продвижения бизнеса в 2023 году
Сергей
1
комментарий
0
читателей
Полный профиль
Сергей - Например, так {censored} - продвижение карточки в органике Google :) Также в Яндекс.Директ есть направление контекста для маркетплейсов.
Как продвигать сайт на Tilda: особенности продвижения и рекомендации специалистов
Konstantin Bulgakov
15
комментариев
0
читателей
Полный профиль
Konstantin Bulgakov - Спасибо за рекомендации, полезно. Но кажется, что тематика в кейсе не самая конкурентная + часть запросов в продвижение брендовые, там и без сео позиции будут в топе.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
388
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
120
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
64
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!