Главная > Статьи SEOnews > Исследование обновления индекса сайта в Яндексе

Исследование обновления индекса сайта в Яндексе

06 Апреля 2017 года, 14:21

Шрифт:

5 30715

Оглавление

Использование инструмента «Страницы в поиске»
Получаем список обновленных страниц
Анализируем файл обновления индекса
Заключение

Подпишитесь на нас в Telegram

Руслан Фатхутдинов

Веб-аналитик агентства Реаспект

Редактор Telegram-канала «Идея украдена»

В прошлой статье я описывал, как мы у себя в агентстве проводим анализ индексации сайта поисковой системой Яндекс при помощи нового Вебмастера. Недавно Яндекс обновил кабинет Вебмастера, добавив возможность следить за изменением индексации сайта практически в режиме реального времени.

Подробно о всех возможностях этого инструмента можно прочитать в справке Яндекса.

Мы всегда старались держать руку на пульсе, проверяя страницы своими инструментами, и появление готового сервиса от Яндекса стало для нас настоящим подарком. В этой статье я хочу рассказать о том, как мы используем «Страницы в поиске» в своей работе.

Использование инструмента «Страницы в поиске»

Мы проверяем, что изменилось в индексации сайта после каждого текстового апдейта Яндекса.

Цель проверки — узнать, какие страницы были включены в индекс, какие страницы были исключены из индекса и по какой причине. Выработать решение о том, что с этим всем делать.

Получаем список обновленных страниц

Для того, чтобы получить список обновленных страниц:

1. Заходим в Яндекс Вебмастер, выбираем нужный сайт;

2. Нажимаем в левом меню «Индексирование» — «Страницы в поиске» или нажимаем на главной странице на заголовок блока «Обновление поиска по…»;

Сводка Яндекс Вебмастера

Рис. 1. Отчет «Страницы в поиске» в Яндекс.Вебмастере

3. На открывшейся странице спускаемся внизу и нажимаем кнопку «XLS» в блоке «Скачать таблицу»;

Рис. 2. Выгрузка списка страниц

4. Получаем Excel-файл с последними обновлениями индексации сайта в Яндексе.

Анализируем файл обновления индекса

В полученном файле будут следующие столбцы:

updateDate — дата обновления поисковой базы, в которую попали страницы;
url — адрес обновленной страницы;
httpCode — HTTP-код, полученный роботом во время последнего обхода страницы;
status — статус страницы;
target — адрес страницы, на которую происходит перенаправление, или отображаемый в результатах поиска адрес;
lastAccess — дата последнего посещения страницы роботом;
title — заголовок страницы;
event — действие, произошедшее со страницей (добавление или исключение из поиска):
- ADD — страница добавлена в индекс;
- DELETE — страница удалена из индекса.

Приступаем к анализу файла:

Важное замечание: Если ранее вы уже анализировали индексацию страниц, в столбце updateDate выбирайте даты после последнего анализа.

Если проверяете индексацию в первый раз, то проверяйте весь список.

1. Открываем файл в Excel, выделяем всю таблицу с данными и активируем фильтр («Главная» — «Сортировка и фильтры» — «Фильтр»);

Включение фильтров в Excel по страницам в поиске

Рис. 3. Включение фильтров в Excel

2. Проверяем, какие страницы попали в индекс. Для это в колонке «Event» оставляем значение «ADD»:

Рис. 4. Задание фильтра попавших в индекс страниц

○ Просматриваем колонку «URL» на наличие подозрительных и аномальных страниц;

○ Если обнаруживаем проблему, делаем техническое задание на устранение этой проблемы.

Примеры аномальных и подозрительных страниц и способ их устранить:

Страницы	Решение
Страницы с параметрами	Закрыть параметры в robots.txt; Найти причину появления подобных страниц, устранить ее; Настроить 301 редирект с таких страниц на правильные; Настроить 404 код ответа для таких страниц.
Страницы с нетипичной вложенности для сайта	Найти причину появления подобных страниц, устранить ее; Настроить 301 редирект с таких страниц на правильные; Настроить 404 код ответа для таких страниц.
Страницы с нетипичным окончанием. Если обычный для сайта URL заканчивается на «/», а в списке есть страницы без «/» на конце или с расширением на конце (.htm / .html / .php / …)	Найти причину появления подобных страниц, устранить ее; Настроить 301 редирект с таких страниц на правильные;
Страницы с кириллицей для сайтов, у которых только латинские символы в URL	Найти причину появления подобных страниц, устранить ее; Настроить 404 код ответа для таких страниц.
Другие	В зависимости от причины.

○ URL, которые были проверен можно удалить из файла, чтобы они не мешали.

3. Проверяем, какие страницы были удалены из индекса. Для это в колонке «Event» оставляем значение «DELETE»:

○ Проверяем все причины исключения страниц из индекса. Для этого в колонке «status» поочередно оставляем каждый из видов ошибок и проверяем страницы.

Фильтр с причинами удаления страниц их индекса Яндекса

Рис. 5. Задание фильтра с причинами удаления страниц

Возможные статусы, что они означают и варианты лечения:

Значение status	Расшифровка	Как решать
BAD_QUALITY	Страница считается некачественной	Смотрим страницу и ищем причину исключения. Наиболее частые ошибки: Это технический дубль; Дублируется Title; На странице мало контента или его нет.
CLEAN_PARAMS	Страница работает через параметры, которые почищены в robots.txt директивой Clean-param	Если все правильно, то нужно заменить в robots.txt clean-param на Disallow, так как на обход по Clean-param тратится краулинговый бюджет.
DUPLICATE	Страница является дублем страницы по другому URL	Посмотреть причину, по которой страница оказалась дублем. Если это дубль, настроить 301 редирект на основную страницу; Если это уникальная страница, поменять ее контент на уникальный; Если это очень похожие страницы (например разные размеры одного товара), установить canonical на правильную страницу. В будущем уникализировать страницу и убрать canonical.
HOST_ERROR	При обращении к сайту роботу не удалось установить соединение с сервером	Проверить код ответа сервера. Скорее всего, он будет 50*. Исправить код ответа и отправить страницу в очередь на переобход.
HTTP_ERROR	При обращении к странице возникла ошибка	Проверить код ответа сервера. Скорее всего он будет 50*. Исправить код ответа и отправить страницу в очередь на переобход.
META_NO_INDEX	На странице есть метатег robots noindex (none)	Посмотреть, почему на странице noindex. Скорее всего, это страница пагинации. В таком случае убрать noindex и уникализировать заголовки подписью «- Страница 2 (3…)».
NOT_CANONICAL	На странице есть метатег canonical с указанием на другую страницу	Посмотреть, почему на странице canonical с указанием другой страницы. Если это ошибка, убрать canonical и отправить страницу в очередь на переобход; Если это очень похожие страницы (например: разные размеры одного товара), уникализировать страницу и убрать canonical; Если это пагинация, убрать canonical и уникализировать. заголовки подписью «- Страница 2 (3…)».
NOT_MAIN_MIRROR	Страница относится к неглавному зеркалу сайта, поэтому была исключена из поиска	Установить 301 серверный редирект со всех страниц неглавного зеркала на аналогичные страницы на главном зеркале.
OTHER	Страница известна роботу, но не участвует в поиске	Проверить код ответа сервера. Скорее всего он будет 50*. Исправить код ответа и отправить страницу в очередь на переобход.
PARSER_ERROR	При обращении к странице роботу не удалось получить ее содержимое	Проверить код ответа сервера. Скорее всего он будет 50*. Исправить код ответа и отправить страницу в очередь на переобход.
REDIRECT_SEARCHABLE	Страница осуществляет перенаправление, но находится в поиске	На страницу есть ссылка (внешняя или внутренняя), но сама страница отдает 30* редирект. Проверить 302 это редирект, если да, то заменить на 301. Проверить внутренние ссылки, если они есть, заменить их на прямые.
REDIRECT_NOTSEARCHABLE	Страница осуществляет перенаправление, при котором индексируется его цель	На страницу есть ссылка (внешняя или внутренняя), но сама страница отдает 30* редирект. Проверить 302 это редирект, если да, то заменить на 301. Проверить внутренние ссылки, если они есть, заменить их на прямые.
ROBOTS_HOST_ERROR	Индексирование сайта запрещено в файле robots.txt. Робот автоматически начнет посещать страницу, когда сайт станет доступен для индексирования	Проверить robots.txt на запрещение индексации сайта. Если есть запрет, то убрать его. Если запрет нужен, проверить нет ли внутренних ссылок на эту страницу.
ROBOTS_TXT_ERROR	Индексирование сайта запрещено в файле robots.txt. Робот автоматически начнет посещать страницу, когда сайт станет доступен для индексирования	Проверить robots.txt на запрещение индексации сайта. Если есть запрет, то убрать его. Если запрет нужен, проверить нет ли внутренних ссылок на эту страницу.
SEARCHABLE	Страница находится в поиске

○ Если обнаруживаем проблему, делаем техническое задание на устранение этой проблемы.

Заключение

Проверяя таким простым способом индексацию своего сайта после каждого текстового апдейта Яндекса, можно избежать многих проблем в будущем.

Если у вас есть вопросы, пишите задавайте их здесь в комментариях. Разберемся вместе :)

Статьи: Читайте также

Почему один продукт покупают, а другой остается пылиться на полке: психология покупок

Гайд по увеличению трафика: как работать с документными факторами ранжирования

Как я за 3 месяца вывел магазин пиломатериалов в топ, обойдя крупных игроков

SEO глазами клиентов 2025: участники об итогах рейтинга и изменениях в отрасли. Часть 1

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой

Комментарии (5)

Добавить комментарий

Сообщество

Отправить отзыв

Jail

1
комментарий

0
читателей

Полный профиль

Jail
больше года назад

Руслан, если на странице пагинации есть мета-тег robots noindex, follow, очевидно, что она будет исключена из индексной базы, но зачем убирать данный мета-тег и уникализировать заголовки страниц, если на страницах пагинации по сути только дублирование информации с самих карточек товаров (например, в интернет-магазине)?
Можно оптимизировать страницы пагинации под регионы, но по факту от такой оптимизации переходов с поиска на страницы пагинации не увеличивается.

И ещ...

Руслан, если на странице пагинации есть мета-тег robots noindex, follow, очевидно, что она будет исключена из индексной базы, но зачем убирать данный мета-тег и уникализировать заголовки страниц, если на страницах пагинации по сути только дублирование информации с самих карточек товаров (например, в интернет-магазине)?
Можно оптимизировать страницы пагинации под регионы, но по факту от такой оптимизации переходов с поиска на страницы пагинации не увеличивается.

И еще такой вопрос, чем отличиются статус ROBOTS_HOST_ERROR от ROBOTS_TXT_ERROR?

-

0

+

Ответить
филипп лоывлов

10
комментариев

0
читателей

Полный профиль

филипп лоывлов
больше года назад

Что там про краулинговый бюджет? Это с каких пор он перестал тратиться на disallow?
developers.google.com/webmasters/control-crawl-index/docs/faq#h17
Как раз в этой схеме он будет расходоваться. А вот при настройке clean-param (параметры url для гугла) - не должен.

-

1

+

Ответить
- Руслан Фатхутдинов
  
  19
  комментариев
  
  0
  читателей
  
  Полный профиль
  
  Руслан Фатхутдинов
  филипп лоывлов
  больше года назад
  
  Филипп, спасибо за интересный вопрос.
  В той ссылке, которую вы приводите, если вы пользуетесь версией справки на русском языке, в ней есть неточность в переводе. Если вы выбрать английский язык, там сказано: "However, robots.txt Disallow does not guarantee that a page will not appear in results: Google may still decide, based on external information such as incoming links, that it is relevant.". То есть речь идет не о сканировании, а о присутствуй в результатах поиска и ранжир...
  
  Филипп, спасибо за интересный вопрос.
  В той ссылке, которую вы приводите, если вы пользуетесь версией справки на русском языке, в ней есть неточность в переводе. Если вы выбрать английский язык, там сказано: "However, robots.txt Disallow does not guarantee that a page will not appear in results: Google may still decide, based on external information such as incoming links, that it is relevant.". То есть речь идет не о сканировании, а о присутствуй в результатах поиска и ранжировании страницы, запрещенной при помощи disallow.
  Что касается директивы clean-param, я тоже долгое время считал ее отличным решением для некоторых задач по оптимизации сайта. Пока мой коллега не обратил внимание на аномальную статистику обхода на одном из сайтов. Я решил уточнить, тратится ли бюджет на обход страниц, "подчищенных" директивой celan-param в поддержке яндекса, на что получил ответ: "Директива Clean-param не запрещает роботу индексировать страницы, поэтому робот действительно может тратить время на их посещение. Чтобы этого не происходило, лучше использовать Disallow" (скриншот письма yadi.sk/i/uJvLarko3GjeQD).
  Что касается "Параметры url" в google search console, если честно, я не задавался таким вопросом, но в официальном пояснения google сказано "Any URL that is crawled affects crawl budget", а работа инструмента описывается как "Google stop crawling pages". Исходя из этого, можно сказать, что с большой вероятностью данный инструмент Google помогает сохранить краулинговый бюджет.
  Надеюсь, мой ответ окажется вам полезным.
  
  -
  
  0
  
  +
  
  Ответить
  - филипп лоывлов
    
    10
    комментариев
    
    0
    читателей
    
    Полный профиль
    
    филипп лоывлов
    Руслан Фатхутдинов
    больше года назад
    
    Да, и еще туда же: Вот пример из вебмастера [история обхода] yadi.sk/d/GFLDGGzy3Gk8gV
    При этом в роботсе сайта закрыты вообще все динамические страницы yadi.sk/d/cMaBAr0b3Gk8qE
    А робот все-таки полез на них, т.е. потратил пресловутый краулинговый бюджет. Ну не редиска ли :)
    
    -
    
    0
    
    +
    
    Ответить
  - филипп лоывлов
    
    10
    комментариев
    
    0
    читателей
    
    Полный профиль
    
    филипп лоывлов
    Руслан Фатхутдинов
    больше года назад
    
    Насчет clean-param - получается что-то странное. Налицо противоречие Платона с его же собственным хелпом yadi.sk/d/Jgo5Yh183Gk5aZ - в одном случае они говорят, что робот тратит на них время, в другом - что он умный и сразу сводит все урлы в один снижая нагрузку на сервер. Хотя, в обоих случаях фигурирует "может". А может и не может.
    
    Мне почему больше нравится клин-парам - он (по логике) работает аналогично с rel=canonical, т.е. сводит несколько адресо...
    
    Насчет clean-param - получается что-то странное. Налицо противоречие Платона с его же собственным хелпом yadi.sk/d/Jgo5Yh183Gk5aZ - в одном случае они говорят, что робот тратит на них время, в другом - что он умный и сразу сводит все урлы в один снижая нагрузку на сервер. Хотя, в обоих случаях фигурирует "может". А может и не может.
    
    Мне почему больше нравится клин-парам - он (по логике) работает аналогично с rel=canonical, т.е. сводит несколько адресов к одному виду, что дает какую-то надежду на передачу веса итоговой странице, тогда как запрет индексации - просто запрет.
    
    Google - здесь я неправ, пожалуй, в том, что это вообще оффтоп. У него Немного другая политика индексирования и вообще в статье речь про яндекс :) Так что черт с ним.
    
    -
    
    0
    
    +
    
    Ответить

ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS

Роскомнадзор начал требовать от владельцев сайтов уведомлять об использовании Google Analytics. Опыт SEOnews

8 комментариев

3 месяца назад

Денис Добрынин

1
комментарий

0
читателей

Полный профиль

Денис Добрынин - Что-то я как-то пропустил момент, с которого например госномер автомобиля или разрешение монитора и версия установленного на ПК ОС стала перс.данными... Но сегодня тоже получили бумажку с ай-яй-яем. Пойдем на прием в теруправление.

Тренды SEO в 2025 году

2 комментария

3 месяца назад

Борис

4
комментария

0
читателей

Полный профиль

Борис - 50/50 Описанная тобой ситуация (надеюсь, не против, что сразу на "ты") — типичная и вообще не требует какого-то глубинного опыта. Достаточно немного логики и наблюдательности. Разобью на пункты для читабельности: 1) Каннибализацию очень просто распознать. Достаточно загрузить СЯ в систему съёма позиций и мониторить источники. Если происходит некое «мигание» — идём (повторно) в топ, смотрим, подтверждаем гипотезу — склеиваем. 2) Но чаще всего эту проблему можно решить на уровне качественной группировки СЯ. А некоторые кластеры со знаком вопроса, которые мы решили разделить на несколько, достаточно держать под контролем. И снова получается, что внимательность и логика здесь могут помочь. И никакого серьёзного опыта не требуется. 3) Соглашусь, что в Яндексе правило "Интент = одна страница" — очень важно, но не всегда. Например, есть кластер, связанный с установкой сантехники, который включает запросы: "установка сантехники", "цена на установку сантехники". Вот здесь, как раз, для многих может быть неочевидно, что кластер лучше разделить на два: "Установка сантехники" и "Цена на установку сантехники". 4) Продолжая мысль из п.3 — в такой ситуации в Яндексе (скорее всего) всё будет ок. И никакой каннибализации не произойдёт. 5) Если говорить про Google (тот же п.3), то здесь, вероятно, возникнут проблемы (всё зависит от оптимизации страниц). Эти два кластера могут не дотянуть до топа из-за своей релевантности. Мы все знаем, что Google может «съесть» страницу с несколькими интентами, и всё будет ок. (в этом предложении пасхалка, что нужно сделать ;)) А если ещё поработать над ссылочным — вообще сказка. Конечно, эту проблему можно решить, но если переборщить, то каннибализация может уже произойти в Яндексе. Вот как раз чтобы уловить эту тонкую грань, и нужен хоть какой-то опыт, которого часто нет у джунов.

Россиянам могут запретить рекламу в Instagram* и Facebook*

2 комментария

3 месяца назад

Марина Ибушева

66
комментариев

0
читателей

Полный профиль

Марина Ибушева - Окончательное как раз и означает третье. Любой законопроект перед тем, как отправиться в Совет Федерации и на подпись прзиденту, проходит в России три обязательные стадии рассмотрения в Государственной Думе: Первое чтение - обсуждается общая концепция законопроекта. Второе чтение - более детальное обсуждение проекта, поправки и дополнения. Третье чтение (окончательное) - голосование за проект. Так что ожидается 25 марта второе и третье, окончательное чтение.

Фиды, фильтры, внутренний поиск: как выжать максимум при технических ограничениях и увеличить трафик более чем в 5 раз

2 комментария

1 месяц назад

i-Media интернет-агентство

2
комментария

0
читателей

Полный профиль

i-Media интернет-агентство - Google Merchant работает, товары показываются - в кейсе есть скриншот с примером.

Целевая аудитория: как найти и встроиться в ее вселенную

2 комментария

3 месяца назад

Александра

2
комментария

0
читателей

Полный профиль

Александра - Здравствуйте! Благодарю Вас за отличную статью! Много полезной информации, написано доступным языком.

Количество пользователей ИИ в сервисах Mail превысило 5 млн человек

2 комментария

4 месяца назад

Сергей Карененко

1
комментарий

0
читателей

Полный профиль

Сергей Карененко - Поздравление еще худо бедно написать можно. А когда в почте больше 10к писем, вот тут хорошо, что ии есть)

В Почте и Облаке Mail появился новый тариф – «Семейный»

2 комментария

1 месяц назад

Анна Макарова

393
комментария

0
читателей

Полный профиль

Анна Макарова - Да, конечно, владелец видит все файлы. А про других пользователей так написано: подключившие этот тариф, могут добавлять в подписку до 4 пользователей. Всем, кого пригласили в подписку, предоставляется доступ к терабайту облачного пространства для общих дел.

Застройщик в тумане. Как девелоперу лучше контролировать агентства

1 комментарий

5 месяцев назад

Гость

1
комментарий

0
читателей

Полный профиль

Гость - Тут важно, чтобы и застройщики были готовы согласовать гипотезы, оптимизацию и корректировки креативов, а не отказывались от всего предложенного, а потом спрашивали , почему ничего не сделано

Что такое поведенческие факторы и как их улучшить легальными методами

1 комментарий

3 месяца назад