Go Analytics! 2018

Некоторые особенности индексации сайта роботами Яндекса

Россия+7 (495) 960-65-87
Шрифт:
0 6535

1. Вступление
2. История роботов Яндекса
3. Роботы Яндекса
4. Процесс индексации документа
5. Возможные препятствия при индексации документа
6. Заключение

1. Вступление

Яндекс сегодня является самой популярной поисковой системой русскоязычного Интернета, которой каждый день пользуется более миллиона человек. Такая популярность объясняется тем, что база Яндекса содержит огромное количество проиндексированных страниц Интернета, содержащих самую разнообразную и порой уникальную информацию. Вкупе с алгоритмом поиска это приводит к высокой релевантности документов, найденных по запросу пользователя и, в конечном счете, к полному удовлетворению информационной потребности пользователя.

На 17.07.06 Яндексом было проиндексировано 1 058 914 756 веб-страниц. Получение информации с сайтов Интернета и отправка ее в базу поисковой системы – задача специального робота-индексатора. Во многом благодаря высокой скорости его работы на сегодняшний день Яндекс имеет такую обширную базу документов для поиска.

2. История роботов Яндекса

Яндекс появился в 1996 году. Но не в качестве поисковой системы, а в виде нескольких обособленных продуктов. Например, Яndex.Site – программа, производящая поиск на сайте, Яndex.CD – программа поиска документов на сd-диске.

Сама же поисковая система возникла осенью 1997 года. 23 сентября на выставке Softool Яндекс был официально представлен уже в качестве полнофункциональной поисковой системы Интернета. С тех пор объем Рунета непрерывно возрастал, что вынуждало совершенствовать алгоритмы индексирования и поиска информации.

Поэтому в 1999 году был создан новый поисковый робот, который помимо значительного увеличения скорости индексации позволил пользователям искать информацию по разным зонам документа – в URL, в заголовках, в ссылках и т.п.

Сейчас официально анонсировано 11 роботов Яндекса, каждый из которых специализируется на определенной задаче.

3. Роботы Яндекса

Робот каждой поисковой системы имеет свое имя. Например, у Рамблера – «StackRambler/2.0», у Гугла – «Googlebot/2.1». Яндекс в своем составе имеет несколько специализированных роботов, выполняющих строго определенные задачи. Вот каких роботов Яндекса можно встретить:

  1. Yandex/1.01.001 (compatible; Win16; I) – основной индексирующий робот Яндекса. Это самый важный робот, функция которого – поиск и индексирование информации, найденной на просторах российского Интернета. Для всех seo-специалистов очень важно отслеживать появление на своих сайтах робота-индексатора. Обычно робот заходит со следующих ip-адресов: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Поэтому, увидев в логах своего сайта заветное слово yandex, обратите свое внимание на ip-адрес, потому как в Интернете сейчас существует достаточное большое количество сервисов тестирования сайта, которые позволяют заходить на странички, представляясь как user agent: Yandex/1.01.001 (compatible; Win16; I) Может оказаться, что вовсе и не Яндекс посетил Ваш сайт.
  2. Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок, которые впоследствии будут доступны в поиске на http://images.yandex.ru. Для поисковой системы самым простым путем определения, соответствует ли картинка запросу пользователя, является анализ тега alt. Второй путь, который как и первый скорее всего использует сервис Яндекс.Картинки – анализ имени файла. Например, посмотрите на замечательные лотосы на странице http://en.npftravel.ru/news/issue_117.html. Ни одного упоминания слова «лотос» в теле документа, однако картинка все-таки была найдена по запросу «лотос» благодаря тому, что файл имеет имя lotos.jpg!
  3. Yandex/1.01.001 (compatible; Win16; H) – робот, определяющий зеркала сайтов. Задача этого робота – определение степени схожести двух документов. Если документы очень похожи друг на друга, в результатах выдачи Яндекс скорее всего покажет только один сайт.
  4. Yandex/1.03.003 (compatible; Win16; D) – робот, определяющий доступность страницы для индексации при добавлении ее через форму «Добавить URL».
  5. Yandex/1.03.000 (compatible; Win16; M) – робот, обращающийся при открытии страницы по ссылке «Найденные слова».
  6. YaDirectBot/1.0 (compatible; Win16; I) – робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса.
  7. Yandex/1.02.000 (compatible; Win16; F) – робот, индексирующий иконки сайтов (favicons), которые показываются потом в результатах поиска слева от ссылки на найденный сайт.

Кроме того у Яндекса есть группа роботов, которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.

  1. Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
  2. Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
  3. Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
  4. Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.

В отличие от роботов первой группы, эти роботы не забирают содержимое странички, а фиксируют лишь ответ сервера. Поэтому они делают несколько другой запрос к серверу. Например, посещение робота Dyatel может быть зафиксировано в логах сервера в виде строки следующего содержания:

213.180.193.53 - - [02/Jun/2006:02:22:00 +0400] "HEAD / HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (compatible; Win16; Dyatel; C)".

Как видно, используется директива Head, запрашивающая только лишь заголовки сервера. В данном случае сайт доступен, так как был возвращен статусный код 200 ОК.

Кроме перечисленных роботов, у Яндекса есть так называемый «быстрого робота» – частота индексации им документа больше в несколько раз, чем у обычного робота-индексатора. По заявлению главного редактора компании "Яндекс" Елены Колмановской: «Быстрый робот нужен для индексации актуальных документов, наиболее востребованных пользователями».

Узнать, посещал ли сайт быстрый робот, можно только одним путем – в результатах поиска рядом с адресом страницы сайта должна появиться небольшая приписка, обозначающая, сколько часов назад страницу посетил быстрый робот. Например, «5 часов назад».

4. Процесс индексации документа

Процесс индексации документа роботами поисковых систем как правило начинается с добавления сайта в форму на специальной странице. Для Яндекса это страница http://webmaster.yandex.ru/. Здесь требуется ввести лишь адрес сайта, никаких дополнительных данных вносить не требуется. А вот в Рамблере, например, требуется указывать еще и название сайта, короткое описание регистрируемого сайта и контактное лицо.

Если сайт добавляется впервые, то Яндекс выдаст сообщение:

«Адрес http://example.com/ успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска»

Если сайт уже посещался роботом-индексатором, то появится сообщение:

Документ http://example.com/ уже проиндексирован и доступен для поиска.
Вы можете посмотреть, какие страницы сайта http://example.com/ доступны в Яндексе к настоящему времени (* страниц).

После добавления нового сайта через форму, его тут же посетит робот Yandex/1.03.003 (compatible; Win16; D). Он определит доступность сайта для индексирования, а также установит, удовлетворяет ли сайт требованиям Яндекса, основным из которых является требование русскоязычности ресурса. Поэтому, как пример, может возникнуть такая ситуация:

Адрес http://www.example.com/ не был внесен в базу Яндекса, так как сайт http://www.example.com/ находится вне доменов стран СНГ, при этом наш робот не смог распознать в нем русский текст.

Если же все хорошо, то в логах сайта можно будет обнаружить строку:

213.180.206.223 - - [18/Jul/2006:10:22:08 +0400] "GET /robots.txt HTTP/1.1" 404 296 "-" "Yandex/1.03.003 (compatible; Win16; D)"
213.180.206.223 - - [18/Jul/2006:10:22:08 +0400] "GET / HTTP/1.1" 200 2674 "-" "Yandex/1.03.003 (compatible; Win16; D)"

Видно, что сначала робот обратился к файлу robots.txt чтобы определить, не запрещен ли сайт к индексации. Затем уже обратился к главной странице.

После добавления сайта на странице http://webmaster.yandex.ru/ менее чем через два дня сайт посетит робот-индексатор Yandex/1.01.001 (compatible; Win16; I). И еще через некоторое время сайт будет доступен для поиска в Яндексе.

5. Возможные препятствия при индексации документа

Есть несколько причин, препятствующих правильной индексации сайта в Яндексе.

  1. Технические неполадки:
      a. Некорректная работа сервера, отдача 404 ошибки.
      b. большое время ответа сервера (Например, по причине его большой загрузки. Также большое время ответа характерно для бесплатных хостингов)
  2. Искусственный запрет индексации:
      a. запрет индексирования отдельных страниц в файле robots.txt
      b. запрет индексирования с помощью meta-тегов < meta name="”robots”">
  3. Другое:
      a. очень маленький размер страницы (Яндекс не индексирует файлы меньше 1 кб)
      b. ресурс не содержит русский текст

6. Заключение

Следует отметить, что Яндекс индексирует не только документы html. Кроме них доступными для индексации являются документы следующих типов: PDF (файл Adobe Acrobat), DOC (MS Word), RTF (Reach text format). Также Яндекс индексирует сайты, созданные на основе Flash-технологий. А вот Рамблер индексирует только файлы html, htm, shtml, а динамические страницы и flash сайты индексирует плохо.

Просмотреть, в каком виде хранится web-страничка в базе Яндекса, можно следующим образом.

  1. Сначала нужно сделать так, чтобы страница попала в выдачу. Проще всего воспользоваться «расширенным поиском Яндекса». Вписать в поле «находятся на сайте» url сайта, например, www.seonews.ru и далее в окно поиска ввести слово с требуемой страницы, например, «мастер-класс».
  2. Найти в результатах поиска нужную страницу и нажать на ссылку «найденные слова».
  3. Далее в верхней части документа нажать на ссылку «сохраненная копия»:
  4. В новом окне откроется так называемая «сохраненная копия Яндекса». Можно посмотреть и сравнить с оригиналом документа. Может оказаться, что некоторые слова Яндексом не проиндексированы.

Неиндексация некоторых элементов страницы может быть вызвана несколькими причинами:

  1. Текст заключен в тег . Это специальный тег, запрещающий индексацию текста роботу Яндекса.
  2. Текст расположен в скрипте, т.е между тегами < script>
  3. Текст расположен в комментариях

Каждому, кто ведет в Интернете серьезный проект, необходимо понимать основные принципы работы роботов-индексаторов поисковых систем. Знание о том, когда робот приходит на сайт, что индексирует, что не индексирует, позволит избежать многих проблем, прежде всего технических, уже на стадии создания сайта и далее – при его сопровождении.

Чтобы не задаваться вопросом, почему в очередной раз сайт пропал из выдачи по некоторому запросу, прежде всего, стоит проанализировать, а что же на данный момент проиндексировал робот на сайте? Не могло оказаться так, что некоторая информация стала недоступна роботу по тем или иным причинам?

Знание основным моментов процесса индексирования документа позволит правильно произвести регистрацию ресурса в поисковой системе и грамотно осуществлять его дальнейшее продвижение, чтобы пользователи всегда находили Ваш сайт на просторах Интернета.

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Кейс: как продвинуть сайт производителя мебели на заказ в Москве
    Иван Стороженко
    16
    комментариев
    0
    читателей
    Полный профиль
    Иван Стороженко - Примерный бюджет 150 000 руб.
    Рейтинг «Известность бренда SEO-компаний 2017»: народное голосование
    Гость
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость - 1) Ingate 2) Ашманов 3) Кокос 4) Russian Promo 5) Netpeak
    «Баден-Баден»: как выйти из-под фильтра
    Александр Кравцов
    1
    комментарий
    0
    читателей
    Полный профиль
    Александр Кравцов - Всем привет Вот ещё пациент www.gdebar.ru Под фильтром с 20 декабря, прошёл месяц, сегодня обновилось, что можете нажать сново проверить сайт и ждать 59 дней.Может кто сталкивался и сможет как то подсказать? Аудитом например или ещё как то проверить, что стоит подправить,скайп мой icejhell. Готов так же к совместному общению по решению проблемы. Всем успехов )
    Второе дыхание ссылочного продвижения
    Rookee.ru
    24
    комментария
    0
    читателей
    Полный профиль
    Rookee.ru - Еще лучше, когда продвижение осуществляется комплексно :)
    Исследование: влияние smart-ссылок на продвижение по СЧ-запросам
    Анатолий Шевчик
    1
    комментарий
    0
    читателей
    Полный профиль
    Анатолий Шевчик - +1097988
    Контекст под SEO. Как поисковая реклама помогает позициям в органической выдаче
    Сергей Дембицкий «Sima-Land.ru»
    22
    комментария
    0
    читателей
    Полный профиль
    Сергей Дембицкий «Sima-Land.ru» - Боже мой, неужели SEO-маги вернулись??? Открыть в роботс utm-метки для индексации и наплодить дублей...что? А расчеты в конце статьи про бюджет на SEO и контекст...откуда эти пропорции? Как по мне, SEO-магия вне Хогвартс. Спасибо, развеселили!
    «Прямая линия» с Александром Алаевым («АлаичЪ и Ко»): отвечаем на вопросы
    Александр Алаев
    13
    комментариев
    0
    читателей
    Полный профиль
    Александр Алаев - Роман. Тут ответ очень простой. Каждый запрос можно четко разделить на коммерческий или некоммерческий. "Купить слона" и его длинные хвосты - коммерческий. "Как выбрать слона" и подобные - информационные. Вот под коммерческие ключи должны быть страницы услуг или каталога товаров. А под информационку - блог. Очень важно не путать их, тем более несоответствующая коммерческим факторам страниц просто не продвинется, то есть по запросу с "купить" блог никогда не будет показываться в выдаче, так же как и страница услуги/товаров не покажется по "как выбрать". Понятно примерно?
    Кейс: продвигаем бизнес по продаже пластиковых окон в Москве
    Иван Стороженко
    16
    комментариев
    0
    читателей
    Полный профиль
    Иван Стороженко - 1. По началу вообще не использовали, сейчас уже много каналов используется. 2. Все может быть, в принципе сайты должны быть удобны для пользователя, для этого и нужна схожесть между собой. Честно говоря старались брать все самое интересное у конкурентов + подкреплять своими идеями.
    Западные специалисты выяснили, как повысить позиции ресурса в выдаче Google
    Максим Мирошник
    2
    комментария
    0
    читателей
    Полный профиль
    Максим Мирошник -
    Все, что нужно SEO-специалисту. Обзор инструментов
    Назар
    2
    комментария
    0
    читателей
    Полный профиль
    Назар - SE Ranking еще бывают траблы со съемом позиций, бывает запросы недогружает....
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    317
    Комментариев
    262
    Комментариев
    232
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    85
    Комментариев
    80
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    56
    Комментариев
    55
    Комментариев
    54
    Комментариев
    52

    Отправьте отзыв!
    Отправьте отзыв!