Некоторые особенности индексации сайта роботами Яндекса

Россия+7 (495) 960-65-87
Шрифт:
0 6292

1. Вступление
2. История роботов Яндекса
3. Роботы Яндекса
4. Процесс индексации документа
5. Возможные препятствия при индексации документа
6. Заключение

1. Вступление

Яндекс сегодня является самой популярной поисковой системой русскоязычного Интернета, которой каждый день пользуется более миллиона человек. Такая популярность объясняется тем, что база Яндекса содержит огромное количество проиндексированных страниц Интернета, содержащих самую разнообразную и порой уникальную информацию. Вкупе с алгоритмом поиска это приводит к высокой релевантности документов, найденных по запросу пользователя и, в конечном счете, к полному удовлетворению информационной потребности пользователя.

На 17.07.06 Яндексом было проиндексировано 1 058 914 756 веб-страниц. Получение информации с сайтов Интернета и отправка ее в базу поисковой системы – задача специального робота-индексатора. Во многом благодаря высокой скорости его работы на сегодняшний день Яндекс имеет такую обширную базу документов для поиска.

2. История роботов Яндекса

Яндекс появился в 1996 году. Но не в качестве поисковой системы, а в виде нескольких обособленных продуктов. Например, Яndex.Site – программа, производящая поиск на сайте, Яndex.CD – программа поиска документов на сd-диске.

Сама же поисковая система возникла осенью 1997 года. 23 сентября на выставке Softool Яндекс был официально представлен уже в качестве полнофункциональной поисковой системы Интернета. С тех пор объем Рунета непрерывно возрастал, что вынуждало совершенствовать алгоритмы индексирования и поиска информации.

Поэтому в 1999 году был создан новый поисковый робот, который помимо значительного увеличения скорости индексации позволил пользователям искать информацию по разным зонам документа – в URL, в заголовках, в ссылках и т.п.

Сейчас официально анонсировано 11 роботов Яндекса, каждый из которых специализируется на определенной задаче.

3. Роботы Яндекса

Робот каждой поисковой системы имеет свое имя. Например, у Рамблера – «StackRambler/2.0», у Гугла – «Googlebot/2.1». Яндекс в своем составе имеет несколько специализированных роботов, выполняющих строго определенные задачи. Вот каких роботов Яндекса можно встретить:

  1. Yandex/1.01.001 (compatible; Win16; I) – основной индексирующий робот Яндекса. Это самый важный робот, функция которого – поиск и индексирование информации, найденной на просторах российского Интернета. Для всех seo-специалистов очень важно отслеживать появление на своих сайтах робота-индексатора. Обычно робот заходит со следующих ip-адресов: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Поэтому, увидев в логах своего сайта заветное слово yandex, обратите свое внимание на ip-адрес, потому как в Интернете сейчас существует достаточное большое количество сервисов тестирования сайта, которые позволяют заходить на странички, представляясь как user agent: Yandex/1.01.001 (compatible; Win16; I) Может оказаться, что вовсе и не Яндекс посетил Ваш сайт.
  2. Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок, которые впоследствии будут доступны в поиске на http://images.yandex.ru. Для поисковой системы самым простым путем определения, соответствует ли картинка запросу пользователя, является анализ тега alt. Второй путь, который как и первый скорее всего использует сервис Яндекс.Картинки – анализ имени файла. Например, посмотрите на замечательные лотосы на странице http://en.npftravel.ru/news/issue_117.html. Ни одного упоминания слова «лотос» в теле документа, однако картинка все-таки была найдена по запросу «лотос» благодаря тому, что файл имеет имя lotos.jpg!
  3. Yandex/1.01.001 (compatible; Win16; H) – робот, определяющий зеркала сайтов. Задача этого робота – определение степени схожести двух документов. Если документы очень похожи друг на друга, в результатах выдачи Яндекс скорее всего покажет только один сайт.
  4. Yandex/1.03.003 (compatible; Win16; D) – робот, определяющий доступность страницы для индексации при добавлении ее через форму «Добавить URL».
  5. Yandex/1.03.000 (compatible; Win16; M) – робот, обращающийся при открытии страницы по ссылке «Найденные слова».
  6. YaDirectBot/1.0 (compatible; Win16; I) – робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса.
  7. Yandex/1.02.000 (compatible; Win16; F) – робот, индексирующий иконки сайтов (favicons), которые показываются потом в результатах поиска слева от ссылки на найденный сайт.

Кроме того у Яндекса есть группа роботов, которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.

  1. Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
  2. Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
  3. Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
  4. Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.

В отличие от роботов первой группы, эти роботы не забирают содержимое странички, а фиксируют лишь ответ сервера. Поэтому они делают несколько другой запрос к серверу. Например, посещение робота Dyatel может быть зафиксировано в логах сервера в виде строки следующего содержания:

213.180.193.53 - - [02/Jun/2006:02:22:00 +0400] "HEAD / HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (compatible; Win16; Dyatel; C)".

Как видно, используется директива Head, запрашивающая только лишь заголовки сервера. В данном случае сайт доступен, так как был возвращен статусный код 200 ОК.

Кроме перечисленных роботов, у Яндекса есть так называемый «быстрого робота» – частота индексации им документа больше в несколько раз, чем у обычного робота-индексатора. По заявлению главного редактора компании "Яндекс" Елены Колмановской: «Быстрый робот нужен для индексации актуальных документов, наиболее востребованных пользователями».

Узнать, посещал ли сайт быстрый робот, можно только одним путем – в результатах поиска рядом с адресом страницы сайта должна появиться небольшая приписка, обозначающая, сколько часов назад страницу посетил быстрый робот. Например, «5 часов назад».

4. Процесс индексации документа

Процесс индексации документа роботами поисковых систем как правило начинается с добавления сайта в форму на специальной странице. Для Яндекса это страница http://webmaster.yandex.ru/. Здесь требуется ввести лишь адрес сайта, никаких дополнительных данных вносить не требуется. А вот в Рамблере, например, требуется указывать еще и название сайта, короткое описание регистрируемого сайта и контактное лицо.

Если сайт добавляется впервые, то Яндекс выдаст сообщение:

«Адрес http://example.com/ успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска»

Если сайт уже посещался роботом-индексатором, то появится сообщение:

Документ http://example.com/ уже проиндексирован и доступен для поиска.
Вы можете посмотреть, какие страницы сайта http://example.com/ доступны в Яндексе к настоящему времени (* страниц).

После добавления нового сайта через форму, его тут же посетит робот Yandex/1.03.003 (compatible; Win16; D). Он определит доступность сайта для индексирования, а также установит, удовлетворяет ли сайт требованиям Яндекса, основным из которых является требование русскоязычности ресурса. Поэтому, как пример, может возникнуть такая ситуация:

Адрес http://www.example.com/ не был внесен в базу Яндекса, так как сайт http://www.example.com/ находится вне доменов стран СНГ, при этом наш робот не смог распознать в нем русский текст.

Если же все хорошо, то в логах сайта можно будет обнаружить строку:

213.180.206.223 - - [18/Jul/2006:10:22:08 +0400] "GET /robots.txt HTTP/1.1" 404 296 "-" "Yandex/1.03.003 (compatible; Win16; D)"
213.180.206.223 - - [18/Jul/2006:10:22:08 +0400] "GET / HTTP/1.1" 200 2674 "-" "Yandex/1.03.003 (compatible; Win16; D)"

Видно, что сначала робот обратился к файлу robots.txt чтобы определить, не запрещен ли сайт к индексации. Затем уже обратился к главной странице.

После добавления сайта на странице http://webmaster.yandex.ru/ менее чем через два дня сайт посетит робот-индексатор Yandex/1.01.001 (compatible; Win16; I). И еще через некоторое время сайт будет доступен для поиска в Яндексе.

5. Возможные препятствия при индексации документа

Есть несколько причин, препятствующих правильной индексации сайта в Яндексе.

  1. Технические неполадки:
      a. Некорректная работа сервера, отдача 404 ошибки.
      b. большое время ответа сервера (Например, по причине его большой загрузки. Также большое время ответа характерно для бесплатных хостингов)
  2. Искусственный запрет индексации:
      a. запрет индексирования отдельных страниц в файле robots.txt
      b. запрет индексирования с помощью meta-тегов < meta name="”robots”">
  3. Другое:
      a. очень маленький размер страницы (Яндекс не индексирует файлы меньше 1 кб)
      b. ресурс не содержит русский текст

6. Заключение

Следует отметить, что Яндекс индексирует не только документы html. Кроме них доступными для индексации являются документы следующих типов: PDF (файл Adobe Acrobat), DOC (MS Word), RTF (Reach text format). Также Яндекс индексирует сайты, созданные на основе Flash-технологий. А вот Рамблер индексирует только файлы html, htm, shtml, а динамические страницы и flash сайты индексирует плохо.

Просмотреть, в каком виде хранится web-страничка в базе Яндекса, можно следующим образом.

  1. Сначала нужно сделать так, чтобы страница попала в выдачу. Проще всего воспользоваться «расширенным поиском Яндекса». Вписать в поле «находятся на сайте» url сайта, например, www.seonews.ru и далее в окно поиска ввести слово с требуемой страницы, например, «мастер-класс».
  2. Найти в результатах поиска нужную страницу и нажать на ссылку «найденные слова».
  3. Далее в верхней части документа нажать на ссылку «сохраненная копия»:
  4. В новом окне откроется так называемая «сохраненная копия Яндекса». Можно посмотреть и сравнить с оригиналом документа. Может оказаться, что некоторые слова Яндексом не проиндексированы.

Неиндексация некоторых элементов страницы может быть вызвана несколькими причинами:

  1. Текст заключен в тег . Это специальный тег, запрещающий индексацию текста роботу Яндекса.
  2. Текст расположен в скрипте, т.е между тегами < script>
  3. Текст расположен в комментариях

Каждому, кто ведет в Интернете серьезный проект, необходимо понимать основные принципы работы роботов-индексаторов поисковых систем. Знание о том, когда робот приходит на сайт, что индексирует, что не индексирует, позволит избежать многих проблем, прежде всего технических, уже на стадии создания сайта и далее – при его сопровождении.

Чтобы не задаваться вопросом, почему в очередной раз сайт пропал из выдачи по некоторому запросу, прежде всего, стоит проанализировать, а что же на данный момент проиндексировал робот на сайте? Не могло оказаться так, что некоторая информация стала недоступна роботу по тем или иным причинам?

Знание основным моментов процесса индексирования документа позволит правильно произвести регистрацию ресурса в поисковой системе и грамотно осуществлять его дальнейшее продвижение, чтобы пользователи всегда находили Ваш сайт на просторах Интернета.

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Рейтинг «Известность бренда SEO-компаний 2017»: народное голосование
    Иван
    1
    комментарий
    0
    читателей
    Полный профиль
    Иван - 1) IT-Agency 2) Пиксели 3) 1ps 4) Ингейт 5) Нетпики
    «Баден-Баден»: как выйти из-под фильтра
    Сергей Дембицкий «Sima-Land.ru»
    16
    комментариев
    0
    читателей
    Полный профиль
    Сергей Дембицкий «Sima-Land.ru» - Скрины Метрики показывать не буду, но мы (sima-land.ru - 1,5 млн. стр. в поиске Яндекс) в сентябре загремели под ББ, в разгар сезона и вышли из-под фильтра, спустя 50 дней, удалив все тексты с сайта: категории + карточки товаров (описание). Трафик с Google только вырос. Тексты возвращать собираемся, но процесс будет длительный, тексты будем теперь писать исключительно полезные, т.к. было больно :-))
    Второе дыхание ссылочного продвижения
    Автопилот
    14
    комментариев
    0
    читателей
    Полный профиль
    Автопилот - Еще лучше, когда продвижение осуществляется комплексно :)
    Кейс: продвигаем бизнес по продаже пластиковых окон в Москве
    Иван Стороженко
    5
    комментариев
    0
    читателей
    Полный профиль
    Иван Стороженко - 1. По началу вообще не использовали, сейчас уже много каналов используется. 2. Все может быть, в принципе сайты должны быть удобны для пользователя, для этого и нужна схожесть между собой. Честно говоря старались брать все самое интересное у конкурентов + подкреплять своими идеями.
    «Прямая линия» с Александром Алаевым («АлаичЪ и Ко»): отвечаем на вопросы
    Александр Алаев
    13
    комментариев
    0
    читателей
    Полный профиль
    Александр Алаев - Роман. Тут ответ очень простой. Каждый запрос можно четко разделить на коммерческий или некоммерческий. "Купить слона" и его длинные хвосты - коммерческий. "Как выбрать слона" и подобные - информационные. Вот под коммерческие ключи должны быть страницы услуг или каталога товаров. А под информационку - блог. Очень важно не путать их, тем более несоответствующая коммерческим факторам страниц просто не продвинется, то есть по запросу с "купить" блог никогда не будет показываться в выдаче, так же как и страница услуги/товаров не покажется по "как выбрать". Понятно примерно?
    Инфографика: самые распространенные SEO-ошибки Рунета
    Dmitro Grunt
    2
    комментария
    0
    читателей
    Полный профиль
    Dmitro Grunt - Кстати, у проектов которые продвигает Нетпик все тайтлы не более 65 символов? Или вы надеетесь что кто то послушает советов и отдаст вам часть трафика? :-)
    Google.ru внесли в реестр запрещенных сайтов
    Гость
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость - Гон, все работает и будет работать. Да и пусть банят, будет как с рутрекером.
    Сердитый маркетолог: как вы сами хороните свой сайт, или 16 принципов, которые нужно усвоить заказчикам SEO
    Анна Макарова
    313
    комментария
    0
    читателей
    Полный профиль
    Анна Макарова - Artem Sergeev, ваш комментарий удален за агрессивный настрой и безосновательные обвинения. Держите себя в руках!
    Как бесплатно публиковать гостевые посты без миралинкс и бирж ссылок
    Liliya
    1
    комментарий
    0
    читателей
    Полный профиль
    Liliya - Лично для меня черный гостевой постинг со всеми этими биржами ссылок (таких как www.miralinks.ru и sponsoredreviews.com... ) давно уже в прошлом. Белый постинг имеет на много больше преимуществ, перечислять их конечно же не буду... А вообще, хотела поблагодарить за Ваш онлайн-калькулятор, действительно ускорил мне работу, а еще он удобный и быстрый в использовании.
    «Прямая линия» с Артуром Латыповым: отвечаем на вопросы
    God Koss
    1
    комментарий
    0
    читателей
    Полный профиль
    God Koss - Добрый день! Есть сайты одной компании продвигающиеся в разных странах. .ru .com .net. На российском сайте два языка ru и en, на остальных до 10 языков. Недавно сайт ru по основному брендовому запросу выпал из выдачи Яндекс но после апа вернулся на вторую позицию. На вопрос аффилирования в тех поддержку, получит ответ, что всё в порядке и сайт com не учавствует в выдаче. Но он есть и занимает 1 место. Как быть в данной ситуации? Так же, после возврата в топ 10 по этому запросу зашла еще одна внутренняя страница. Могло ли это случиться из-за каннибализации запроса? Немного изменил description на внутренней, исключил вхождения брендового запроса. Жду апа. Хотел бы услышать ваше мнение. Заранее благодарю!
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    313
    Комментариев
    262
    Комментариев
    229
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    80
    Комментариев
    77
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    55
    Комментариев
    54
    Комментариев
    52
    Комментариев
    49

    Отправьте отзыв!
    Отправьте отзыв!