Рекламные кампании для вашего бизнеса
Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:

Некоторые особенности индексации сайта роботами Яндекса

Россия +7 (495) 960-65-87
Шрифт:
0 5012

1. Вступление
2. История роботов Яндекса
3. Роботы Яндекса
4. Процесс индексации документа
5. Возможные препятствия при индексации документа
6. Заключение

1. Вступление

Яндекс сегодня является самой популярной поисковой системой русскоязычного Интернета, которой каждый день пользуется более миллиона человек. Такая популярность объясняется тем, что база Яндекса содержит огромное количество проиндексированных страниц Интернета, содержащих самую разнообразную и порой уникальную информацию. Вкупе с алгоритмом поиска это приводит к высокой релевантности документов, найденных по запросу пользователя и, в конечном счете, к полному удовлетворению информационной потребности пользователя.

На 17.07.06 Яндексом было проиндексировано 1 058 914 756 веб-страниц. Получение информации с сайтов Интернета и отправка ее в базу поисковой системы – задача специального робота-индексатора. Во многом благодаря высокой скорости его работы на сегодняшний день Яндекс имеет такую обширную базу документов для поиска.

2. История роботов Яндекса

Яндекс появился в 1996 году. Но не в качестве поисковой системы, а в виде нескольких обособленных продуктов. Например, Яndex.Site – программа, производящая поиск на сайте, Яndex.CD – программа поиска документов на сd-диске.

Сама же поисковая система возникла осенью 1997 года. 23 сентября на выставке Softool Яндекс был официально представлен уже в качестве полнофункциональной поисковой системы Интернета. С тех пор объем Рунета непрерывно возрастал, что вынуждало совершенствовать алгоритмы индексирования и поиска информации.

Поэтому в 1999 году был создан новый поисковый робот, который помимо значительного увеличения скорости индексации позволил пользователям искать информацию по разным зонам документа – в URL, в заголовках, в ссылках и т.п.

Сейчас официально анонсировано 11 роботов Яндекса, каждый из которых специализируется на определенной задаче.

3. Роботы Яндекса

Робот каждой поисковой системы имеет свое имя. Например, у Рамблера – «StackRambler/2.0», у Гугла – «Googlebot/2.1». Яндекс в своем составе имеет несколько специализированных роботов, выполняющих строго определенные задачи. Вот каких роботов Яндекса можно встретить:

  1. Yandex/1.01.001 (compatible; Win16; I) – основной индексирующий робот Яндекса. Это самый важный робот, функция которого – поиск и индексирование информации, найденной на просторах российского Интернета. Для всех seo-специалистов очень важно отслеживать появление на своих сайтах робота-индексатора. Обычно робот заходит со следующих ip-адресов: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Поэтому, увидев в логах своего сайта заветное слово yandex, обратите свое внимание на ip-адрес, потому как в Интернете сейчас существует достаточное большое количество сервисов тестирования сайта, которые позволяют заходить на странички, представляясь как user agent: Yandex/1.01.001 (compatible; Win16; I) Может оказаться, что вовсе и не Яндекс посетил Ваш сайт.
  2. Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок, которые впоследствии будут доступны в поиске на http://images.yandex.ru. Для поисковой системы самым простым путем определения, соответствует ли картинка запросу пользователя, является анализ тега alt. Второй путь, который как и первый скорее всего использует сервис Яндекс.Картинки – анализ имени файла. Например, посмотрите на замечательные лотосы на странице http://en.npftravel.ru/news/issue_117.html. Ни одного упоминания слова «лотос» в теле документа, однако картинка все-таки была найдена по запросу «лотос» благодаря тому, что файл имеет имя lotos.jpg!
  3. Yandex/1.01.001 (compatible; Win16; H) – робот, определяющий зеркала сайтов. Задача этого робота – определение степени схожести двух документов. Если документы очень похожи друг на друга, в результатах выдачи Яндекс скорее всего покажет только один сайт.
  4. Yandex/1.03.003 (compatible; Win16; D) – робот, определяющий доступность страницы для индексации при добавлении ее через форму «Добавить URL».
  5. Yandex/1.03.000 (compatible; Win16; M) – робот, обращающийся при открытии страницы по ссылке «Найденные слова».
  6. YaDirectBot/1.0 (compatible; Win16; I) – робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса.
  7. Yandex/1.02.000 (compatible; Win16; F) – робот, индексирующий иконки сайтов (favicons), которые показываются потом в результатах поиска слева от ссылки на найденный сайт.

Кроме того у Яндекса есть группа роботов, которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.

  1. Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
  2. Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
  3. Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
  4. Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.

В отличие от роботов первой группы, эти роботы не забирают содержимое странички, а фиксируют лишь ответ сервера. Поэтому они делают несколько другой запрос к серверу. Например, посещение робота Dyatel может быть зафиксировано в логах сервера в виде строки следующего содержания:

213.180.193.53 - - [02/Jun/2006:02:22:00 +0400] "HEAD / HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (compatible; Win16; Dyatel; C)".

Как видно, используется директива Head, запрашивающая только лишь заголовки сервера. В данном случае сайт доступен, так как был возвращен статусный код 200 ОК.

Кроме перечисленных роботов, у Яндекса есть так называемый «быстрого робота» – частота индексации им документа больше в несколько раз, чем у обычного робота-индексатора. По заявлению главного редактора компании "Яндекс" Елены Колмановской: «Быстрый робот нужен для индексации актуальных документов, наиболее востребованных пользователями».

Узнать, посещал ли сайт быстрый робот, можно только одним путем – в результатах поиска рядом с адресом страницы сайта должна появиться небольшая приписка, обозначающая, сколько часов назад страницу посетил быстрый робот. Например, «5 часов назад».

4. Процесс индексации документа

Процесс индексации документа роботами поисковых систем как правило начинается с добавления сайта в форму на специальной странице. Для Яндекса это страница http://webmaster.yandex.ru/. Здесь требуется ввести лишь адрес сайта, никаких дополнительных данных вносить не требуется. А вот в Рамблере, например, требуется указывать еще и название сайта, короткое описание регистрируемого сайта и контактное лицо.

Если сайт добавляется впервые, то Яндекс выдаст сообщение:

«Адрес http://example.com/ успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска»

Если сайт уже посещался роботом-индексатором, то появится сообщение:

Документ http://example.com/ уже проиндексирован и доступен для поиска.
Вы можете посмотреть, какие страницы сайта http://example.com/ доступны в Яндексе к настоящему времени (* страниц).

После добавления нового сайта через форму, его тут же посетит робот Yandex/1.03.003 (compatible; Win16; D). Он определит доступность сайта для индексирования, а также установит, удовлетворяет ли сайт требованиям Яндекса, основным из которых является требование русскоязычности ресурса. Поэтому, как пример, может возникнуть такая ситуация:

Адрес http://www.example.com/ не был внесен в базу Яндекса, так как сайт http://www.example.com/ находится вне доменов стран СНГ, при этом наш робот не смог распознать в нем русский текст.

Если же все хорошо, то в логах сайта можно будет обнаружить строку:

213.180.206.223 - - [18/Jul/2006:10:22:08 +0400] "GET /robots.txt HTTP/1.1" 404 296 "-" "Yandex/1.03.003 (compatible; Win16; D)"
213.180.206.223 - - [18/Jul/2006:10:22:08 +0400] "GET / HTTP/1.1" 200 2674 "-" "Yandex/1.03.003 (compatible; Win16; D)"

Видно, что сначала робот обратился к файлу robots.txt чтобы определить, не запрещен ли сайт к индексации. Затем уже обратился к главной странице.

После добавления сайта на странице http://webmaster.yandex.ru/ менее чем через два дня сайт посетит робот-индексатор Yandex/1.01.001 (compatible; Win16; I). И еще через некоторое время сайт будет доступен для поиска в Яндексе.

5. Возможные препятствия при индексации документа

Есть несколько причин, препятствующих правильной индексации сайта в Яндексе.

  1. Технические неполадки:
      a. Некорректная работа сервера, отдача 404 ошибки.
      b. большое время ответа сервера (Например, по причине его большой загрузки. Также большое время ответа характерно для бесплатных хостингов)
  2. Искусственный запрет индексации:
      a. запрет индексирования отдельных страниц в файле robots.txt
      b. запрет индексирования с помощью meta-тегов < meta name="”robots”">
  3. Другое:
      a. очень маленький размер страницы (Яндекс не индексирует файлы меньше 1 кб)
      b. ресурс не содержит русский текст

6. Заключение

Следует отметить, что Яндекс индексирует не только документы html. Кроме них доступными для индексации являются документы следующих типов: PDF (файл Adobe Acrobat), DOC (MS Word), RTF (Reach text format). Также Яндекс индексирует сайты, созданные на основе Flash-технологий. А вот Рамблер индексирует только файлы html, htm, shtml, а динамические страницы и flash сайты индексирует плохо.

Просмотреть, в каком виде хранится web-страничка в базе Яндекса, можно следующим образом.

  1. Сначала нужно сделать так, чтобы страница попала в выдачу. Проще всего воспользоваться «расширенным поиском Яндекса». Вписать в поле «находятся на сайте» url сайта, например, www.seonews.ru и далее в окно поиска ввести слово с требуемой страницы, например, «мастер-класс».
  2. Найти в результатах поиска нужную страницу и нажать на ссылку «найденные слова».
  3. Далее в верхней части документа нажать на ссылку «сохраненная копия»:
  4. В новом окне откроется так называемая «сохраненная копия Яндекса». Можно посмотреть и сравнить с оригиналом документа. Может оказаться, что некоторые слова Яндексом не проиндексированы.

Неиндексация некоторых элементов страницы может быть вызвана несколькими причинами:

  1. Текст заключен в тег . Это специальный тег, запрещающий индексацию текста роботу Яндекса.
  2. Текст расположен в скрипте, т.е между тегами < script>
  3. Текст расположен в комментариях

Каждому, кто ведет в Интернете серьезный проект, необходимо понимать основные принципы работы роботов-индексаторов поисковых систем. Знание о том, когда робот приходит на сайт, что индексирует, что не индексирует, позволит избежать многих проблем, прежде всего технических, уже на стадии создания сайта и далее – при его сопровождении.

Чтобы не задаваться вопросом, почему в очередной раз сайт пропал из выдачи по некоторому запросу, прежде всего, стоит проанализировать, а что же на данный момент проиндексировал робот на сайте? Не могло оказаться так, что некоторая информация стала недоступна роботу по тем или иным причинам?

Знание основным моментов процесса индексирования документа позволит правильно произвести регистрацию ресурса в поисковой системе и грамотно осуществлять его дальнейшее продвижение, чтобы пользователи всегда находили Ваш сайт на просторах Интернета.

internet-dlya-biznesa
Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Поделиться 
Поделиться дискуссией:
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
23 действительно эффективных совета по продвижению интернет-магазина
Гость - Троль Гуру паНгинации - Что такое паНгинация?))))
Конкурс: угадайте пятерку лидеров рейтинга «SEO глазами клиентов 2016»
Марина
1
комментарий
0
читателей
Полный профиль
Марина - Ingate i-Media SEO.RU Netpeak 1PS.RU
Анализ ссылок: сравнение многофункциональных платформ по размеру их баз
Михаил - Хватит пениться на каждый аргументированный отзыв. Это не придает вашей компании чести.
Как создать интернет-магазин: сколько стоит открытие?
Гость - да у битрикса что ни обновление - то сплошные баги. недавно знакомый обновился на лицензии интернет-магазина, про***лись заказы за последнюю неделю, слетели все связи по складам. одним словом, жопа. при этом обновился на сразу, а спустя месяц после выкатывания, надеялся, успеют все поправить
Как упростить продвижение вечными ссылками?
Coursh - Зарегестрировался. Накинули 1100 рубликов за пополнение на 10к. Очень неплохо!
Вопрос недели: почему сайт хорошо ранжируется в Google и не интересует Яндекс?
Nina S.Dzh. - У вас достаточно конкурентная тематика для рунета и по главной странице домена расположена англоязычная версия. Полагаю, в этих двух фактах вся проблема. Поскольку Яндекс в данном случае считает английскую версию сайта приоритетной, а среди ваших конкурентов в выдаче достаточно много хороших русскоязычных сайтов, то он и не ранжирует ваш сайт высоко. Грубо говоря, ему есть что предложить пользователю и без вашего сайта. На мой взгляд, в данном случае версии нужно разводить по разным доменам, русскую вешать на RU и продвигать там.
Кому и зачем нужен маркетплейс от Яндекса
Дарья Калинская
0
комментариев
0
читателей
Полный профиль
Дарья Калинская - Максим, спасибо, рада, что статья оказалась полезной )
ТОП-10 автоматизированных сервисов контекстной рекламы
Жанна Рожкова
154
комментария
0
читателей
Полный профиль
Жанна Рожкова - Научитесь отличать рекламу от PR-активности. Если следовать вашей логике, на этом сайте (и на всех остальных информационных ресурсах в принципе) кроме рекламы ничего и нет. Так что насчет статьи от понимающего эксперта? Будем рады, если подготовите
Конкурс: угадай победителя рейтинга «Известность бренда SEO-компаний»
Андрей
1
комментарий
0
читателей
Полный профиль
Андрей - Оптимизм Дэмис Кокос Ашманов и Партнеры Раш эдженси
Экспериментальное SEO: «Дырявые носочки панды»
Adrian - Испания и Португалия находятся в Европе и участвовали в чемпионате Европы. Одна из этих стран даже стала победителем. А Южная и Центральная Америка здесь при том, что там разговаривают на испанском и португальском языках. Сына, учите географию.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
285
Комментариев
262
Комментариев
200
Комментариев
171
Комментариев
154
Комментариев
137
Комментариев
123
Комментариев
97
Комментариев
97
Комментариев
93
Комментариев
80
Комментариев
70
Комментариев
67
Комментариев
60
Комментариев
55
Комментариев
52
Комментариев
49
Комментариев
45
Комментариев
44

Отправьте отзыв!
Отправьте отзыв!