×
Россия +7 (495) 139-20-33

Роботы поисковых систем

Россия +7 (495) 139-20-33
Шрифт:
1 18250
Подпишитесь на нас в Telegram

1. Вступление. Что такое робот?
2. Робот как часть поисковой системы
3. Порядок индексирования страницы роботом
4. Типы роботов
5. Управление роботом поисковой системы
6. Заключение

1. Вступление. Что такое робот? 

Роботы поисковых систем – это неутомимые труженики Интернета, постоянно просматривающие сотни тысяч сайтов и гигабайты текста в поисках самой свежей и интересной информации.

Что же собой представляет робот? Если сказать просто, это небольшая программа, просматривающая страницы сайта и собирающая некоторую информацию, которую впоследствии передает в базу поисковой системы. Задачи роботов довольно разнообразны, но в общем случае – это индексация содержимого интернет-страничек.

2. Робот как часть поисковой системы 

В общем случае поисковая система выполняет две задачи: индексирование и поиск. Процесс индексирования заключается в получении и переработке страниц интернет-сайтов и последующем ее хранении. При этом индекс (базу) поисковой системы стараются устроить таким образом, чтобы процесс поиска был как можно более быстрым и эффективным.

Например, индекс поисковой системы Яндекс основывается на инвертированных файлах, т.е. текст любого документа хранится в виде упорядоченного списка всех встречающихся в документе слов с указанием позиции слова. При этом адрес позиции делают обычно относительным. Далее файл сжимается, но не очень сильно, чтобы не требовалось в последующем много затрат процессорного времени на распаковку файла.

За индексирование в поисковой системе отвечает робот, основным компонентом которого является модуль скачивания. Модуль скачивания обращается по протоколу HTTP к серверам, на которых хранятся странички, и получает в ответ тело странички, при этом ему все равно, каким образом она страница была сформирована сервером, статическая она или динамическая, имеет ли расширение .htm или .php.

Модуль скачивания подчиняется указаниям, прописанным в файле robots.txt , который лежит в корневой папке сервера. В robots.txt указывается, какие страницы запрещены к индексации роботом.

Для уменьшения трафика модуль скачивания не загружает страницы, которые присутствуют в спам-листе робота. Обычно, это сайты, наказанные за нарушение правил поисковых систем, за попытку влияния на алгоритмы ранжирования.

Кроме модуля скачивания, осуществляющего предварительную фильтрацию, в роботе присутствует модуль отслеживания дубликатов, который отбрасывает повторяющиеся документы.

Также в роботе есть модуль, который определяет кодировку сайта и язык. Например, Яндекс обычно индексирует только русскоязычные сайты.

После обработки документа всеми вышеперечисленными модулями робота, документ анализируется html-парсером, который оставляет только самое нужное и весомое для поиска: текст, оформление, ссылки и адреса. Все это при поиске будет влиять на ранжирование странички.

После обработки парсером происходит индексирование документа. При этом используются алгоритмы морфологического анализа. В конце концов, документ инвертируется и добавляется к основному индексу.

3. Порядок индексирования страницы роботом  

Робот поисковой системы индексирует новые сайты, находя их по ссылкам с других страниц Интернета. Однако самый быстрый путь к индексации сайта поисковой системой – это самостоятельно сообщить ей, что в Интернете появился новый ресурс.

Для Google это страница http://www.google.ru/addurl/?continue=/addurl, для Рамблера - http://www.rambler.ru/doc/add_site.shtml. Для Яндекса это можно сделать на странице http:\/\/webmaster\.yandex\.ru\/.

После ввода адреса сайта, специальный робот проверит, возможна ли индексация сайта, нет ли технических препятствий к этому.

Через некоторое время (обычно через один-два дня) страницу посетит основной индексирующий робот, который и соберет информацию для поисковой системы.

Сначала робот запрашивает на сайте файл robots.txt, на основании данных которого будет происходить дальнейшая навигация. Если страница не запрещена к индексации (о том, как управлять индексацией – чуть позже), то она посещается роботом.

При обращении к странице робот формирует http-заголовок, идентифицируя себя как User-Agent: Yandex/1.01.001 (compatible; Win16; I) (или по-другому, в зависимости от типа робота), иногда указывает свой ip-адрес.

Как и обычный браузер, робот может запросить дату последнего изменения страницы с помощью заголовка «if-modified-since» и на основе отдаваемого сервером «last-modified» сделать вывод о том, изменилась ли страница с момента последнего захода. Если нет – то повторная индексация не требуется. Однако сегодня большинство страниц – динамические и формируются сервером «на лету». Такие страницы имеют значение «last-modified» равное дате обращения к этой странице. Получается, что за несколько недель текст страницы может не измениться, а по значению «last-modified» получается, что страница обновлена. По этой причине многие роботы сегодня игнорируют отдаваемый сервером заголовок «last-modified» и определяют сами – изменилась страница или нет.

При обращении к конкретной странице робот определяет кодировку документа, анализируя мета-тег < meta http-equiv="Content-Type" content="text/html; charset=windows-1251"> или при его отсутствии – определяет самостоятельно.

Для htm-документов робот анализирует не только текстовое содержание, но и теги html, на основе которых в дальнейшем будет оцениваться релевантность страницы. Но если теги html робот «понимает», то java-скрипты – нет. Поэтому не рекомендуется использовать скрипты в значимых элементах сайта: например, красивое выпадающее меню, написанное на java-script, может негативно сказаться на индексации страниц, на которые ведут ссылки из меню, так как такие ссылки робот может и пропустить.

Также не рекомендуется использовать различные «события», указываемые как параметры тега при простановке ссылок.

Существует еще один тег, который специально запрещает индексирование текста, расположенного в нем - . Однако, данный тег воспринимается только роботом поисковой системы Яндекс.

4. Типы роботов 

Каждая поисковая система имеет своего робота, который при посещении страниц представляется определенным образом. Для того чтобы узнать на какую страницу вашего сайта какой зашел робот, нужно проанализировать логи сайта, которые автоматически пишутся сервером apache. Например, что нам может сказать вот такая строчка в log-файле:

213.180.216.4 - - [05/Jun/2006:21:26:52 +0400] "GET /contacts.htm HTTP/1.1" 200 6762 "-" "Yandex/1.01.001 (compatible; Win16; I)"

Эта запись означает, что с ip-адреса 213.180.216.4 пятого июня 2006 года в 21:26:52 на страницу «контакты» заходил робот Яндекса, обратившись по протоколу HTTP 1.1.

C помощью различных сервисов (таких как www.nic.ru/whois) можно узнать, действительно ли это заходил робот поисковой системы, а не пользователь с какого-либо сервиса, например с http://seolab.ru/add/header.htm. В нашем случае страницу действительно посещал робот Яндекса:

netname:      YANDEX-216

descr:        Yandex search engine

А теперь рассмотрим подробнее роботов поисковых систем.

Яндекс

Поисковая система Яндекс имеет разнообразных роботов, специализирующихся на различных задачах.

  • Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот Яндекса, собирающий информацию со страниц сайтов.
  • Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок, которые впоследствии будут доступны при поиске в картинках.
  • Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
  • Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму http:\/\/webmaster\.yandex\.ru\/ и определяющий доступность страницы для индексации.
  • Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
  • YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
  • Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий иконки сайтов (favicons), которые показываются при просмотре сайта в левом углу заголовка окна браузера.

Кроме роботов у Яндекса есть группа роботов, которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.

  • Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.

Рамблер

Поисковая система Рамблер имеет только одного робота, который представляется как «StackRambler/2.0 (MSIE incompatible)». Ip-адрес робота может лежать в пределах интервала 81.19.64.0 - 81.19.66.255

Например:

81.19.66.8 - - [18/Jun/2006:11:19:59 +0400] "GET /robots.txt HTTP/1.0" 200 55 "-" "StackRambler/2.0 (MSIE incompatible)"

Google

Робот поисковой системы Google представляется как "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" и может ходить с ip-адресов 66.249.64.0 - 66.249.72.225

Например:

66.249.72.113 - - [18/Jun/2006:13:13:55 +0400] "GET /robots.txt HTTP/1.1" 200 55 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

5. Управление роботом поисковой системы 

Управление роботом поисковой системы ограничено и заключается в основном в установлении запретом на индексацию некоторых страниц сайта. На само расписание робота, на частоту его посещения можно лишь оказывать косвенное влияние.

Частота посещения страниц роботом

Обычно робот посещает страницу сайта исходя из того, как часто изменяется содержание этой страницы. На часто обновляемые страницы робот может ходить каждый день и даже чаще. Например, если это страница новостного сайта. Когда же страница изменяется нечасто, то робот посещает ее один-два раза в неделю. Те страницы, содержимое которых не меняется, все равно посещаются роботом, однако очень редко, не более трех раз в месяц.

При этом за один заход робот запрашивает не более 20-30 страничек с сайта. Это связано с тем, что роботы поисковых систем стараются не загружать сервер своими запросами. На сайт с большим количеством страниц робот ходит часто и каждый раз берет только небольшую «порцию» страниц.

Раньше, для управления частотой посещения роботом страницы веб-мастера использовали тег META NAME="Revizit-after".

Например, запись

META NAME="Revizit-after" CONTENT="2 days"

означала, что робот должен посещать страницу раз в два дня.

Однако сейчас использование тега не оказывает никакого влияния на частоту посещения страницы роботом, робот сам определяет частоту обновления страницы и на основе этого строит свое расписание. (см. эксперимент).

Запрет индексации

Запрет для индексации в отношении определенных страниц можно реализовать двумя способами: с помощью robots.txt или тега < meta name="ROBOTS">.

Для запрета индексации с помощью robots.txt требуется в поле user-agent указать имя робота и после disallow прописать конкретные страницы, которые требуется закрыть от индексации (подробнее см. мастер-класс про правильное составление файла robots.txt). Например, для запрета индексации всего сайта поисковой системой Google:

User-agent: Googlebot

Disallow: /

В случае использования мета-тега инструкции по индексации записываются в поле content. Возможны следующие инструкции:

  • NOINDEX - запрещает индексирование документа;
  • NOFOLLOW - запрещает проход по ссылкам, имеющимся в документе;
  • INDEX - разрешает индексирование документа;
  • FOLLOW - разрешает проход по ссылкам.
  • ALL - равносильно INDEX, FOLLOW
  • NONE - равносильно NOINDEX, NOFOLLOW

Значение по умолчанию: < meta name="Robots" content="INDEX, FOLLOW">.

Например, чтобы запретить индексирование страницы роботу поисковой системы Google требуется написать следующее:

< meta name="googlebot" content="noindex, nofollow">

6. Заключение 

Робот – это один из основных элементов любой поисковой системы. Он выполняет очень важные функции, связанные с индексацией сайтов м/p>

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Her
    1
    комментарий
    0
    читателей
    Her
    больше года назад
    что за крякозябры?
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Накрутка поведенческих факторов: дорого, сложно, но можно. Если очень хочется
Oleg_bobr2012
1
комментарий
0
читателей
Полный профиль
Oleg_bobr2012 - Мда...Может Анне сразу в Яндекс написать кейсы по накрутке ПФ. Я бы такого сотрудника гнал вон.
28 способов повысить конверсию интернет-магазина
Татьяна
1
комментарий
0
читателей
Полный профиль
Татьяна - Очень действенные рекомендации представлены в статье! Всё четко расписано и легко внедряемо в работу интернет-магазинов.Удобство и наглядность+различные бонусы и скидки-именно то, что и цепляет покупателя.
5 способов увидеть сайт глазами поисковика: анализируем скрытый контент и cloaking
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Сейчас клоаку прячут, так что под нее можно глянуть только с гуггловских ip. Сейчас только гуггл сервисами можно глянуть
7 актуальных сервисов для анализа сайта: сравнительная характеристика
Jenimeon
1
комментарий
0
читателей
Полный профиль
Jenimeon - SimilarWeb один из моих фаворитов, частенько им пользуюсь. Ценник не малый, но функционал хороший. Be1 тоже годный.
Какие сайты лидировали в поиске Яндекса и Google в 2023 году
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Если что по рейтингу вы не правы, есть ядро по которому производиться оценка и вы можете по нему самостоятельно все посмотреть. Единственный объективный рейтинг по SEO. Других не знаю Ну я вам скажу что это не так и в предыдущие года сайт моего клиента попадал в рейтинг, при чем несколько раз. И я прекрасно знал еще до объявления результатов кто лидер - рейтинг прозрачный, есть фразы по которым набираются баллы. В этом году наш сайт не попал в рейтинг например и это было понятно, что не попадет (по статистике позиций)
Создали ресурс для металлургов, который позволяет следить за аналитикой рынка и осуществлять продажи
Наталья Сталь
3
комментария
0
читателей
Полный профиль
Наталья Сталь -
5 ошибок отдела продаж, из-за которых вы теряете клиентов
Андрей
1
комментарий
0
читателей
Полный профиль
Андрей - Крутая статья! Можно еще указать: Работу без CRM-системы - я считаю, что это основа отдела продаж. Потому что не все компании решаются на внедрение отдельно системы для отдела продаж. Но зато можно что то многофункциональное внедрить аспро.клауд или что то подобное
Простые SEO-работы, которые могут увеличить прибыль компании. Часть 1
roma.lisov
1
комментарий
0
читателей
Полный профиль
roma.lisov - Воспользовался советом по проверке и настройке картинок на сайте – реально дельный совет. Вот вроде и просто, казалось бы, а мне в голову раньше не пришло. А такие нюансы, конечно, нужно знать)
Как мы увеличили поисковый трафик на 30% с помощью ChatGPT
Светлана Светлана
23
комментария
0
читателей
Полный профиль
Светлана Светлана - Я сама работаю в маркетинге и недавно решила еще дополнительно пройти курсы по интернет маркетингу astobr.com/services/povyshenie-kvalifikatsii/menedzhment-upravlenie/internet-marketing/ , как по мне эти знания которые я получила, очень помогают мне в работе
Простые SEO-работы, которые могут увеличить прибыль компании. Часть 2
dayitrix
1
комментарий
0
читателей
Полный профиль
dayitrix - Ну да, для начала важно хотя бы необходимый минимум работ провести, настроить все как положено. А уже потом в более далекие дебри SEO-оптимизации лезть. А то многие ни с того начинают и потом удивляются, почему результата нет.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
386
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
120
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
64
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!