×
Россия +7 (495) 139-20-33

Мастерство использования robots.txt файлов

Россия +7 (495) 139-20-33
Шрифт:
0 7764

Упростить работу по оптимизации можно используя файлы robots.txt . Они представляют собой простые файлы, указывающие роботам, паукам поисковой системы, какие файлы индексировать в базу данных, а какие нет. В данной статье будут представлены доказательства важности robots.txt для процесса оптимизации, а также возможные последствия не использования или использования неверно составленных файлов robots.txt.

Как поисковые системы реагируют на Robots.txt

Определенной модели поведения поисковых систем при встрече с файлами robots.txt во время их обхода нет. Достаточно проследить информацию из web stats, чтобы понять востребованность файлов robots.txt у поисковых систем. Большинство пауков начинают обход сайта, в первую очередь, с изучения именно этих файлов. При отсутствии robots.txt-файлов, большинство поисковых роботов будут обходить web-сайты, оставляя их не проиндексированными. Пренебрежение файлами robots.txt повлечёт за собой негативные последствия, однако существуют и более отрицательные результаты.

Поведение большинства крупных поисковых роботов и пауков при чтении файлов robots.txt разнообразно.


MSNbot
Поисковый робот системы MSN называется MSNbot. Он довольно активно обходит web-сайты. Некоторым web-мастерам это нравится, и они пытаются этим пользоваться. Другие не видят никаких причин тратить старания на поисковые системы, считая, что это не повлияет на увеличение трафика. MSNbot не станет обходить сайт, если он (сайт) не представлен файлами robots.txt. Присутствие подобных файлов в базе данных увеличивает интерес поискового робота к сайту.

Несколько месяцев назад MSN получила много жалоб на то, что MSNbot игнорирует директории, прописанные в файлах robots.txt. Разработчики рассмотрели проблему и внесли некоторые изменения, позволяющие контролировать подобное поведение роботов.


Yahoo’s Inktomi Slurp
Yahoo легализовал использование поискового робота Inktomi, теперь известного как Slurp. Кажется, что Inktomi/Yahoo's Slurp перерабатывает большой объем информации за пару дней, исчезает, возвращается, перерабатывает намного больше и вновь исчезает. Однако без файлов robots.txt его функционирование представляется более медленным, порой не эффективным, т.к. он не может проникнуть глубоко в структуру сайта.


Googlebot
На сайте Google представлены рекомендации и необходимые инструкции по правильному использованию подобных файлов. Поисковым оптимизаторам хорошо известно, что инструкции Google для web-мастеров - это больше, чем просто пошаговые рекомендации по оптимизации сайтов в поисковых системах. Так что, если файлы robots.txt упоминаются Google, значит, использовать их стоит. Без них Googlebot обходит сайты не достаточно эффективно.


IA_Archiver
Это робот поисковой системы Alexa. Охарактеризовать его можно как агрессивного «паука» с большим «аппетитом», вызываемым новой информацией, но, несмотря на это, очень любезным и обходительным. Он ограничивает свой обход до пары сотен страниц за один раз и функционирует достаточно медленно чтобы не перегружать сервер. Этот робот проводит свой обход в течение нескольких дней. Очередное появление робота ia_archiver можно определить, проанализировав статистику сайта. Он полностью выполняет команды и указания robots.txt-файлов.

Существует много пауков и роботов, демонстрирующих другое поведение во время обхода сайта. «Хорошие» будут следовать файлам robots.txt, «плохие» - нет. Далее будут рассмотрены некоторые способы, позволяющие избежать проблем с поисковыми роботами и использовать помощь файлов robots.txt.

Усовершенствованные команды и свойства файлов robots.txt

Основной набор команд, составляющих файлы robots.txt, представляют собой информацию двух видов: команды и характеристики. Следует помнить, что не все поисковые роботы понимают эти команды. Важно знать, какие именно не справляются с этим.


Приостановка индексирования
Некоторые роботы известны тем, что обходят веб-страницы с мгновенной скоростью, тем самым, становясь причиной того, что веб-серверы ограничивают доступ к ip-адресам сайтов другим роботам, активизируя специальное программное обеспечение. Когда робот начинает слишком быстро считывать информацию из базы данных, эта программа начинает блокировать работу поисковой системы.

Не обязательно наказывать всех поисковых роботов, используя эти программы, контролировать действия более послушных роботов можно с помощью команды приостановки индексирования: crawl delay.

User-agent: MSNbot
Disallow: /

С помощью другой команды robots.txt можно точно определить время приостановки (в секундах), после окончания которого, MSNbot приступит к дальнейшему индексированию страниц. Она (команда) выглядит следующим образом:

User-Agent: MSNbot
Crawl-Delay: 20

Другими поисковыми роботами, поддерживающими эту команду, являются Slurp, Ocelli, Teoma/AskJeeves, Spiderline. Официально Googlebot считается воспитанным роботом и следует данной команде, т.к. зачастую в этом нет необходимости. Если Вы не уверенны, поддерживается ли эта команда роботами той или иной поисковой системы, на помощь придет группа технической поддержки этой поисковой системы. Получить контактную информацию можно на сайте Robots.Txt.org, там же Вы найдете перечень многих поисковых роботов и указание на то, к какой поисковой системе они относятся. Например, не многие знают, что Slurp принадлежит Yahoo, а Scooter - AltaVista.


Мета-тэг инструкции
Благодаря широкому распространению поисковых роботов, перечислить всех с описанием их преимуществ и недостатков не представляется возможным. Многие малоизвестные из них не учитывают robots.txt-файлы. Что делать в этом случае? Многие веб-мастера добавляют специальные команды к мета-тэгам. Подобно всем остальным мета-тэгам, такие тэги ставятся в секции

.

< meta name="robots" content="noindex">, данный тэг сообщает поисковому роботу не индексировать страницу.

< meta name="robots" content="noindex,nofollow">, тэг также запрещает роботу индексировать и анализировать его на ссылки.


Ниже представлен список возможных тэгов:

< meta name="robots" content="index,follow">
< meta name="robots" content="noindex,follow">
< meta name="robots" content="index,nofollow">
< meta name="robots" content="all">

К сожалению, нет гарантии того, что каждый поисковый робот будет следовать данной команде. В случае непослушания остается одно - найти в лог-файлах сервера IP-адрес, с которого робот заходит на Ваш сайт, и просто запретить ему доступ к Вашей базе данных.


Ограничение потребляемых ресурсов
Другая проблема, связанная с роботами поисковых систем, - это необходимые для их работы ресурсы. Робот может израсходовать чуть ли не весь Ваш трафик всего лишь за один визит на сайт. Таким образом, индексирование обернется для Вас дорогим удовольствием.

Отсутствие файла robots.txt может стать причиной ошибки № 404, когда поисковая система просто не может найти нужную страницу. Размещение на сайте страницы, предназначенной для вывода информации об ошибке 404, также повлечет расход трафика. Поэтому небольшие robots.txt-файлы, не требующие значительных затрат, могут стать наиболее приемлемым решением проблемы.

Некоторые веб-разработчики предлагают другой способ, позволяющий сократить затраты трафика поисковым роботом, – это тег "revisit-after", например:

< meta name="revisit-after" content="15 days">

Однако не все поисковые системы (например, Google) поддерживают эту программу. И если Вы заметили, что Googlebot слишком часто заходит в Вашу базу данных, поглощая немало трафика, следует обратиться к справочным страницам Google с просьбой о том, чтобы Googlebot реже посещал сайт.

Можно также закрыть доступ к базе данных для определенных роботов и открыть его для других или прописать индивидуальную инструкцию для каждого робота . Работа с robots.txt отличается гибкостью.

Использование robots.txt в целях обеспечения общей безопасности

Многим известна история компании Perfect 10, которая обвинила корпорацию Google в незаконном использовании информации, а точнее, фотографий с их сайта. Согласно BusinessWire.com, прикрываясь статусом поисковой системы, Google незаконно распространил тысячи фотографий, принадлежащих Perfect 10, и этим привлек на свой сайт огромный трафик, сопоставимый с прибылью в сотни тысяч долларов, по праву предназначенных для Perfect 10. Как утверждает Perfect 10, даже после обвинений в посягательстве на "частную собственность", Google и не думает прекращать свою не корректную деятельность и продолжает распространять фотографии, не спрашивая на то разрешения.

Самое интересное в этой ситуации то, что виноваты, как ни странно, сами Perfect 10. Они не проинструктировали поисковую систему о том, что использование фотографий запрещено. Две простые строчки robots.txt-файла в базе данных помогли бы избежать подобных проблем.

User-agent: Googlebot-Image
Disallow: /images

В заключение отметим: для того чтобы сохранить что-либо в тайне, нужно использовать логины и пароли! Не хотите, чтобы поисковая система проиндексировала Ваш сайт, используйте robots.txt и специальные мета-теги. Robots.txt- файлы - эффективный метод контроля, только не забывайте, что безопасность Вашей информации - в Ваших руках!

По информации www.seochat.com

(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Ане Макаровой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
#SEOnews14: мы празднуем – вы получаете подарки!
Анна Макарова
361
комментарий
0
читателей
Полный профиль
Анна Макарова - Гость, добрый день! С победителями мы связывались сразу после розыгрыша. Если мы вам не написали, значит, ваш номер не выпал. Но не расстраивайтесь, у нас обязательно будут новые розыгрыши!
Что скрывает «Прогноз бюджета Яндекс.Директ»?
Михаил Мухин
9
комментариев
0
читателей
Полный профиль
Михаил Мухин - Дожидаться 100 попыток не будем - не дождемся :) Подведем итоги и опубликуем решение 13 Декабря
Как ускорить сайт на WordPress, чтобы получить 100/100 в Google PageSpeed Insights
Георгий
1
комментарий
0
читателей
Полный профиль
Георгий - Все что рекомендуется в этой статье есть у w.tools. Ни разу не пожалел что подключился. Своя CDN сеть, кеш статики и динамики, минификация js\css и кешируемого html, оптимизация всех типов картинок и еще куча всего полезного. Сайт летает и я не знаю проблем. Могу рекомендовать от души.
Война с дубликатами. Как нужно и как не нужно канонизировать URL
Ann Yaroshenko
5
комментариев
0
читателей
Полный профиль
Ann Yaroshenko - Дмитрий, добрый день! Если вы проставили на странице с автозапчастями rel=canonical ( а я вижу в коде, что не проставили) или в HTTP хедере, то бот, как правило: выберит ту страницу главной, которую вы указали в rel=canonical ссылке. Eсли же вы этого не сделали, то бот сам выберит оригинал (алгоритмы, по которым бот это делает, скрыты Googl-ом)
«Аудит, чтобы ты заплакала…», или Что делать, когда получил сторонний аудит сайта
Евгений
1
комментарий
0
читателей
Полный профиль
Евгений - Воообще, на самом деле здесь двоякое впечатление от таких аудитов. Конечно, для полного глубокого анализа и подготовки рекомендаций по сайту - нужны доступы к системам аналитики и инструментам вебмастера. Но если оценивать подобные аудиты с точки зрения чистого SEO (которое все больше и больше становится лишь малой частью digital-маркетинга, лишь одним из каналов) - они имеют место быть. Но с оговоркой, что они сделаны с учетом анализа конкурентов/отрасли. Современные инструменты и алгоритмы позволяют делать это маркетологам в автоматическом режиме, и даже давать рекомендации - возможностями машинного обучения уже никого не удивишь. Да, полное перечисление "мифического" списка ошибок, построенного по предикативным правилам, да еще и с учетом устаревших особенностей ПС - это явный признак некачественного аудита. В первую очередь потому, что эти "ошибки" следует рассматривать в качестве рекомендаций от ПС (как и говорится в справочнике вебмастера у Яндекса/Google). Однако если эти данные даются с отсылкой на данные о конкурентах, об отрасли, используются методы ML и Natural language processing для обработки исходных данных, кластеризации запросов, классификации страниц/запросов/сайтов, определения структуры документа - такие отчеты имеют право на существование. Но ключевым моментом является то, что подобные инструменты достаточно сложны в разработке, а значит требуют квалифицированных специалистов для их разработки. Которых просто нет у студий рассылающих подобные "сео отчеты". Подобные отчеты по "ошибках" тоже неплохой источник информации, но лишь на 0 этапе анализа сайта. И в принципе, теоретически, возможно почти полное составление "хороших аудитов" без участия маркетолога, на основе лишь открытых данных сайта/внешних источников, но только при соответствующем применении всех современных возможностей анализа данных и рекомендательных систем. И в любом случае подобный "хороший отчет" требует конечного заключения от эксперта.
От мечты стать юристом к собственному SMM-агентству. Как найти себя в современном цифровом мире
Виктор Брухис
5
комментариев
0
читателей
Полный профиль
Виктор Брухис - Статья выглядит так, как пожелали редакторы и интервьюер) Вопросы к интервью подбирал не я)) Хотя, в целом я согласен с вашим видением. А за пожелание удачи большое спасибо!
BDD 2019: Как перестать убивать время на сбор и обработку тонны данных для SEO-аудита
Kosta Bankovski
4
комментария
0
читателей
Полный профиль
Kosta Bankovski - Спасибо за приятные слова! Буду и дальше делиться наработками ;)
Как провести анализ содержания страниц товаров и категорий
Никита Седнин
3
комментария
0
читателей
Полный профиль
Никита Седнин - Спасибо!
Как вывести сайт в ТОП 10 Google в 2019 году
Ирина
8
комментариев
0
читателей
Полный профиль
Ирина - Работают. Как естественные, так и закупные. >Мои сайты в первую очередь заточены на яндекс Соболезную. >Насколько поисковые алгоритмы с гугловскими у него. Разница в 10 лет. Вон в Яше все долбят на ключи, на вхождения и прочий трэш из древностей. А у Гугла, вон почитайте про eat, ymyl Не все понятно но спасибо за ответы. Я так понимаю что с ссылками деть никто точно не знает) Ну это и хорошо вообщем. Самому разбираться как то интересней. Но не всегда. Есть к примеру 2captcha.com/ru и на него 100к ссылок есть. Ну а смысл какой?
Как я пытался купить CRM-систему, но мне ее поленились продать
Kristina
1
комментарий
0
читателей
Полный профиль
Kristina - Очень рекомендую CRM-систему польской фирмы Firmao. Все функции настраиваются в соответствии с индивидуальным потребностям компании! Советую попробовать бесплатную демо-версию, чтобы попробовать все необходимые функции, без лишних кнопок и траты дополнительных финансов! :) Сайт: firmao.ru/info
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
361
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
107
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
79
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
55

Отправьте отзыв!
Отправьте отзыв!