R

Robots.txt

Текстовый файл, записывающий специальные инструкции для поискового робота, ограничивающие доступ к содержимому на http сервере, находящийся в корневой директории веб-сайта и имеющий путь относительно имени самого сайта (/robots.txt ).

Robots.txt - как создать правильный файл robots.txt

Файл robots.txt позволяет управлять индексацией вашего сайта. Закрыть какой-либо раздел можно директивой disallow, открыть - allow. Проверка и анализ robots.txt.

Выгрузить в xls, файл, индексация, сайт, директива, яндекс, настройка, запрет, проверка, пример, генератор, анализ, страница, правильный, закрыть, создать, добавить, проверить, задать, запретить, сделать, robots, txt, host, закрытый, где, disallow

Robots.txt — текстовый файл, содержащий инструкции для поисковых роботов, как нужно индексировать сайт.

Почему важно создавать файл robots.txt для сайта

В 2011 году случилось сразу несколько громких скандалов, связанных с нахождением в поиске Яндекса нежелательной информации.

Сначала в выдаче Яндекса оказалось более 8 тысяч SMS-сообщений, отправленных пользователями через сайт компании «МегаФон». В результатах поиска отображались тексты сообщений и телефонные номера, на которые они были отправлены.

Заместитель генерального директора «МегаФона» Валерий Ермаков заявил, что причиной публичного доступа к данным могло стать наличие у клиентов «Яндекс.Бара», который считывал информацию и отправлял поисковому роботу Яндекса.

У Яндекса было другое объяснение:

«Еще раз можем подтвердить, что страницы с SMS с сайта МегаФона были публично доступны всем поисковым системам... Ответственность за размещение информации в открытом доступе лежит на том, кто её разместил или не защитил должным образом...

Особо хотим отметить, что никакие сервисы Яндекса не виноваты в утечке данных с сайта МегаФона. Ни Яндекс.Бар, ни Яндекс.Метрика не скачивают содержимое веб-страниц. Если страница закрыта для индексации в файле robots.txt или защищена логином и паролем, то она недоступна и поисковым роботам, то есть информация, размещенная на ней, никогда не окажется в какой-либо поисковой системе».

Вскоре после этого пользователи нашли в Яндексе несколько тысяч страниц со статусами заказов в онлайн-магазинах книг, игр, секс-товаров и т.д. По ссылкам с результатов поиска можно было увидеть ФИО, адрес и контактные данные клиента магазина, IP-адрес, наименование его покупки, дату и время заказа. И снова причиной утечки стал некорректно составленный (или вообще отсутствующий) файл robots.txt.

rob_1.jpg

Чтобы не оказаться в подобных ситуациях, лучше заранее составить правильный robots.txt файл для сайта. Как сделать robots.txt в соответствии с рекомендациями поисковых систем, расскажем ниже.

Как создать robots.txt для сайта

Настройка robots.txt начинается с создания текстового файла с именем «robots.txt». После заполнения этот файл нужно будет сохранить в корневом каталоге сайта, поэтому лучше заранее проверить, есть ли к нему доступ.

Основные директивы robots.txt

В простейшем файле robots.txt используются следующие директивы:

  • User-agent
  • Disallow
  • Allow

Директива User-agent

Здесь указываются роботы, которые должны следовать указанным инструкциям. Например, User-agent: Yandex означает, что команды будут распространяться на всех роботов Яндекса. User-agent: YandexBot – только на основного индексирующего робота. Если в данном пункте мы поставим *, правило будет распространяться на всех роботов.

Директива Disallow

Эта команда сообщает роботу user-agent, какие URL не нужно сканировать. При составлении файла robots.txt важно помнить, что эта директива будет относиться только к тем роботам, которые были перед этим указаны в директиве user-agent. Если подразумеваются разные запреты для разных роботов, то в файле нужно указать отдельно каждого робота и директиву disallow для него.

Как закрыть части сайта с помощью директивы Disallow:

  • Если нужно закрыть от сканирования весь сайт, необходимо использовать косую черту (/): Disallow: /
  • Если нужно закрыть от сканирования каталог со всем его содержимым, необходимо ввести его название и косую черту в конце: Disallow: /events/
  • Если нужно закрыть страницу, необходимо указать название страницы после косой черты: Disallow: /file.html

Директива Allow

Разрешает роботу сканировать сайт или отдельные URL.

В примере ниже robots.txt запрещает роботам Яндекса сканировать весь сайт за исключением страниц, начинающихся с «events»:

User-agent: Yandex

Allow: /events

Disallow: /

Спецсимволы в директивах

Для директив Allow и Disallow используются спецсимволы «*» и «$».

  • Звездочка (*) подразумевает собой любую последовательность символов. Например, если нужно закрыть подкаталоги, начинающиеся с определенных символов: Disallow: /example*/
  • По умолчанию символ * ставится в конце каждой строки. Если нужно закончить строку определенным символом, используется спецсимвол $. Например, если нужно закрыть URL, заканчивающиеся на doc: Disallow: /*.doc$
  • Спецсимвол # используется для написания комментариев и не учитывается роботами.

Дополнительные директивы robots.txt

Директива Host

Директива Host в robots.txt используется, чтобы указать роботу на главное зеркало сайта.

Пример:

https://www.glavnoye-zerkalo.ru является главным зеркалом сайта, и для всех сайтов из группы зеркал необходимо прописать в robots.txt:

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Host: https://www.glavnoye-zerkalo.ru

Правила использования директивы Host:

  • В файле robots.txt может быть только одна директива Host. Робот всегда ориентируется на первую директиву, даже если их указано несколько.
  • Если зеркало доступно по защищенному каналу, нужно добавить протокол HTTPS,
  • Должно быть указано одно доменное имя и номер порта в случае необходимости.

Если директива Host прописана неправильно, роботы ее проигнорируют.

Директива Crawl-delay

Директива Crawl-delay задает для робота промежуток времени, с которым он должен загружать страницы. Пригодится в случае сильной нагрузки на сервер.

Например, если нужно задать промежуток в 3 секунды между загрузкой страниц:

User-agent: *

Disallow: /search

Crawl-delay: 3

Директива Clean-param

Пригодится для сайтов, страницы которых содержат динамические параметры, которые не влияют на их содержимое (например, идентификаторы сессий). Директива позволяет роботам не перезагружать дублирующуюся информацию, что положительно сказывается на нагрузке на сервер.

Использование кириллицы

При составлении файла robots.txt нельзя использовать кириллические символы. Допускается использование Punycode для доменов.

Как проверить robots.txt

Для проверки файла robots.txt можно использовать Яндекс.Вебмастер (Анализ robots.txt) или Google Search Console (Инструмент проверки файла Robots.txt).

rob_2.png

Как добавить файл robots.txt на сайт

Как только файл robots.txt написан и проверен, его нужно сохранить в виде текстового файла с названием robots.txt и загрузить в каталог верхнего уровня сайта или в корневой каталог.




Синонимы: нет
Все термины на букву «R»
Все термины в глоссарии

Ссылки по теме

... Техническая часть сайта Netpeak Spider Удобный и шустрый парсер сайтов, который может сканировать весь сайт или нужные разделы с учетом указаний в файле robots.txt или игнорируя их. Софт показывает необходимую информацию: коды страниц, редиректы, теги canonical, метатеги, заголовки H1, длину метатегов и заголовков ...

Данис Данис Хайруллин
09 Апреля
22 17049

... «Генератор Sitemap». Внедрение кастомных шаблонов настроек, фильтров / сегментов и параметров. Возможность создать и настроить виртуальный robots.txt. Дополнительная таблица пропущенных при сканировании страниц. Отложенный анализ тяжелых данных. Слежение за лимитом памяти для сохранности ...

Дорогая Редакция Дорогая Редакция
02 Апреля
1 2492

... ссылкой на основную; 一 Добавить на все страницы пагинации тег: < meta name="robots" content="noindex, follow" / > Данный тег не позволяет роботу поисковой ... ... трафик на страницы фильтрации; 一 Закрыть страницы-дубликаты в файле robots.txt с помощью директивы Disallow. Идентичные товары, которые не имеют существенных ...

Виктория Виктория Григорьева
23 Марта
0 10792

... Аудит SEO-метрик Технические Региональность Яндекс.Справочник ОК Есть присвоенная сайту организация с корректной контактной информацией Robots.txt + sitemap.xml Указание директивы Host ОК Директива указана Запрет индексации технических страниц ОК Запрет индексации технических дублей не ОК ...

Василий Василий Исупов
21 Марта
2 11460

... разобрала наиболее распространенные ситуации Яндекс объявил, что 301 редирект полностью заменил директиву HOST. Теперь ее можно удалять из robots.txt. Однако вебмастера должны помнить, что на всех не главных зеркалах сайта теперь должен стоять 301-й постраничный редирект. Те, кто еще не ...

Валерия Валерия Полякова
20 Марта
0 4280
Отправьте отзыв!