Россия+7 (495) 960-65-87

Dmoz: каждый четвертый сайт имеет ошибки в robots.txt

Россия+7 (495) 960-65-87
Шрифт:
1 4587

Эндрю Вустер (программный инженер Apple) провел исследование файлов robots.txt на сайтах из каталога Dmoz. В ходе своего исследования HTTP заголовков он разработал собственного «паука» и собрал большую базу доменов. Скормив своему пауку эту базу ресурсов из Dmoz, Эндрю Вустер получил MySQL базу, в которой сохранялись содержание robots.txt, HTTP заголовки и полный ответ сервера. Объем базы составил 12 Gb. После получасовой работы анализатора были получены интересные данные и статистика о содержании robots.txt на более чем 4.6 миллионах доменов.

Статус коды

HTTP коды статуса (возвращаемые сервером значения) говорят веб-браузерам и роботам поисковых систем, какого рода ответ они получают при загрузке страницы. Например, код “200″ значит, что все нормально, а “404″ (file not found) - что веб-сервер не смог найти файл по заданному адресу. IETF спецификация robots.txt говорит о том, что 404 код возврата (по-другому - код ошибки) по адресу robots.txt значит отсутствие ограничений для загрузки сайта роботами, а коды 2ХХ говорят о том, что роботу следует руководствоваться правилами, прописанными в robots.txt.

Статус коды интересны, в первую очередь, тем, что с их помощью можно быстро подсчитать количество сайтов, имеющих файл robots.txt. Исследовав 4.6 миллиона сайтов, можно по статус кодам определить, у скольких сайтов есть robots.txt и у скольких его нет:

КлассЧисло сайтовВ % от всех
5xx4,3380.09
4xx3,035,45465.86
3xx350,9467.61
2xx1,217,55926.42
1xx120.00
invalid210.00

Как мы можем видеть, более 65% сайтов возвращают код 4ХХ, говорящий о том, что на сайте нет файла robots.txt. Еще 7.6% сайтов перенаправляют на другой URL (смотрите, например, редирект 301) - обычно на главную страницу или страницу ошибок (т. н. 404 страницу). Это значит, что только 26% владельцев сайтов поработали над тем, чтобы обеспечить свои сайты правильным файлом robots.txt. Конечно, некоторые сайты могут возвращать код 200 даже для страницы ошибок, поэтому такой подсчет может быть использован для быстрой оценки.

MIME типы

MIME типы (типы содержания) возвращаются веб-серверами в HTTP заголовках, чтобы сообщить клиентам, какой передается документ. Они состоят из типов (text, image и так далее), подтипов (html или jpeg) и некоторых необязательных параметров, таких как кодировка документа. Например, HTML файл обычно имеет MIME тип “text/html”, а текстовый файл - “text/plain”. Изображения могут иметь MIME типы “image/gif” или “image/jpeg”. Список всех зарегистрированных MIME типов можно посмотреть на IANA.

Единственный MIME тип, который должен возвращать файл robots.txt - это текст. По правде говоря, спецификация специально не упоминает это правило, но сайты типа Google следуют общему правилу, что “если это не text/*, то это не простой текст”. 109 780 из исследованных файлов robots.txt имели MIME тип, отличный от text/plain. Поэтому неудивительно, что крупнейшие поисковые системы, такие как Google, Yahoo! и MSN, стараются читать файл robots.txt независимо от возвращаемого типа. Например, robots.txt на сервере Дигга имеет тип “text/html; charset=UTF-8″. И поисковые роботы следуют правилам этого файла.

Кроме text/html и text/plain, были среди исследованных файлов и другие MIME типы, например, application/octet-stream, application/x-httpd-php, text/x-perl (в основном страницы ошибок), video/x-ms-asf, application/x-httpd-cgi, image/gif и image/jpeg.

Даже среди файлов, обозначенных как текст, было множество вариантов MIME типов, часто с ошибками в написании. Приведу список наиболее часто встречаемых.:
plain/text
text
text/R*ch
text/css
text/enriched
text/vnd.wap.wml
text/x-invalid
text/x-perl
text/x-server-parsed-html
text/xml
txt

Robots.txt - текстовый файл?

Еще одна ошибка, помимо использования неправильного content-type - это загрузка robots.txt в нетекстовом формате. Популярные ошибки - это загрузка robots.txt в формате Word документа (примеры: 1, 2, 3), RTF (примеры: 1, 2, 3) и HTML. Были найдены даже файлы роботса в форматах LaTex и KOffice (unix-based текстовый формат).

Некоторые серверные программы (т. н. Cougar, что-то вроде Microsoft Small Business Server или IIS) на запрос файла robots.txt даже выдают потоковое видео в формате ASF (примеры: 1, 2). Ужас.

Неправильная кодировка

Кодировка символов определяет, какие знаки соответствуют определенным наборам бит. Сайты определяют кодировку, устанавливая ее в переменной content-type в заголовке. Robots.txt на некоторых сайтах был написан в редко используемых кодировках типа UTF-16. UTF-16 редко используется по многим причинам, хотя бы из-за неоднозначности определения последних бит кодировки символа. Из 463 файлов в формате UTF-16 примерно 10% были нечитабельны, хотя и содержали UTF16 BOM.

С другой стороны, некоторые сервера вообще определяют свои множества символов и называют кодировку по-своему, например, “nf_z_62-010″, “ibm-939″ и “fi_fi.iso-8859-15@euro”.

Комментарии

В robots.txt можно использовать только один вид комментариев - комментарием считается строка после знака “#”. При этом среди исследованных сайтов были найдены HTML комментарии “< !- - >“, комментарии в стиле C++ “//” и многие другие, включая просто вставленные в текст строки комментариев.

Совершенно непонятные ошибки

Некоторые люди, наверное, вообще не имеют представления о том, что должно содержаться в файле robots.txt. Например, одна из распространенных ошибок - файлы robots.txt, в которые скопировано содержание страницы базы данных роботов. Речь идет не о нескольких сайтах. Такой robots.txt найден примерно на кажд 1000 сайтов. Это просто сумасшествие. Это часть еще более распространенной общей ошибки, когда в robots.txt копируют какие-то инструкции по его настройке. Есть совершенно “левые” файлы. В robots.txt пишут религиозные тексты и описания каких-то церквей. Или каталог MIDI треков. Список видеоигр. Несколько файлов .htaccess - иногда вставляют код вместе с конструкциями роботса, иногда используют синтаксис .htaccess для описания User-Agent.

Списки ключевых слов и описаний сайта, включая просто перемешанные ключевые слова. PHP и Bash скрипты, и все что угодно.

Есть даже одно описание плавательного бассейна (по-немецки).

И, конечно, множество читабельных для людей инструкций по содержанию robots.txt, которые робот понять не сможет.

info.txt

По-видимому, есть еще один протокол, подобный robots.txt, для рекламы и размещения контактной информации о владельце сайта. Эта информация используется Alexa для определения владельца сайта. Много таких записей было найдено в файлах robots.txt.

Регулярные выражения

В спецификации robots.txt не описаны регулярные выражения, но многие поисковые системы сейчас поддерживают такие возможности.

Например, Google, Yahoo! и MSN Search понимают * как соответствие любой строке символов, а знак доллара $ как знак окончания URL. Поэтому для блокировки пауков при попытке загрузить jpeg файлы можно использовать следующую конструкцию:

User-agent: *
Disallow: /*.jpg$

Блокировка доступа к отдельным форматам файлов - самое распространенное применение для регулярных выражений. И большинство людей часто используют регулярные выражения когда они совсем не нужны. Например, многие сайты прописывают такое правило:

Disallow: /secret/*

Использовать нестандартное выражение здесь бесполезно, потому что такое правило эквивалентно более простому:

Disallow: /secret/

Обычно на сайтах, содержащих подобие первого правила с * не прописывают второй вариант. Паук, который не поддерживает недокументированные возможности, будет индексировать запрещенную папку, потому что не поймет ваших инструкций.

Обычные синтаксические ошибки

Какие еще есть ошибки, кроме перечисленных выше? Спецификация говорит о том, что записи должны разделяться пустыми строками, и большинство ошибок вращаются вокруг этого.

Во-первых, многие оставляют пустую строку между строкой User-agent и правилами для этого робота - это 74 043 из проанализированных файлов.

Во-вторых, часто пишут правило Disallow/Allow, не упоминая перед ними агента, или в одной строке с агентом - эта ошибка допущена в 64 921 файлах.

В-третьих, часто пишут строку с агентом после правила Disallow/Allow, не разделяя их пустой строкой - еще 32 656 файлов.

Строки совсем ненужного текста (не комментарии, не правила или агенты) встретились в 22 269 файлах.

Это, кстати, не показатель, ведь за ошибочный текст могло быть принято и недавно введенное Google правило sitemap, которого автор эксперимента не учел.

Задержка сканирования

«Пауки» также иногда обращают внимание на директивы управления, например, Crawl-delay (задержка сканирования, чтобы робот не положил сервер). MSN, Yahoo! и Ask поддерживают эту директиву, ее записывают так:

User-agent: *
Crawl-delay: 5

Это значит, пауку следует ждать 5 секунд между загрузками. Были найдены десятки тысяч таких записей.

Опечатки

Было найдено очень много файлов с опечатками. Опечаток команды Disallow набралось целых 69 видов! Это не считая опечаток, когда одни буквы в середине слова заменяют другими.

Ошибки в движках сайтов

Часто ошибки robots закладываются при разработке движков сайтов (например, advancedaccess). На многих сайтах файл robots.txt содержит только строку:

this file placed here so you don't fill up my error log looking for it
(В файл, размещенный здесь, вы не можете ничего дополнить из-за ошибки лога)


Подобных примеров много. Скорее всего, такие строки нужны для статистики использования движка. Это как метатег generator=Wordpress на движках Wordpress - для сбора статистики. Но создание заведомо невалидного robots.txt, по-моему, не очень красиво по отношению к пользователям.

Выводы

Какие выводы мы можем сделать исходя из этих данных? Главный вывод, я думаю, состоит в том, что протокол исключения роботов (Robots Exclusion Protocol) намного более сложный, чем кажется. На месте «паука» для того, чтобы правильно «прочитать» множество совершенно разных и сумасшедших robots.txt по всему интернету, вам нужно написать исключительно гибкий парсер (следуя Robustness Principle), в большинстве случаев игнорировать тип содержания (content-type), уметь распознавать множество кодировок (и в большинстве случаев просто игнорировать возвращаемую сервером кодировку), распознавать HTML и другие виды контента в файлах robots.txt и потенциально поддерживать множество расширений к принятому стандарту.

А что насчет высказанного выше утверждения, что пауки должны спрашивать разрешения на индексацию у вебмастера? Недавний проигранный иск правительства Бельгии против Google еще раз подтвердил верность позиции поисковых систем:

“Из-за огромного размера интернета для поисковой системы невозможно персонально спросить каждого вебмастера, можно загрузить ту или иную страницу или нельзя. Если бы такое разрешение было обязательным, то интернет бы развалился”,, – Эндрю МакЛофлин, глава отдела Google по конфиденциальности.

Как видно из раздела о статус-кодах, если бы это произошло, то почти четверть доменов стали бы “черными ящиками” для поисковых систем. Тогда эти сайты просто не существовали бы для большинства пользователей. Такой результат не устроил бы никого - ни вебмастеров, ни поисковые системы.

Если говорить не так серьезно, то всегда интересно узнать, насколько же интернет все-таки «загрязнен». И насколько разное наполнение для своих сайтов придумывают их владельцы.

Почитать

A Standard for Robot Exclusion - главный документ по robots.txt
Описание на русском языке и правильное использование robots.txt
Эндрю Вустер, программный инженер Apple

Перевод под ред. оптимизатора Егора Стамбакио

(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Гость
    больше года назад
    они рунет не видели... процентов 50 в ошибках...
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Google Data Studio: делаем красивые отчеты по контекстной рекламе для клиентов
Askar Seitov
1
комментарий
0
читателей
Полный профиль
Askar Seitov - помогите! не могу понять почему по инструкции в вашей статье добавляю вычистяемые поля просто копирую ваш код, но датастудио выдает ошибку на этот код: Синтаксическая ошибка: Недопустимый входной символ. Убедитесь, что в формуле нет кавычек-лапок.. как это исправить? я все варианты кавычек уже попробовал
Сайт на WordPress: за и против
Мира Смурков
1
комментарий
0
читателей
Полный профиль
Мира Смурков - Людмила, я согласен с большинством комментаторов. Вы хоть один полноценный магазин сделали на этих движках? Woocommerce это система с супер возможностями. И к ней есть дополнительные модули, с функционалом, который вряд ли появиться на Битрикс. А самому это программировать - сотни тысяч рублей на разработку. А приведя в пример сложности с robots.txt и Sitemap вы ставите под вопрос вашу компетенцию в понимании Интернет-бизнеса и веб-разработки в целом. Во-первых это такие мелочи, а во-вторых это все делается на вордпресса за 2 минуты, и опять же с возможностями многократно превышающими Битрикс.
#SEOnews14: мы празднуем – вы получаете подарки!
Rizat Sundetov
1
комментарий
0
читателей
Полный профиль
Rizat Sundetov - 14
Как ускорить сайт на WordPress, чтобы получить 100/100 в Google PageSpeed Insights
1qa
1
комментарий
0
читателей
Полный профиль
1qa - 87 Performance 95 Accessibility 79 Best Practices 95 SEO аудит точнее будет
Война с дубликатами. Как нужно и как не нужно канонизировать URL
Дмитрий
1
комментарий
0
читателей
Полный профиль
Дмитрий - Здравствуйте, на сайте возможно несколькими путями дойти до почти одинаковой страницы, те отличаться будет только незначительная часть H1, а контент будет одинаковым, дело в применимости автозапчастей к разным автомобилям. Что из этого будет каноничной ссылкой и какие есть пути для решения подобных ситуаций? 1 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-sedan-2011-2014/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/ 2 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-rest-sedan-2014-n-v-/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/
Как выбрать подрядчика для продвижения сайта: 7 уровней воронки поиска
aashutosh
1
комментарий
0
читателей
Полный профиль
aashutosh - data science training institute in noida- Webtrackker Technology (8802820025) providing Data Science Training in Noida. Get ✓ 40 Hours Learning training✓ 70 Hrs Projects ✓ 24 X 7 Support ✓ Job Assistance. WEBTRACKKER TECHNOLOGY (P) LTD. C - 67, sector- 63, Noida, India. E-47 Sector 3, Noida, India. +91 - 8802820025 0120-433-0760 +91 - 8810252423 012 - 04204716 EMAIL:info@webtrackker.com webtrackker.com/Best-Data-Science-Training-Institute-in-Noida.php
Как построить качественный ссылочный профиль на основе конкурентов
Ирина
5
комментариев
0
читателей
Полный профиль
Ирина - Давно сотрудничаю с megaindex.com и считаю данный сервис одним из лучших в сео сегменте рунета да и не только рунета. Пользуюсь их инструментами для аналитики своих работ и выявлению своих и чужих ошибок. Да и ссылочный профиль, как и говорится в данной статье сделать гораздо проще и правильней при помощи как раз мегаиндекса. Добавлю еще что инструмент для поиска конкурентов у мегаиндекса очень удобный и простой в применении.
6 причин, почему нет позиций и трафика
Артур Латыпов
0
комментариев
0
читателей
Полный профиль
Артур Латыпов - Леонид, да 3 пункта повторяется, согласен. Но сильно актуальны и сейчас, смотрим на сайты, приходящие на SEO, которые ранее продвигались, практически на всех можно что из 6 пунктов найти, исправить и ситуация улучшиться оперативно.
Google назвал три главных SEO-фактора
Павел Андрейчук
44
комментария
0
читателей
Полный профиль
Павел Андрейчук - Я бы не стал утверждать что это так. У меня есть ресурс где ссылок.. ну я не знаю, полтинник может быть, вручную проставленные года за 2 и позиции хорошие по могим запросам именно в гугле, в то время как в Яндексе позиции ниже. Хотя конечно с ссылками позиции были бы лучше, наверное, но владелец увы не выделяет бюджет на ссылки.
Чек-лист для аудита рекламных кампаний в Яндекс.Директе и Google Ads
Елена Бикташева
1
комментарий
0
читателей
Полный профиль
Елена Бикташева - Спасибо! Была бы еще возможность скачивания.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
352
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
105
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
69
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
55

Отправьте отзыв!
Отправьте отзыв!