Dmoz: каждый четвертый сайт имеет ошибки в robots.txt

Россия+7 (495) 960-65-87
Шрифт:
1 3977

Эндрю Вустер (программный инженер Apple) провел исследование файлов robots.txt на сайтах из каталога Dmoz. В ходе своего исследования HTTP заголовков он разработал собственного «паука» и собрал большую базу доменов. Скормив своему пауку эту базу ресурсов из Dmoz, Эндрю Вустер получил MySQL базу, в которой сохранялись содержание robots.txt, HTTP заголовки и полный ответ сервера. Объем базы составил 12 Gb. После получасовой работы анализатора были получены интересные данные и статистика о содержании robots.txt на более чем 4.6 миллионах доменов.

Статус коды

HTTP коды статуса (возвращаемые сервером значения) говорят веб-браузерам и роботам поисковых систем, какого рода ответ они получают при загрузке страницы. Например, код “200″ значит, что все нормально, а “404″ (file not found) - что веб-сервер не смог найти файл по заданному адресу. IETF спецификация robots.txt говорит о том, что 404 код возврата (по-другому - код ошибки) по адресу robots.txt значит отсутствие ограничений для загрузки сайта роботами, а коды 2ХХ говорят о том, что роботу следует руководствоваться правилами, прописанными в robots.txt.

Статус коды интересны, в первую очередь, тем, что с их помощью можно быстро подсчитать количество сайтов, имеющих файл robots.txt. Исследовав 4.6 миллиона сайтов, можно по статус кодам определить, у скольких сайтов есть robots.txt и у скольких его нет:

КлассЧисло сайтовВ % от всех
5xx4,3380.09
4xx3,035,45465.86
3xx350,9467.61
2xx1,217,55926.42
1xx120.00
invalid210.00

Как мы можем видеть, более 65% сайтов возвращают код 4ХХ, говорящий о том, что на сайте нет файла robots.txt. Еще 7.6% сайтов перенаправляют на другой URL (смотрите, например, редирект 301) - обычно на главную страницу или страницу ошибок (т. н. 404 страницу). Это значит, что только 26% владельцев сайтов поработали над тем, чтобы обеспечить свои сайты правильным файлом robots.txt. Конечно, некоторые сайты могут возвращать код 200 даже для страницы ошибок, поэтому такой подсчет может быть использован для быстрой оценки.

MIME типы

MIME типы (типы содержания) возвращаются веб-серверами в HTTP заголовках, чтобы сообщить клиентам, какой передается документ. Они состоят из типов (text, image и так далее), подтипов (html или jpeg) и некоторых необязательных параметров, таких как кодировка документа. Например, HTML файл обычно имеет MIME тип “text/html”, а текстовый файл - “text/plain”. Изображения могут иметь MIME типы “image/gif” или “image/jpeg”. Список всех зарегистрированных MIME типов можно посмотреть на IANA.

Единственный MIME тип, который должен возвращать файл robots.txt - это текст. По правде говоря, спецификация специально не упоминает это правило, но сайты типа Google следуют общему правилу, что “если это не text/*, то это не простой текст”. 109 780 из исследованных файлов robots.txt имели MIME тип, отличный от text/plain. Поэтому неудивительно, что крупнейшие поисковые системы, такие как Google, Yahoo! и MSN, стараются читать файл robots.txt независимо от возвращаемого типа. Например, robots.txt на сервере Дигга имеет тип “text/html; charset=UTF-8″. И поисковые роботы следуют правилам этого файла.

Кроме text/html и text/plain, были среди исследованных файлов и другие MIME типы, например, application/octet-stream, application/x-httpd-php, text/x-perl (в основном страницы ошибок), video/x-ms-asf, application/x-httpd-cgi, image/gif и image/jpeg.

Даже среди файлов, обозначенных как текст, было множество вариантов MIME типов, часто с ошибками в написании. Приведу список наиболее часто встречаемых.:
plain/text
text
text/R*ch
text/css
text/enriched
text/vnd.wap.wml
text/x-invalid
text/x-perl
text/x-server-parsed-html
text/xml
txt

Robots.txt - текстовый файл?

Еще одна ошибка, помимо использования неправильного content-type - это загрузка robots.txt в нетекстовом формате. Популярные ошибки - это загрузка robots.txt в формате Word документа (примеры: 1, 2, 3), RTF (примеры: 1, 2, 3) и HTML. Были найдены даже файлы роботса в форматах LaTex и KOffice (unix-based текстовый формат).

Некоторые серверные программы (т. н. Cougar, что-то вроде Microsoft Small Business Server или IIS) на запрос файла robots.txt даже выдают потоковое видео в формате ASF (примеры: 1, 2). Ужас.

Неправильная кодировка

Кодировка символов определяет, какие знаки соответствуют определенным наборам бит. Сайты определяют кодировку, устанавливая ее в переменной content-type в заголовке. Robots.txt на некоторых сайтах был написан в редко используемых кодировках типа UTF-16. UTF-16 редко используется по многим причинам, хотя бы из-за неоднозначности определения последних бит кодировки символа. Из 463 файлов в формате UTF-16 примерно 10% были нечитабельны, хотя и содержали UTF16 BOM.

С другой стороны, некоторые сервера вообще определяют свои множества символов и называют кодировку по-своему, например, “nf_z_62-010″, “ibm-939″ и “fi_fi.iso-8859-15@euro”.

Комментарии

В robots.txt можно использовать только один вид комментариев - комментарием считается строка после знака “#”. При этом среди исследованных сайтов были найдены HTML комментарии ““, комментарии в стиле C++ “//” и многие другие, включая просто вставленные в текст строки комментариев.

Совершенно непонятные ошибки

Некоторые люди, наверное, вообще не имеют представления о том, что должно содержаться в файле robots.txt. Например, одна из распространенных ошибок - файлы robots.txt, в которые скопировано содержание страницы базы данных роботов. Речь идет не о нескольких сайтах. Такой robots.txt найден примерно на кажд 1000 сайтов. Это просто сумасшествие. Это часть еще более распространенной общей ошибки, когда в robots.txt копируют какие-то инструкции по его настройке. Есть совершенно “левые” файлы. В robots.txt пишут религиозные тексты и описания каких-то церквей. Или каталог MIDI треков. Список видеоигр. Несколько файлов .htaccess - иногда вставляют код вместе с конструкциями роботса, иногда используют синтаксис .htaccess для описания User-Agent.

Списки ключевых слов и описаний сайта, включая просто перемешанные ключевые слова. PHP и Bash скрипты, и все что угодно.

Есть даже одно описание плавательного бассейна (по-немецки).

И, конечно, множество читабельных для людей инструкций по содержанию robots.txt, которые робот понять не сможет.

info.txt

По-видимому, есть еще один протокол, подобный robots.txt, для рекламы и размещения контактной информации о владельце сайта. Эта информация используется Alexa для определения владельца сайта. Много таких записей было найдено в файлах robots.txt.

Регулярные выражения

В спецификации robots.txt не описаны регулярные выражения, но многие поисковые системы сейчас поддерживают такие возможности.

Например, Google, Yahoo! и MSN Search понимают * как соответствие любой строке символов, а знак доллара $ как знак окончания URL. Поэтому для блокировки пауков при попытке загрузить jpeg файлы можно использовать следующую конструкцию:

User-agent: *
Disallow: /*.jpg$

Блокировка доступа к отдельным форматам файлов - самое распространенное применение для регулярных выражений. И большинство людей часто используют регулярные выражения когда они совсем не нужны. Например, многие сайты прописывают такое правило:

Disallow: /secret/*

Использовать нестандартное выражение здесь бесполезно, потому что такое правило эквивалентно более простому:

Disallow: /secret/

Обычно на сайтах, содержащих подобие первого правила с * не прописывают второй вариант. Паук, который не поддерживает недокументированные возможности, будет индексировать запрещенную папку, потому что не поймет ваших инструкций.

Обычные синтаксические ошибки

Какие еще есть ошибки, кроме перечисленных выше? Спецификация говорит о том, что записи должны разделяться пустыми строками, и большинство ошибок вращаются вокруг этого.

Во-первых, многие оставляют пустую строку между строкой User-agent и правилами для этого робота - это 74 043 из проанализированных файлов.

Во-вторых, часто пишут правило Disallow/Allow, не упоминая перед ними агента, или в одной строке с агентом - эта ошибка допущена в 64 921 файлах.

В-третьих, часто пишут строку с агентом после правила Disallow/Allow, не разделяя их пустой строкой - еще 32 656 файлов.

Строки совсем ненужного текста (не комментарии, не правила или агенты) встретились в 22 269 файлах.

Это, кстати, не показатель, ведь за ошибочный текст могло быть принято и недавно введенное Google правило sitemap, которого автор эксперимента не учел.

Задержка сканирования

«Пауки» также иногда обращают внимание на директивы управления, например, Crawl-delay (задержка сканирования, чтобы робот не положил сервер). MSN, Yahoo! и Ask поддерживают эту директиву, ее записывают так:

User-agent: *
Crawl-delay: 5

Это значит, пауку следует ждать 5 секунд между загрузками. Были найдены десятки тысяч таких записей.

Опечатки

Было найдено очень много файлов с опечатками. Опечаток команды Disallow набралось целых 69 видов! Это не считая опечаток, когда одни буквы в середине слова заменяют другими.

Ошибки в движках сайтов

Часто ошибки robots закладываются при разработке движков сайтов (например, advancedaccess). На многих сайтах файл robots.txt содержит только строку:

this file placed here so you don't fill up my error log looking for it
(В файл, размещенный здесь, вы не можете ничего дополнить из-за ошибки лога)


Подобных примеров много. Скорее всего, такие строки нужны для статистики использования движка. Это как метатег generator=Wordpress на движках Wordpress - для сбора статистики. Но создание заведомо невалидного robots.txt, по-моему, не очень красиво по отношению к пользователям.

Выводы

Какие выводы мы можем сделать исходя из этих данных? Главный вывод, я думаю, состоит в том, что протокол исключения роботов (Robots Exclusion Protocol) намного более сложный, чем кажется. На месте «паука» для того, чтобы правильно «прочитать» множество совершенно разных и сумасшедших robots.txt по всему интернету, вам нужно написать исключительно гибкий парсер (следуя Robustness Principle), в большинстве случаев игнорировать тип содержания (content-type), уметь распознавать множество кодировок (и в большинстве случаев просто игнорировать возвращаемую сервером кодировку), распознавать HTML и другие виды контента в файлах robots.txt и потенциально поддерживать множество расширений к принятому стандарту.

А что насчет высказанного выше утверждения, что пауки должны спрашивать разрешения на индексацию у вебмастера? Недавний проигранный иск правительства Бельгии против Google еще раз подтвердил верность позиции поисковых систем:

“Из-за огромного размера интернета для поисковой системы невозможно персонально спросить каждого вебмастера, можно загрузить ту или иную страницу или нельзя. Если бы такое разрешение было обязательным, то интернет бы развалился”,, – Эндрю МакЛофлин, глава отдела Google по конфиденциальности.

Как видно из раздела о статус-кодах, если бы это произошло, то почти четверть доменов стали бы “черными ящиками” для поисковых систем. Тогда эти сайты просто не существовали бы для большинства пользователей. Такой результат не устроил бы никого - ни вебмастеров, ни поисковые системы.

Если говорить не так серьезно, то всегда интересно узнать, насколько же интернет все-таки «загрязнен». И насколько разное наполнение для своих сайтов придумывают их владельцы.

Почитать

A Standard for Robot Exclusion - главный документ по robots.txt
Описание на русском языке и правильное использование robots.txt
Эндрю Вустер, программный инженер Apple

Перевод под ред. оптимизатора Егора Стамбакио

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Гость
    больше года назад
    они рунет не видели... процентов 50 в ошибках...
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Кейс: как продвинуть сайт производителя мебели на заказ в Москве
Art Moderator
2
комментария
0
читателей
Полный профиль
Art Moderator -
32 инструмента в помощь SEO-специалисту
clark
3
комментария
0
читателей
Полный профиль
clark - Я - г-н Марк Джо из корпорации corp, мы являемся законной, зарегистрированной и гарантированной кредитной компанией, мы предоставляем 3% -ые кредиты частным лицам, компаниям, государственным учреждениям и деловым организациям и людям всех родов. Свободные кредиты - это решение всех ваших финансовых проблем. свяжитесь с нами по электронной почте: mjoe0123@gmail.com
Исследование: влияние smart-ссылок на продвижение по СЧ-запросам
Анатолий Шевчик
1
комментарий
0
читателей
Полный профиль
Анатолий Шевчик - +1097988
Контекст под SEO. Как поисковая реклама помогает позициям в органической выдаче
Сергей Дембицкий «Sima-Land.ru»
22
комментария
0
читателей
Полный профиль
Сергей Дембицкий «Sima-Land.ru» - Боже мой, неужели SEO-маги вернулись??? Открыть в роботс utm-метки для индексации и наплодить дублей...что? А расчеты в конце статьи про бюджет на SEO и контекст...откуда эти пропорции? Как по мне, SEO-магия вне Хогвартс. Спасибо, развеселили!
Все, что нужно SEO-специалисту. Обзор инструментов
Администратор Сайта
1
комментарий
1
читатель
Полный профиль
Администратор Сайта - Шаришь в seo! Сервис реально хороший
Два идеальных способа разориться на старте интернет-магазина
Стас
4
комментария
0
читателей
Полный профиль
Стас - Seonews в последнее время такую чушь несет! Где вы таких афторов находите? Статья ничего не стоит и несет чушь! Кто хоть немного понимает в этом так вам и скажет, и такие де комментаторы горе-сеошники, просто смешно читать, вы хоть модерируете ваши статьи или просто для воды на сайте?! Бред сивой кобылы эта статья до самой последней точки!!!
Яндекс перестал индексировать сайты, созданные на Wix
Константин Даткунас
3
комментария
0
читателей
Полный профиль
Константин Даткунас - Было бы интересно посмотреть саму выборку из 10 000 и методику анализа.
4 способа быстро собрать теги для сайта
Рустем Низамутинов
5
комментариев
0
читателей
Полный профиль
Рустем Низамутинов - Расписал и закинул в Google Docs, а то здесь в комментариях ссылки на активны. docs.google.com/document/d/1r0TZLNrQyYLdIzDQsD5YKlMG41HUGQgEep3bxE_ij-M/edit?usp=sharing
Яндекс: как мы модерируем объявления
Гость
5
комментариев
0
читателей
Полный профиль
Гость - Это ж Яндекс, чего вы ожидали-то? Коммерческая структура с раздутым штатом, задачей которой является заработать больше денег. Любыми методами. Задача всех пользователей посадить на Директ, даже если придется разрушить суть рунета, реализуется по полной программе. Все возражающие караются и выпиливаются. И каждый из сотрудников делает все возможное и невозможное, чтобы реализовать любую дурацкую идею - за это еще и премию выхватить можно. Даже если потом придется выполнять "откат", премиальные уже заплачены. Так было с одним из фильтров Яндекса, так было с купленным им сайтом Кинопоиска, который из русскоязычной энциклопедии кино был превращен за безумные деньги в банальный платный онлайн-кинотеатр.
Как мы разработали и вывели в ТОП сайт курсов рисования
Иван Стороженко
21
комментарий
0
читателей
Полный профиль
Иван Стороженко - Добрый день. 1)Чаще всего основная проблема заключается, в согласовании с клиентом добавляемого контента и то как он будет отображаться. На данном сайте фото и услуги конечно предоставлял клиент, все остальное уже делали мы. 2)Да в принципе, когда есть команда и понимание, что нужно делать, все идет быстро (опять же основная заминка идет на согласовании с клиентом) 3)Смысла делать новый в данном случает нет. В принципе доделывался полноценный сайт. 4)Когда клиент уже не предоставляет информацию, приходится искать у конкурентов (например с других стран или регионов). Но чаще всего клиент, хоть что-то "подкидывает".
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
325
Комментариев
262
Комментариев
234
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
97
Комментариев
97
Комментариев
95
Комментариев
86
Комментариев
80
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
55
Комментариев
54
Комментариев
53

Отправьте отзыв!
Отправьте отзыв!