Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:

Как найти и обезвредить фейкового гуглбота

Россия +7 (495) 960-65-87
Шрифт:
0 12848

В прошлом месяце агентство Incapusla Security представило отчет о состоянии гуглботов и их вредоносных близнецов. И надо сказать, для тех, чей бизнес зависит от статистики сайта, новости не очень хорошие.

pic.1.png

Из 24 посещений сайта гуглботами одно обязательно совершает фейк. При этом более 34% фейковых гуглботов используются для DDoS-атак, взломов, спама и других вредоносных действий.

Методология

Эксперты Incapusla проанализировали:

«... более 400 млн посещений роботами поисковых систем 10 тысяч сайтов, в результате которых было проиндексировано 2,19 млрд страниц в течение 30 дней.

Информация о гуглботах-самозванцах (фейковых гуглботах) получена вследствие проверки более 50 млн посещений гуглботов-самозванцев, а также из отчета DDoS Threat Landscape, опубликованного ранее в этом году».

Выводы Incapusla

pic.2.png

Когда Incapusla обратили внимание на стандартного гуглбота, то заметили некоторые интересные моменты.

Для начала следует отметить, что гуглботы сканируют больше страниц, чем роботы всех других поисковых систем вместе взятые, — 60,5%.

tab.1.png

То, что Incapusla обнаружили при анализе этих посещений, также было немного неожиданно:

  • Yahoo выбыл из топ 5 поисковых роботов.
  • Majestic 12 Bot, или бот WebCrawler Majestic SEO, занял четвертое место.
  • Google не оказывает никому покровительства.
  • Нет практически никакой разницы между размером площадки и:
  • Частотой индексации,
  • Показателем индексации,
  • Глубиной индексации,
  • SEO-продуктивностью.

graph.1.png

Известно, что Google — крупнейший генератор посещений ботов и что эти посещения инициируются чем-то иным, нежели активностью сайта или SEO, и что он прислушивается к мнению пользователей.

В целом, довольно неплохо. Но беспокойство вызывает не Google, а его «злые» близнецы, с которыми следует быть осторожнее (их очень много — и некоторые их них отлично сделаны).

Юзер-агенты

Чтобы узнать, какие боты посещают наш сайт необходимо посмотреть сведения о них в лог файлах . Когда мы видим соответствующий юзер-агентагент пользователя, мы знаем, из какой поисковой системы, с какого компьютера или браузера произошло посещение. Например, юзер-агент может выглядеть следующим образом:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:30.0) Gecko/20100101 Firefox/30.0

Эта информация говорит, что кто-то использует Mozilla/Firefox 30 на MacIntoch с операционной системой Mavericks. Она также может рассказать о пауках, программах и ботах, то есть о тех, кто «бегает» по нашим сайтам.

Имитация Google — жизнь бота

В ходе исследования Incapusla обнаружили, что «более 4% ботов, представляющихся гуглботом, на самом деле им не являются». И здесь победителем становится Бразилия с долей фейковых гуглботов почти 14%.

Плохие боты

Зачем кому-то создавать фейковых гуглботов?

Это что-то вроде того, как иметь поддельные документы в 18 лет. Иногда вы просто хотите потусоваться, но чаще они нужны вам, потому что вы делаете что-то такое, о чем лучше не знать вашей маме.

pic.3.png

graph.2.png

Не все боты плохие

Примите во внимание, что не все боты плохие и созданы со злым умыслом. Иногда фейковых гуглботов используют только для того, что посмотреть на ваш сайт глазами Google.

Поэтому прежде чем блокировать бота, обратите внимание на его поведение. Может, он всего лишь просматривает сайт? Заходит ли он снова и снова, имеют ли его перемещения случайный характер?

И только после того как вы определите, что это плохой бот, можно закрыть ему доступ. Будьте осторожны, так как вы можете заблокировать доступ и для роботов Google.

Как узнать, что посещения фейковые?

Одним из ключевых показателей, указывающих на то, что есть проблемы с фейковыми гуглботами, является страна происхождения бота.

pic.4.png

На американские сайты чаще всего заходят боты из 6 стран, показанных на картинке справа. А вот боты, чья родина указана на изображении слева, должны заставить владельца ресурса насторожиться. Однако если вы работаете со странами из списка слева, то нет ничего странного в том, что ваш сайт будут посещать их гуглботы.

Если вы увидели что-то подозрительное, то не забудьте просмотреть логи сервера и юзер-агенты и проверить, совершаются ли на вас атаки. Если это так, и у вас нет доступа к серверам, свяжитесь с компанией, которая может заблокировать их за вас.

Определить плохого бота не слишком трудно

Хорошей новостью является то, что идентифицировать плохого бота не так уж сложно. И как только это будет сделано, вы можете заблокировать его и больше не пускать на свой сайт. Но это в том случае, если у вас есть такие возможности, права и доступы. У большинства владельцев сайтов всего этого нет, и им приходится полагаться на свою хостинговую компанию, поэтому очень важно выбрать надежного и осведомленного подрядчика.

Если у вас есть доступы, вы можете предпринять необходимые меры, чтобы убедиться, что боты действительно осуществляют какую-то деструктивную деятельность, а затем заблокировать их.

Как определить плохого бота?

Иногда выявить плохих ботов может быть достаточно проблематично: некоторые из них очень сложно устроены, особенно, те, которые имитируют Google. Вот некоторые шаги, которые помогут определить фейковых ботов.

Incapusla исходя из собственного опыта сформулировала 4 шага для выявления фейковых ботов:

Шаг 1. Посмотрите на данные в заголовке

Даже если боты использовали юзер-агент Google, остальные данные заголовка будут совсем «не как у Google». Этого достаточно, чтобы забить тревогу, но не торопитесь блокировать его, потому что зарегистрированы случаи, когда Google отклоняется от обычной структуры заголовка.

Шаг 2. Проверка IP и ASN

Далее проведите проверку IP и ASN. Здесь стоит обратить внимание на несколько моментов, в том числе на личности владельцев IP-адресов и ASN, которые производят подозрительный трафик.

В случае с фейковыми гуглботами ни IP, ни ASN не будут связаны с Google. Таким образом, с помощью параллельной проверки этой информации и сомнительных заголовков можно с высокой степенью уверенности сказать, что мы имеем дело с потенциально опасными двойниками.

Шаг 3. Контроль действий

Тем не менее «потенциально опасный» это не всегда «злой». Например, некоторые SEO-инструменты пытаются выдать себя за гуглботов, чтобы получить «гуглоподобное» видение контента сайта и ссылочного профиля.

Именно поэтому следующий пункт поиска — поведение посетителей. Оно поможет нам понять их намерения, ключ к которым часто лежит в самом запросе, так как они представлены в WAF (Web Application Firewall). В этом случае самого показателя посещений достаточно, чтобы завершить картину, сразу определив DDoS-атаки и повысив автоматизированную защиту от них.

Шаг 4. Репутация IP и новая низкоуровневая подпись

Хотя Incapusla регулярно сталкивается с гуглботами, вариант подписи, появившийся во время последней атаки, отраженной системой, не был частью существующей базы данных. После смягчения атаки собранные данные использовались, чтобы создать новую запись низкого уровня, которая затем будет добавлена к десятимиллионному пулу записей и разведена через сеть, чтобы защитить всех клиентов Incapusla.

В результате при следующем посещении этими ботами сайта они будут немедленно заблокированы. Более этого, репутация атакующих IP также будет записана и добавлена в другую базу данных, где хранятся потенциально опасные адреса.

Проще говоря, вы должны знать, что юзер-агенты могут быть фейками, IP-адреса могут быть подделаны, а заголовки реконструированы и т.д. И для обеспечения безопасности, нужно раскрыть «истинное лицо» и намерения посетителей.

Итоги

tab.2.png

Следите за своим органическим трафиком, особенно за страной его происхождения. А когда кто-то или что-то путешествует по вашему сайту, узнайте, каковы его намерения, и не держите в страхе «хороших ребят».

Недавно для обеспечения удобства пользователей Google Analytics запустил фильтр ботов и пауков. Подробнее об этом можно прочитать здесь.


Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Поделиться 
Поделиться дискуссией:
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
SEOnews и Serpstat запускают конкурс для интернет-маркетологов
Eugene Lata
51
комментарий
0
читателей
Полный профиль
Eugene Lata - Отметил, спасибо.
Как построить качественную ссылочную массу сайта
Айрат Рахимзянов
39
комментариев
0
читателей
Полный профиль
Айрат Рахимзянов - Спасибо Кирилл. Сейчас восстановилась работа сервиса: take.ms/ttXrw
«Я оптимизировал сайт, а он не в ТОП! Что делать?»
Павел Горбунов
7
комментариев
0
читателей
Полный профиль
Павел Горбунов - Как можно в инструменте tools.pixelplus.ru/tools/text-natural сравнить текст со страницы конкурента и со своей страницы? Я вижу возможность только для проверки одного урла.
Мир глазами поисковых систем
Александр Рунов
7
комментариев
0
читателей
Полный профиль
Александр Рунов - Какой регион, если не секрет? В Мск, в ряде ВК тематик (в тех же "окнах" или "колесах"), без работы с внешними факторами по ВЧ запросам в ТОП не выплывешь. Хотя в большинстве направлений вполне реально.
Влияние HTTPS на ранжирование региональных поддоменов в Яндексе
Екатерина Иванова
1
комментарий
0
читателей
Полный профиль
Екатерина Иванова - Посмотрите на сколько упал трафик и на сколько потом вырос:упал на 10-20% на 1 месяц, а вырос в итоге в 5 раз. Одним мартовским трафиком всё падение перекрыли. Или можно ждать Яндекс неопределённое количество времени со стартовым уровнем трафика. Упущенные возможности и всё-такое.
Google.ru внесли в реестр запрещенных сайтов
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Гон, все работает и будет работать. Да и пусть банят, будет как с рутрекером.
Инфографика: самые распространенные SEO-ошибки Рунета
Дмитрий Панфилов
2
комментария
0
читателей
Полный профиль
Дмитрий Панфилов - написано, но не это и не так )
Интеграция call tracking и CRM: углубленный анализ данных о звонках и продажах
Денис
2
комментария
0
читателей
Полный профиль
Денис - Какой смысл вообще в облачных CRM, обрезанный фугкционал, свое дописать невозможно, слив клиентов другим компаниям. Серверные бесплатные CRM куда надежней и кастамизируй как хочешь.
SEMrush: факторы ранжирования в Google в 2017 году
Анна Макарова
292
комментария
0
читателей
Полный профиль
Анна Макарова - Уважаемый S1, я тоже понимаю, что есть такие люди, которые заметив допущенную неточность несутся на всех парусах продемонстрировать "силу" своего ума. Спасибо вам за пристальное внимание. Это поможет нам быть лучше.
Монетизация сайта. Как, когда, сколько?
Ruslan Baybekov
2
комментария
0
читателей
Полный профиль
Ruslan Baybekov - Максим, добавили возможность вывода дохода на Яндекс Деньги и WMR.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
292
Комментариев
262
Комментариев
219
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
97
Комментариев
97
Комментариев
95
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
55
Комментариев
52
Комментариев
51
Комментариев
45

Отправьте отзыв!
Отправьте отзыв!