×
Россия +7 (495) 139-20-33

Как найти и обезвредить фейкового гуглбота

Россия +7 (495) 139-20-33
Шрифт:
0 20859
Подпишитесь на нас в Telegram

В прошлом месяце агентство Incapusla Security представило отчет о состоянии гуглботов и их вредоносных близнецов. И надо сказать, для тех, чей бизнес зависит от статистики сайта, новости не очень хорошие.

pic.1.png

Из 24 посещений сайта гуглботами одно обязательно совершает фейк. При этом более 34% фейковых гуглботов используются для DDoS-атак, взломов, спама и других вредоносных действий.

Методология

Эксперты Incapusla проанализировали:

«... более 400 млн посещений роботами поисковых систем 10 тысяч сайтов, в результате которых было проиндексировано 2,19 млрд страниц в течение 30 дней.

Информация о гуглботах-самозванцах (фейковых гуглботах) получена вследствие проверки более 50 млн посещений гуглботов-самозванцев, а также из отчета DDoS Threat Landscape, опубликованного ранее в этом году».

Выводы Incapusla

pic.2.png

Когда Incapusla обратили внимание на стандартного гуглбота, то заметили некоторые интересные моменты.

Для начала следует отметить, что гуглботы сканируют больше страниц, чем роботы всех других поисковых систем вместе взятые, — 60,5%.

tab.1.png

То, что Incapusla обнаружили при анализе этих посещений, также было немного неожиданно:

  • Yahoo выбыл из топ 5 поисковых роботов.
  • Majestic 12 Bot, или бот WebCrawler Majestic SEO, занял четвертое место.
  • Google не оказывает никому покровительства.
  • Нет практически никакой разницы между размером площадки и:
  • Частотой индексации,
  • Показателем индексации,
  • Глубиной индексации,
  • SEO-продуктивностью.

graph.1.png

Известно, что Google — крупнейший генератор посещений ботов и что эти посещения инициируются чем-то иным, нежели активностью сайта или SEO, и что он прислушивается к мнению пользователей.

В целом, довольно неплохо. Но беспокойство вызывает не Google, а его «злые» близнецы, с которыми следует быть осторожнее (их очень много — и некоторые их них отлично сделаны).

Юзер-агенты

Чтобы узнать, какие боты посещают наш сайт необходимо посмотреть сведения о них в лог файлах . Когда мы видим соответствующий юзер-агентагент пользователя, мы знаем, из какой поисковой системы, с какого компьютера или браузера произошло посещение. Например, юзер-агент может выглядеть следующим образом:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:30.0) Gecko/20100101 Firefox/30.0

Эта информация говорит, что кто-то использует Mozilla/Firefox 30 на MacIntoch с операционной системой Mavericks. Она также может рассказать о пауках, программах и ботах, то есть о тех, кто «бегает» по нашим сайтам.

Имитация Google — жизнь бота

В ходе исследования Incapusla обнаружили, что «более 4% ботов, представляющихся гуглботом, на самом деле им не являются». И здесь победителем становится Бразилия с долей фейковых гуглботов почти 14%.

Плохие боты

Зачем кому-то создавать фейковых гуглботов?

Это что-то вроде того, как иметь поддельные документы в 18 лет. Иногда вы просто хотите потусоваться, но чаще они нужны вам, потому что вы делаете что-то такое, о чем лучше не знать вашей маме.

pic.3.png

graph.2.png

Не все боты плохие

Примите во внимание, что не все боты плохие и созданы со злым умыслом. Иногда фейковых гуглботов используют только для того, что посмотреть на ваш сайт глазами Google.

Поэтому прежде чем блокировать бота, обратите внимание на его поведение. Может, он всего лишь просматривает сайт? Заходит ли он снова и снова, имеют ли его перемещения случайный характер?

И только после того как вы определите, что это плохой бот, можно закрыть ему доступ. Будьте осторожны, так как вы можете заблокировать доступ и для роботов Google.

Как узнать, что посещения фейковые?

Одним из ключевых показателей, указывающих на то, что есть проблемы с фейковыми гуглботами, является страна происхождения бота.

pic.4.png

На американские сайты чаще всего заходят боты из 6 стран, показанных на картинке справа. А вот боты, чья родина указана на изображении слева, должны заставить владельца ресурса насторожиться. Однако если вы работаете со странами из списка слева, то нет ничего странного в том, что ваш сайт будут посещать их гуглботы.

Если вы увидели что-то подозрительное, то не забудьте просмотреть логи сервера и юзер-агенты и проверить, совершаются ли на вас атаки. Если это так, и у вас нет доступа к серверам, свяжитесь с компанией, которая может заблокировать их за вас.

Определить плохого бота не слишком трудно

Хорошей новостью является то, что идентифицировать плохого бота не так уж сложно. И как только это будет сделано, вы можете заблокировать его и больше не пускать на свой сайт. Но это в том случае, если у вас есть такие возможности, права и доступы. У большинства владельцев сайтов всего этого нет, и им приходится полагаться на свою хостинговую компанию, поэтому очень важно выбрать надежного и осведомленного подрядчика.

Если у вас есть доступы, вы можете предпринять необходимые меры, чтобы убедиться, что боты действительно осуществляют какую-то деструктивную деятельность, а затем заблокировать их.

Как определить плохого бота?

Иногда выявить плохих ботов может быть достаточно проблематично: некоторые из них очень сложно устроены, особенно, те, которые имитируют Google. Вот некоторые шаги, которые помогут определить фейковых ботов.

Incapusla исходя из собственного опыта сформулировала 4 шага для выявления фейковых ботов:

Шаг 1. Посмотрите на данные в заголовке

Даже если боты использовали юзер-агент Google, остальные данные заголовка будут совсем «не как у Google». Этого достаточно, чтобы забить тревогу, но не торопитесь блокировать его, потому что зарегистрированы случаи, когда Google отклоняется от обычной структуры заголовка.

Шаг 2. Проверка IP и ASN

Далее проведите проверку IP и ASN. Здесь стоит обратить внимание на несколько моментов, в том числе на личности владельцев IP-адресов и ASN, которые производят подозрительный трафик.

В случае с фейковыми гуглботами ни IP, ни ASN не будут связаны с Google. Таким образом, с помощью параллельной проверки этой информации и сомнительных заголовков можно с высокой степенью уверенности сказать, что мы имеем дело с потенциально опасными двойниками.

Шаг 3. Контроль действий

Тем не менее «потенциально опасный» это не всегда «злой». Например, некоторые SEO-инструменты пытаются выдать себя за гуглботов, чтобы получить «гуглоподобное» видение контента сайта и ссылочного профиля.

Именно поэтому следующий пункт поиска — поведение посетителей. Оно поможет нам понять их намерения, ключ к которым часто лежит в самом запросе, так как они представлены в WAF (Web Application Firewall). В этом случае самого показателя посещений достаточно, чтобы завершить картину, сразу определив DDoS-атаки и повысив автоматизированную защиту от них.

Шаг 4. Репутация IP и новая низкоуровневая подпись

Хотя Incapusla регулярно сталкивается с гуглботами, вариант подписи, появившийся во время последней атаки, отраженной системой, не был частью существующей базы данных. После смягчения атаки собранные данные использовались, чтобы создать новую запись низкого уровня, которая затем будет добавлена к десятимиллионному пулу записей и разведена через сеть, чтобы защитить всех клиентов Incapusla.

В результате при следующем посещении этими ботами сайта они будут немедленно заблокированы. Более этого, репутация атакующих IP также будет записана и добавлена в другую базу данных, где хранятся потенциально опасные адреса.

Проще говоря, вы должны знать, что юзер-агенты могут быть фейками, IP-адреса могут быть подделаны, а заголовки реконструированы и т.д. И для обеспечения безопасности, нужно раскрыть «истинное лицо» и намерения посетителей.

Итоги

tab.2.png

Следите за своим органическим трафиком, особенно за страной его происхождения. А когда кто-то или что-то путешествует по вашему сайту, узнайте, каковы его намерения, и не держите в страхе «хороших ребят».

Недавно для обеспечения удобства пользователей Google Analytics запустил фильтр ботов и пауков. Подробнее об этом можно прочитать здесь.


Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Накрутка поведенческих факторов: дорого, сложно, но можно. Если очень хочется
Oleg_bobr2012
1
комментарий
0
читателей
Полный профиль
Oleg_bobr2012 - Мда...Может Анне сразу в Яндекс написать кейсы по накрутке ПФ. Я бы такого сотрудника гнал вон.
28 способов повысить конверсию интернет-магазина
Татьяна
1
комментарий
0
читателей
Полный профиль
Татьяна - Очень действенные рекомендации представлены в статье! Всё четко расписано и легко внедряемо в работу интернет-магазинов.Удобство и наглядность+различные бонусы и скидки-именно то, что и цепляет покупателя.
5 способов увидеть сайт глазами поисковика: анализируем скрытый контент и cloaking
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Сейчас клоаку прячут, так что под нее можно глянуть только с гуггловских ip. Сейчас только гуггл сервисами можно глянуть
Какие сайты лидировали в поиске Яндекса и Google в 2023 году
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Если что по рейтингу вы не правы, есть ядро по которому производиться оценка и вы можете по нему самостоятельно все посмотреть. Единственный объективный рейтинг по SEO. Других не знаю Ну я вам скажу что это не так и в предыдущие года сайт моего клиента попадал в рейтинг, при чем несколько раз. И я прекрасно знал еще до объявления результатов кто лидер - рейтинг прозрачный, есть фразы по которым набираются баллы. В этом году наш сайт не попал в рейтинг например и это было понятно, что не попадет (по статистике позиций)
Создали ресурс для металлургов, который позволяет следить за аналитикой рынка и осуществлять продажи
Наталья Сталь
3
комментария
0
читателей
Полный профиль
Наталья Сталь -
Optimization 2023: текстовый анализ в 2024 году и методы увеличения релевантности страниц
Игорь
1
комментарий
0
читателей
Полный профиль
Игорь - это информация максимум уровня middle seo. что такой проходняк делает в секции hard seo когда-то великой ашмановки, еще и в исполнении токсичного инфоцыгана большая загадка)) ходил последние 5 лет на нее, но больше пожалуй не стоит
5 ошибок отдела продаж, из-за которых вы теряете клиентов
Андрей
1
комментарий
0
читателей
Полный профиль
Андрей - Крутая статья! Можно еще указать: Работу без CRM-системы - я считаю, что это основа отдела продаж. Потому что не все компании решаются на внедрение отдельно системы для отдела продаж. Но зато можно что то многофункциональное внедрить аспро.клауд или что то подобное
Контекстная реклама, таргет и SEO вошли в топ-3 каналов продвижения бизнеса в 2023 году
Сергей
1
комментарий
0
читателей
Полный профиль
Сергей - Например, так {censored} - продвижение карточки в органике Google :) Также в Яндекс.Директ есть направление контекста для маркетплейсов.
Как продвигать сайт на Tilda: особенности продвижения и рекомендации специалистов
Konstantin Bulgakov
15
комментариев
0
читателей
Полный профиль
Konstantin Bulgakov - Спасибо за рекомендации, полезно. Но кажется, что тематика в кейсе не самая конкурентная + часть запросов в продвижение брендовые, там и без сео позиции будут в топе.
Простые SEO-работы, которые могут увеличить прибыль компании. Часть 1
roma.lisov
1
комментарий
0
читателей
Полный профиль
roma.lisov - Воспользовался советом по проверке и настройке картинок на сайте – реально дельный совет. Вот вроде и просто, казалось бы, а мне в голову раньше не пришло. А такие нюансы, конечно, нужно знать)
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
388
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
120
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
64
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!