Рост ботных переходов на сайт: как интерпретировать и что делать

Руководитель отдела поисковой оптимизации и развития партнерской сети торговой площадки «Price.ru» Денис Логанов и руководитель отдела разработки платформы «Ситилинк» Константин Осипов расскажут про атрибуции роботного трафика, его последствиях и методах борьбы.

За последние несколько лет доля ботного трафика резко выросла. По данным Barracuda technology, за первые шесть месяцев 2021 года автоматизированные сессии составляют почти две трети интернет-трафика. Примерно 25% этого объема приходится на известных хороших ботов –поисковых роботов, ботов социальных сетей, мониторинга и т.д. Однако почти 40% трафика составляют плохие боты, которые несут угрозу сайтам.

Плохие боты созданы для выполнения различных вредоносных действий. Они атакуют учетные записи пользователей (сбор персональных и финансовых данных), влияют на органический трафик, искажают аналитику, воруют контент, воздействуют на системы рекомендаций, тратят маркетинговые бюджеты на отправку SMS и выводят из строя серверы. В статье решили поделиться своим опытом решения данной проблемы.

Классификация ботов

  • Simple – идут с одного IP-адреса и провайдера. Переходы осуществляются с использованием автоматических сценариев, при этом не добавляются различные данные для имитации человека, называемые fingerprint, – user-agent, размер экрана, тип устройства и т.п.
  • Medium – более сложные боты. Этот тип использует программное обеспечение, которое имитирует технологию браузера, включая возможность выполнения JavaScript.
  • Hard – совершают движения мыши и щелчки, которые обманывают даже сложные методы обнаружения ботов. Такие боты имитируют поведение человека, используют программное обеспечение для автоматизации и могут взламывать сайты по типовым уязвимостям CMS. В зависимости от целей они могут писать комментарии, рассылать спам, создавать страницы с рекламой.
  • Hardcore – это комбинация medium и hard ботов. Они, как правило, циклически меняют IP-адреса, используют анонимные приватные прокси, децентрализованные сети и хранят свой уникальный fingerprint. Боты развивают его с помощью «белых» посещений сайтов аналогично обычному человеку. После получения качественной истории fingerprint бота практически невозможно отследить при правильной настройке. 

Очистить сайт на 100% от таких переходов не представляется возможным.

Виды неестественного трафика

Разберем по пунктам виды ботных переходов.

1. Ботный трафик для нагула профилей

Для накрутки поведенческих факторов (ПФ) используют переходы ботов по заданному алгоритму. Чтобы боты были похожи на естественный трафик, применяется прокачка профилей.

Ваш сайт может попасть в файл нагула профилей определенной тематики. Вследствие чего вы можете заметить рост прямых заходов (type-in) или реферальных переходов из социальных сетей. Эти 2 метода наиболее популярны для выполнения первого перехода для прокачки профиля.

Выглядит это так:

Реферальным источником может быть любая площадка, не обязательно социальные сети.

Если вы заметили аномальный рост (от 50% и более) ботного трафика с большим процентом отказов на свой ресурс, то рекомендуется принять меры. Например, у нас на ряде проектов был замечен явный негативный тренд по позициям и трафику после обнаружения кратного роста роботных переходов, хотя Яндекс в переписке говорил нам обратное. Появление новой метрики в Яндексе «Отфильтровано по поведенческим факторам» никак не повлияло на текущее положение дел.

Что можно предпринять

1. Часть такого трафика получается срезать посредством настройки и подключения сервиса CloudFlare.

Программа CloudFlare имеет 4 тарифа:

  • Free,
  • Pro ($20/месяц),
  • Business ($200/месяц),
  • Enterprise (по запросу).

На тарифах Pro и Business есть раздел Bots.

В блоке показывается статистика по трафику в разрезе определения ботов по вашему проекту.

Отчет бота включает в себя 4 типа трафика:

  • Автоматический трафик (Automated) – плохие боты. Используется эвристика, машинное обучение и другие методы для определения таких запросов. В большинстве случаев такой трафик вредит вашему сайту.
  • Вероятно, автоматический трафик (Likely Automated).
  • Человеческий (Likely Human).
  • Проверенный трафик ботов (Verified bot) – поступает от поисковых ботов, платежных систем в Интернете (Google, Yandex, PayPal и так далее).

Все эти данные также доступны через GraphQL и вы можете выгружать их через API.

На тарифе Pro программа будет защищать только от автоматизированного трафика (Automated).

На тарифе Business вы получаете доступ к новой версии Bot Analytics, предназначенной для защиты от ботов. Бизнес-версия программы глубже сортирует ботный трафик и имеет больше настроек.

Перейдя в раздел Automated, можно посмотреть детальный отчет по переходам. Вы можете проанализировать трафик по типу, настраивать временные рамки и фильтровать по различным атрибутам, таким как IP–адрес, категория, user-agent и т.д.

Самая главная разница между версиями Pro и Business в фильтрации на «Автоматический трафик» и «Вероятно, автоматический трафик».

Последний вариант включает запросы, распознанные механизмом машинного обучения CloudFlare. Эти запросы часто поступают от сложных ботов – тех, которые обходят простые инструменты безопасности, меняя IP-адреса, user-agent, входят через анонимные прокси и убедительно имитируют людей.

В бесплатной версии нет защиты от ботов (кроме базовой от DDoS-атак с пропускной способностью до 90 Тбит/с), отчета и настроек фильтрации – Configure Super Bot Fight Mode. 

В целом если вы изучили логи вашего сайта и нашли закономерность, по которой можно заблокировать большую часть ботного трафика, то вы можете сделать это на стороне сервера или во Free-версии CloudFlare.

2. Часто этот сервис полностью проблему не решает.

Эксперты по работе с поведенческими факторами научились грамотно прокачивать профили (нагулом). Они меняют: user-agent, IP-сети, устройства, длину сессии, разрешения и так далее. Вследствие чего никакая система защиты не может сматчить весь трафик с ботными переходами. 

В этом случае мы рекомендуем дополнительно не подгружать счетчик Яндекс.Метрики для type-in и реферальных переходов без куки. Обычно просят выбрать город или другой аналогичный функционал.

В совокупности эти 2 подхода дали положительную динамику и восстановление видимости проектов в поисковых системах.

2. Скликивание через поисковые системы

В работе с поведенческими факторами также могут применять технологию скликивания конкурентов. В счетчике Метрики вы можете заметить кратный рост переходов по ключевым словам с большим процентом отказов.

Данный вид переходов наносит явный урон сайту с точки зрения влияния на ранжирование в поисковых системах. В случае выявления проблемы (на больших объемах от общего трафика) рекомендуется подключить сервис CloudFlare (метод описан выше) и параллельно выравнивать CTR, сессии и глубину при помощи собственной накрутки ПФ.

3. Влияние на рекомендательные системы и слив маркетинговых бюджетов

Эти типы атак объединяет большое количество запросов на сайт, близкое к срабатыванию традиционной защиты от DDoS. Такие атаки могут приводить не только к проблемам в работоспособности сайта, но и к прямым финансовым или репутационным потерям. Разберем подробнее самые популярные примеры таких атак и способы борьбы с ними.

Атака на форму подтверждения действия по SMS.

На многих ресурсах есть форма регистрации или авторизации по номеру телефона с подтверждением по SMS, когда пользователь вводит номер телефона и ему приходит смс-сообщение с секретным кодом. Например:

Во многих крупных компаниях заложены достаточно большие бюджеты на отправку sms-сообщений. При этом в организациях даже не подозревают, что их сайты используются пользователями в лучшем случае для розыгрышей своих приятелей, а в худшем – для нанесения репутационных и финансовых потерь. Делается это путем бесконечной отправки кодов на все существующие номера телефонов.

На github можно найти множество готовых программ для рассылки sms-спама. Вот некоторые из популярных программ и их баз данных сайтов, используемых при атаках (можете поискать свой сайт в списке):

Влияние на рекомендательные системы.

Целью злоумышленников является вывод в рекомендации сайта определенных товаров или бренда. Для этого с помощью ботов искусственно накручиваются просмотры товаров или действия по добавлению товара в корзину.

В итоге пользователи видят в рекомендациях не популярные товары или услуги, а те, которые были накручены ботом. Из-за этого работа рекомендательной системы может ухудшиться, что обернется убытками для компании.

4. Парсинг цен, остатков или любой другой полезной информации

Веб-скрейпинг (web scraping) – это парсинг доменов при помощи ботов, которые воруют контент. Обычно они выполняют GET-запросы на целевой URL c целью извлечения данных.

Тут надо понимать, что это целая индустрия и защититься от парсинга и кражи контента полностью просто невозможно. Но это не значит, что защищаться бесполезно. 

Например, если у вас интернет-магазин с 100 000 SKU и у вас нет никакой защиты от парсинга, то это вопрос времени, когда ваш сайт начнет испытывать проблемы с доступностью, так как вам будут неожиданно прилетать тысячи запросов в секунду, создавая проблемы с доступом для реальных клиентов.

Пример локального всплеска активности ботов, где пришло >40 запросов в секунду от ботов

Здесь задачи у парсеров и владельцев сайтов полностью противоположные.

  • Задача парсеров – собрать всю информацию с минимальными затратами и за максимально короткие сроки.
  • Задача владельцев ресурсов – сделать парсинг максимально дорогим, долгим и трудоемким.

Крупные участники рынка не так страшны, так как они стараются быть незаметными и не создавать проблем для работы ваших сайтов, а вот средние и мелкие максимально опасны, так как могут вмиг положить ваш сайт, проводя свои эксперименты.

Способы борьбы с этим типом атак

Традиционные способы защиты от DDoS тут будут неэффективны, так как общее количество запросов от ботов будет не сильно выбиваться из общей статистики, но эти запросы будут наверняка самыми тяжелыми для обработки вашим backend или дорогими, как в случае атак через SMS bomber.

В борьбе с этим типом атак поможет активная проверка через Java Script, которая при первом заходе будет незаметно для пользователя проверять, что браузер – реальный, и только в случае успеха показывать ваш сайт.

На платных тарифах CloudFlare доступен WAF, который позволяет гибко ограничивать доступ к сайту пользователям из определенных стран. Например, если ваш сайт ориентирован на аудиторию СНГ, то вы можете ввести требование вводить Captcha для пользователей из других стран. Это будет выглядеть так:

Или так:

Такие ограничения сделают парсинг вашего сайта максимально дорогим и сложным, но все же не невозможным.

5. DoS и DDoS-атаки

DDoS – целенаправленная атака за счет резкого увеличения запросов к сайту с целью нарушения работы сервера.

Сервис CloudFlare в бесплатной версии предоставляет неограниченное предотвращение DDoS-атак с пропускной способностью до 90 Тбит/с. В Pro и Business версиях добавляются оповещения и WAF защита.

Подобный сервис защиты предоставляет и компания Qrator, но уже на платной основе, где в зависимости от тарифа доступны следующие опции:

  • предотвращение DDoS-атак с пропускной способностью до 3000 Гбит/с;
  • скорость реакции – от 30 секунд до 3 минут;
  • SLA – до 99,95% (в зависимости от тарифа).

Пример отражения крупнейшей за всю историю DDoS-атаки ботнета «Mēris»

С недавнего времени в Qrator появилась еще и собственная система защиты от ботов. По непонятным причинам они ее не особо пиарят –даже не все существующие клиенты в курсе новой услуги.

Нам удалось посмотреть презентацию этой системы еще на этапе beta-тестирования. На наш взгляд, она дает, по сравнению с CloudFlare, возможность задавать более гибкие и сложные правила блокировки или разрешения трафика. Для опытных пользователей эта система управления будет более привычна из-за своей схожести с типичными Firewall, удобна благодаря управлению большим количеством правил и тестированию правил на процент трафика. Однако для людей, далеких от IT, интерфейс может показаться сложнее, чем у CloudFlare.

Есть и другие компании, которые специализируются конкретно на защите от ботов, например Variti. У них, несомненно, есть свои фишки, которые лучше помогают отфильтровывать ботов, но, к сожалению, у сервиса периодически бывают ложные срабатывания, когда реальные клиенты не могут получить доступ к сайту.

6. Другие ботные переходы

К ботам можно отнести и различные сервисы краулинга, анализа и мониторинга сайтов.

Пример такого рода ботов:

  • ltx71 - (http://ltx71.com/).
  • ias-va/3.1 (+https://www.admantx.com/service-fetcher.html).
  • WinHttp-Autoproxy-Service/5.1.
  • Expanse, a Palo Alto Networks company, searches across the global IPv4 space multiple times per day to identify customers' presences on the Internet. If you would like to be excluded from our scans, please send IP addresses/domains to: scaninfo@paloaltonetworks.com.
  • SeopultContentAnalyzer/1.0.
  • UserAgent не заполнен.
  • Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html).
  • Mozilla/5.0 (compatible; Adsbot/3.1; +https://seostar.co/robot/).

На большинстве серверов и сайтов данные переходы никак не отражаются. Но если вы хотите сократить нагрузку на сервер или защитить контент от копирования, то рекомендуется понизить приоритет для таких ботов или вовсе заблокировать их. 

Сделать это можно на стороне сервера (анализируя логи), автоматически в бизнес-версии CloudFlare или в бесплатной, используя правила.

Вывод

Прежде чем предпринимать какие-то меры, необходимо понять природу трафика, его количество и метрики. Не все виды и объемы ботных переходов критичны для проекта. 

Правильно выполненный анализ проблемы позволяет с минимальными ресурсами найти верное решение. Плохие боты составляют значительную часть трафика веб-сайтов, и их обнаружение и блокировка имеет важное значение для бизнеса.

(Голосов: 27, Рейтинг: 4.96)