Хочешь повысить отдачу от Директа?
Включи «Автопилот»

Антиспам на основе анализа поведения пользователей

Россия+7 (495) 960-65-87
Шрифт:
0 4363

Исторически сложилось, что поисковые системы использовали упрощенные модели для извлечения сигналов для ранжирования и антиспама. По мере роста трафика и кликстрима стал возможным переход к более реалистичным моделям. Например, на смену модели случайного блуждания PageRank пришли модели учета поведения реальных пользователей (Browserank и аналогичные алгоритмы).

Конечно, этот переход не означает безоговорочного отказа от традиционного PageRank, но означает уменьшение его вклада в расчет релевантности документа в пользу новых возможностей.

Важно, что реалистичные модели обеспечивают не только лучший сигнал в ранжировании, но и позволяют эффективно подавлять спам. Рассмотрим некоторые подходы, опубликованные в статье «Identifying Web Spam with User Behavior Analysis», Tsinghua University, Beijing, 2008.

Авторы решили две задачи:

  1. Выявлены поведенческие шаблоны, позволяющие эффективно обнаруживать спам,
  2. Создана платформа для обнаружения новых способов спама.

Технической базой для эксперимента послужил фрагмент лога поисковой системы sogou.com за 57 суток (лето 2007 года). Этот массив данных содержал 22.1 миллиона пользовательских сессий и 2,74 миллиарда кликов по 800 миллионам документов.

Шаблоны, хорошо характеризующие спам

Доля seo-трафика на документ

Определим долю seo-трафика (search engine oriented visit, SEOV):

Гипотеза проста: на спамные документы пользователи обычно попадают только через поисковую выдачу. Напротив, на качественные документы обычно существует не seo-трафик. Предполагаем, SEOV для спамных документов будет более высоким. Посмотрим на распределение качественных и спамных документов по интервалам SEOV:

Видно, что 82% хороших документов получили менее 10% трафика из поисковых систем. С другой стороны, для почти 60% спамных документов доля seo-трафика 40% и более. При этом всего 1% качественных документов имеет SEOV более 70%.

Документ как источник трафика

При клике по ссылке и источник, и целевая страница перехода фиксируются в web access log’е. Любой документ может являться как получателем, так и источником трафика. Хотя спамные документы могут содержать большое количество исходящих ссылок, они обычно не порождают трафика на целевые страницы.

Определим долю случаев, в которых документ является источником трафика (source page rate, SP):

Из распределения документов по приведенному критерию видно, что SP для качественных страниц обычно больше, чем для спамных:

Почти половина спамных документов, присутствующих в training set’е, редко выступают источником трафика (SP

Доля коротких визитов

Очевидно, контент спамных документов не стимулирует пользователей проводить много времени на сайте. Определим долю коротких визитов (short-time navigation rate, SN rate):

Переменная N может варьироваться, исследователи установили ее равной 3. Физический смысл SN прост — это доля сессий, в которых было просмотрено менее N документов сайта.

Видно, что доля коротких визитов позволяет неплохо решить задачу выявления спама:

Алгоритм обнаружения спама, основанный на анализе особенностей поведения пользователей

Выявление спама — типичная задача классификации. Исследователи использовали наивный байесовский классификатор и рассмотрели одно- и многофакторную модели. Итоговая функция оценки вероятности документа быть спамным:

Детали реализации доступны в исходной статье.

Интересно, что предложенные факторы оказались практически независимы:

По-видимому, это связано с различной природой источников данных.

Алгоритм выявления спама:

  1. Сбор лога,
  2. Расчет SEOV и SP для каждого документа,
  3. Расчет SEOV и SP для каждого сайта (усредняя документные данные п.2),
  4. Расчет SN для каждого сайта,
  5. Расчет вероятности документа оказаться спамным.

Результаты

Обучив классификатор, разработчики алгоритма протестировали его на случайной выборке из 1564 сайтов. Асессоры сочли 345 сайтов спамными, 1060 не спамными, 159 — затруднились оценить. Построенная ROC иллюстрирует, что SP и SEOV позволяют эффективнее обнаружить спам, чем SN:

Интересна проблема скорости реакции на появление спама. Традиционно на выявление спама требуется время. Это хорошо видно на следующей кривой:

Предложенный авторами метод позволяет ускорить обнаружение спама.

Практические рекомендации

Чтобы снизить вероятность разметки сайта как спамного, нужно:

  1. Думать о счастье пользователя:

    • Размещать полезный контент и сервисы
    • Ссылаться на авторитетные источники
    • Обеспечивать удобную навигацию
  2. Стремиться получать трафик из различных источников
  3. Не привлекать плохо конвертирующийся трафик:

    • с низкокачественных и/или нетематических ресурсов
    • по объявлениям или ссылкам, не релевантным акцептору

Не используйте спам, привлекайте целевую аудиторию, цените время ваших пользователей. Удачи!


Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    SEOnews и Serpstat запускают конкурс для интернет-маркетологов
    Marina Lagutina
    1
    комментарий
    0
    читателей
    Полный профиль
    Marina Lagutina - Добрый день! Видимо я из тех, кто пытается последней вскочить в уходящий поезд. Ночью написала статью на тему "обзор инструментов контент-маркетинга". Своего блога нет. Отправила вам не мейл. Я еще могу у вас разместиться или искать, кто возьмет статью к себе в блог?
    Влияние HTTPS на ранжирование региональных поддоменов в Яндексе
    NiK Malefictum
    3
    комментария
    0
    читателей
    Полный профиль
    NiK Malefictum - Стакивался лишь с тем, что выдачу немного лихорадит первые 2-3 недели, и если у сайта была низкая скорость загрузки - ее нужно поправить. Региональным сайтам НУЖНО ставить HTTPS немного внутряк поправить / микроразметку и прочее прописать мета и пересмотреть контент зарегать компанию в каталогах предприятий и картографии и уже делать просто сделать статейные ссылки бесплатные. и все
    Мир глазами поисковых систем
    Александр Рунов
    18
    комментариев
    0
    читателей
    Полный профиль
    Александр Рунов - Какой регион, если не секрет? В Мск, в ряде ВК тематик (в тех же "окнах" или "колесах"), без работы с внешними факторами по ВЧ запросам в ТОП не выплывешь. Хотя в большинстве направлений вполне реально.
    Инфографика: самые распространенные SEO-ошибки Рунета
    Dmitro Grunt
    2
    комментария
    0
    читателей
    Полный профиль
    Dmitro Grunt - Кстати, у проектов которые продвигает Нетпик все тайтлы не более 65 символов? Или вы надеетесь что кто то послушает советов и отдаст вам часть трафика? :-)
    7 причин не работать на биржах копирайтинга
    Dasha Shkaruba
    6
    комментариев
    0
    читателей
    Полный профиль
    Dasha Shkaruba - Спасибо за мнение! Кстати, на бирже главреда прием анкет закрыт
    Google.ru внесли в реестр запрещенных сайтов
    Гость
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость - Гон, все работает и будет работать. Да и пусть банят, будет как с рутрекером.
    День рождения SEOnews: 12 лет в эфире!
    Анна Макарова
    0
    комментариев
    0
    читателей
    Полный профиль
    Анна Макарова - Ура )
    Кейс: продвигаем бизнес по продаже пластиковых окон в Москве
    Иван Стороженко
    3
    комментария
    0
    читателей
    Полный профиль
    Иван Стороженко - Очень часто, что доработки по сайту, например редизайн страницы, добавление функциональных блоков, входя в стоимость продвижения сайта.
    Конкурс: угадайте пятерку лидеров рейтинга «SEO глазами клиентов 2017»
    Оля
    1
    комментарий
    0
    читателей
    Полный профиль
    Оля - 1 Ingate 2 Wezom 3 Bynjg vtlbf 4 seo energy 5 директ лайн
    SEMrush: факторы ранжирования в Google в 2017 году
    Анна Макарова
    0
    комментариев
    0
    читателей
    Полный профиль
    Анна Макарова - Уважаемый S1, я тоже понимаю, что есть такие люди, которые заметив допущенную неточность несутся на всех парусах продемонстрировать "силу" своего ума. Спасибо вам за пристальное внимание. Это поможет нам быть лучше.
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    310
    Комментариев
    262
    Комментариев
    226
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    80
    Комментариев
    77
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    55
    Комментариев
    53
    Комментариев
    52
    Комментариев
    48

    Отправьте отзыв!
    Отправьте отзыв!