Россия+7 (495) 960-65-87

Подробно о BrowseRank, алгоритме учета поведенческих факторов. Программа о накрутке поведенческого фактора

Россия+7 (495) 960-65-87
Шрифт:
7 12812

Несколько дней назад я вел программу на Мегаиндекс.ТВ, в которой мы со Станиславом Ставским обсуждали возможности учета поведения пользователей для ранжирования документов. Главный фокус программы: попытки накруток поведенческих факторов, реакция поиска на эти действия, перспективы. Наша точка зрения состоит в том, что у поиска много возможностей эффективно обнаруживать накрутки, что мы проиллюстрировали на примерах. Поэтому целесообразнее тратить время и ресурсы на улучшение сайта, что обеспечит естественное улучшение ранжирования.

При этом, конечно, хорошо бы понимать, что именно учитывают поисковые системы при анализе поведения пользователей в выдаче и на сайтах. Как ни странно, весьма немногие оптимизаторы и вебмастера знают о BrowseRank, технологии учета поведения пользователей от Microsoft (pdf, англ.). Хотя этой разработке уже 3 года, полагаю, она вполне актуальна.

Граф кликов вместо ссылочного графа

Основное отличие BrowseRank от PageRank — структура графа. В технологии PageRank узлами графа являются документы, а ребрами — ссылки. В технологии BrowseRank ребра образуют не ссылки, но клики (переходы). Помимо этого, сохраняется мета-информация о продолжительности сессии в рамках документа.

Очевидны два существенных преимущества BrowseRank:

  • существенно лучшая устойчивость к ссылочному спаму,
  • учет продолжительности сессии позволяет оценить полезность документа для посетителя.

Поведенческий граф более достоверно отражает процесс веб-серфинга, а, следовательно, он более полезен для расчета важности документов. Большее число посещений страницы и большее проведенное время означают большую важность страницы.

Основной источник данных о поведении пользователей — браузерные бары. Все ведущие поисковые системы имеют плагины, обеспечивающие мониторинг активности большой доли аудитории.

Для обработки данных о поведении пользователей предложено использовать цепи Маркова с непрерывным временем. Экспериментальные данные демонстрируют преимущество алгоритма BrowseRank по сравнению с алгоритмами PageRank и TrustRank в определении важности документов, борьбе со спамом и ранжировании.

По сути, собираемые данные можно представить записью вида URL; TIME; TYPE [input | click]. Предполагается два пути перехода на документ: по ссылке с другого документа (click), либо набором url в адресной строке браузера (input). Механизм извлечения данных о переходах:

  1. Сегментация сессии.
    Новая сессия инициируется в случае 30-минутной и более паузы с момента предыдущей активности, либо в случае ввода названия сайта в адресную строку.
  2. Формирование пар url.
    В рамках каждой сессии создаются пары url из соседних записей. Пара url означает, что переход был осуществлен при помощи ссылки.
  3. Формирование начального распределения.
    В каждой сессии, сегментированной по типу перехода, первый url введен непосредственно пользователем. Такие url мы считаем «доверительными» и называем этот трафик «зеленым». Обрабатывая данные о поведении пользователей, мы считаем переходы на эти url следствием случайного распределения. Нормализация на частоту посещения этих документов дает начальные вероятности посещения соответствующих страниц.
  4. Извлечение продолжительности сессии.
    Для каждой пары url продолжительность сессии первого url вычисляется простой разностью дат. Если url был последним в сессии, возможны два варианта. Для сессий, сегментированных по времени, продолжительность просмотра последнего url рассчитывается на основании данных о просмотрах других страниц. Для сессий, сегментированных по типу, время просмотра последнего url рассчитывается исходя из времени начала следующей сессии.

Результаты применения BrowseRank

Microsoft провела два исследования. Первый был проведен на уровне сайта для выявления важных сайтов и подавления спама. Второй эксперимент был проведен на уровне документа для тестирования BrowseRank с целью улучшения ранжирования.

Для первого эксперимента использовался набор данных из примерно 3 миллиардов записей, содержащий примерно 950 миллионов уникальных url. Любопытно, что распределение количества просмотров по времени просмотра отлично описывается классической экспонентой. В рамках этого эксперимента постраничные не использовались, они были агрегированы на уровне сайтов. Полученный поведенческий граф состоял из 5.6 миллионов узлов и 53 миллионов ребер.

Любопытна выборка ТОП20 сайтов, полученных ранжированием по трем разным алгоритмам. Видно, что BrowseRank отлично отранжировал MySpace, Youtube, Facebook и прочие сайты, для которых характерно большое время сессии. Обратите внимание, это данные 2008 года. Очевидно, в нашу эпоху социальных сетей и коммуникационных сервисов различие между PageRank и BrowseRank было бы еще более значительным.

На случайной выборке в 10 тысяч сайтов, вручную размеченной асессорами, показано, что BrowserRank эффективнее, чем TrustRank и PageRank решает задачу фильтрации спам-сайтов.

Второй эксперимент не менее интересен.

Факторы ранжирования документов можно грубо разделить на две группы: факторы релевантности и факторы важности. Предполагаем итоговую функцию релевантности линейной комбинацией этих двух групп факторов:

Θ * rankrelevance + (1-Θ) * rankimportance,

где Θ лежит в интервале [0;1].

Данные получены на выборке из сайтов, полученных для 8000 запросов. Каждая пара запрос-документ оценивалась тремя асессорами по бинарной шкале [релевантно; не релевантно]. Релевантными сочтены документы, получившие по запросу не менее 2 оценок «релевантно».

Результат: алгоритм BrowseRank обеспечивает существенно лучшее качество вплоть до полного подавления факторов важности факторами релевантности (Θ ~ 0.9).

Несколько слов о попытках накруток и манипуляциях

Может ли поиск эффективно отфильтровать накрутки? Безусловно. Чтобы понять это, достаточно трех фактов:

  • поиск оперирует колоссальным объемом незаспамленных данных,
  • у поиска достаточно ресурсов для построения срезов и анализа активностей пользователей в этих срезах,
  • поиск может использовать эталонные выборки пользователей, сайтов и активностей для обнаружения накруток.

Ну и, наконец, простые логические доводы для тех, кто не верит в технологии.

Совершенно очевидно, что поисковые системы начали собирать и использовать для ранжирования поведенческие факторы задолго до публичного освещения этой деятельности. Наивно думать, что разработчики не сделали выводов из судьбы предыдущей красивой идеи — учета ссылок как меры рекомендации. Уверен, проблема защиты от спама поведенческих факторов была детально проработана, благо недостатка в непредвзятой информации не было.

Резюме: существенно продуктивнее потратить время на легальные способы удлинения сессии и повышения «пользовательского счастья». Благо, таких способов предостаточно.


(Голосов: 1, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Михаил Сливинский
    33
    комментария
    LANG_NO
    читателей
    Михаил Сливинский
    больше года назад
    Конечно, есть исключения. Понятно, что продолжительность сессии, скорее всего, а) нормирована на средние по тематике, б) включена в ранжирование в составе монома. Соответственно, жестких перекосов удается избежать. Кстати, о коротких сессиях в справочниках. Сессия в wikipedia - 8 минут, https://www.google.com/adplanner/?pli=1#siteSearch?uid=domai...
    -
    1
    +
    Ответить
  • Виктор
    больше года назад
    Михаил, настораживает фраза "продуктивнее потратить время на легальные способы удлинения сессии и повышения «пользовательского счастья»..." Но ведь это не однозначное мерило качественного сайта. Идеальный интернет-магазин решает все проблемы за минимальное время и один клик. Еще ярче это ситуация видна на примере сервисных сайтов. Агреггатор прайсов, например, или справочный сайт какой-то...
    -
    1
    +
    Ответить
  • Михаил Сливинский
    33
    комментария
    LANG_NO
    читателей
    Михаил Сливинский
    больше года назад
    Дмитрий, ссылки работают просто потому, что Яндекс упустил время.

    Поясню.  Если бы фильтрация была сделана в самом начале, когда оптимизаторы только начинали спамить ссылочным, можно было отфильтровать и почти полностью нивелировать действие платных ссылок. Если это сделано вовремя - выдача не ухудшится, поскольку она построена на учете многих других факторов.

    Фактически, Яндекс сильно опоздал. Это привело к тому, что платными ссылками стали пользоваться ...
    Дмитрий, ссылки работают просто потому, что Яндекс упустил время.

    Поясню.  Если бы фильтрация была сделана в самом начале, когда оптимизаторы только начинали спамить ссылочным, можно было отфильтровать и почти полностью нивелировать действие платных ссылок. Если это сделано вовремя - выдача не ухудшится, поскольку она построена на учете многих других факторов.

    Фактически, Яндекс сильно опоздал. Это привело к тому, что платными ссылками стали пользоваться практически все продвигаемые сайты. Реальность такова, что качественные хорошие сайты также покупают ссылки. Соответственно, отключить ссылочное сейчас нельзя, поскольку это серьезно ухудшит качество выдачи.

    Очевидно, Яндекс избегает каких-либо действий, которые могут ухудшить основные метрики качества поиска. Поэтому ссылочное не отключено немедленно. По мере появления других качественных сигналов для ранжирования (как поведенческие факторы, например), вклад ссылочного будет снижаться.

    Этот долгий путь - плата за промедление.
    -
    0
    +
    Ответить
  • Дмитрий Севальнев
    100
    комментариев
    LANG_NO
    читателей
    Дмитрий Севальнев
    больше года назад
    Логично. Но тут мы и приходим к тому, что если Яндекс серьезно борется с ссылочным спамом, то необходимо постепенно занижать значимость ссылочных факторов в ранжировании.

    Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Ну а что в перспективе? В перспективе значимость поведенческих факторов необходимо будет (уж точно) занижать, что может привести и к относительному...
    Логично. Но тут мы и приходим к тому, что если Яндекс серьезно борется с ссылочным спамом, то необходимо постепенно занижать значимость ссылочных факторов в ранжировании.

    Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Ну а что в перспективе? В перспективе значимость поведенческих факторов необходимо будет (уж точно) занижать, что может привести и к относительному увеличению вклада от ссылочного.

    Прогнозы в этой сфере не столь уж однозначны, тех более что методы накрутки поведенческого вот-вот преобразятся, что в действительности может угрожать качеству поиска.
    -
    1
    +
    Ответить
  • Дмитрий Севальнев
    100
    комментариев
    LANG_NO
    читателей
    Дмитрий Севальнев
    больше года назад
    Кстати говоря, по ПФ они тоже кажется уже потеряли время — как минимум 8-11 месяцев.
    -
    -1
    +
    Ответить
  • Михаил Сливинский
    33
    комментария
    LANG_NO
    читателей
    Михаил Сливинский
    больше года назад
    > Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Имхо, некоторое снижение есть. Наличие незаспамленных и репрезентативных дополнительных сигналов ранжирования будут способствовать дальнейшему снижению. Поведенческие, кстати, не всегда можно эффективно применять. Скажем, по уникальным НЧ запросам поведенческие почти бесполезны.

    > Ну а что в перспективе? В перспективе...
    > Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Имхо, некоторое снижение есть. Наличие незаспамленных и репрезентативных дополнительных сигналов ранжирования будут способствовать дальнейшему снижению. Поведенческие, кстати, не всегда можно эффективно применять. Скажем, по уникальным НЧ запросам поведенческие почти бесполезны.

    > Ну а что в перспективе? В перспективе значимость поведенческих факторов необходимо будет (уж точно) занижать, что может привести и к относительному увеличению вклада от ссылочного.

    Не вижу предпосылок для этого.

    > Прогнозы в этой сфере не столь уж однозначны, тех более что методы накрутки поведенческого вот-вот преобразятся, что в действительности может угрожать качеству поиска.

    Подозреваю, что методы накрутки поведенческих эволюционируют от совершенно примитивных к просто примитивным. Имхо, пустая трата времени. Ловится на раз.
    -
    0
    +
    Ответить
  • Дмитрий Севальнев
    100
    комментариев
    LANG_NO
    читателей
    Дмитрий Севальнев
    больше года назад
    Михаил, спасибо за весьма близкий к оригиналу перевод-)

    Вопрос к вам:

    Может ли поиск эффективно отфильтровать накрутки PageRank? Безусловно.

    Чтобы понять это, достаточно трех фактов:

    1) Поиск оперирует колоссальным объемом незаспамленных данных.
    2) У поиска достаточно ресурсов для построения моделей естественной перелинковки и анализа структуры ссылочных графов.
    3) Поиск может использовать метки для фильтрации «п...
    Михаил, спасибо за весьма близкий к оригиналу перевод-)

    Вопрос к вам:

    Может ли поиск эффективно отфильтровать накрутки PageRank? Безусловно.

    Чтобы понять это, достаточно трех фактов:

    1) Поиск оперирует колоссальным объемом незаспамленных данных.
    2) У поиска достаточно ресурсов для построения моделей естественной перелинковки и анализа структуры ссылочных графов.
    3) Поиск может использовать метки для фильтрации «подозрительных» доноров, участников ссылочных взрывов для обнаружения и нивелирования накруток.

    Отсюда вопрос: почему же это не так с ссылками?
    Ссылочный спам работает. Потому что это кому-то нужно и/или потому что «мадридский доклад» работает не так как хотелось бы авторам, это уже дело второе. Факт есть факт.

    Также как и пока остаётся фактом продвижение с помощью ПФ.
    -
    -1
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Рейтинг Известности 2018: старт народного голосования
Михаил Р
1
комментарий
LANG_NO
читателей
Полный профиль
Михаил Р - 1. Demis 2. кокс 3. Ашманов 4. Скобеев 5. Digital Strategy
Рейтинг Известности 2018: второй этап народного голосования
Константин Сокол
3
комментария
LANG_NO
читателей
Полный профиль
Константин Сокол - Кто был ответственный за дизайн таблицы голосования? Копирайтер?
Сколько ссылок помогут продвинуть молодой сайт
Павел Андрейчук
29
комментариев
LANG_NO
читателей
Полный профиль
Павел Андрейчук - Дело в том, что вряд ли в ваших платных "качественных" кейсах найдётся хоть пару % действительно новой и полезной информации которой бы не было на общедоступных источниках.
Сайт на WordPress: за и против
Мира Смурков
1
комментарий
LANG_NO
читателей
Полный профиль
Мира Смурков - Людмила, я согласен с большинством комментаторов. Вы хоть один полноценный магазин сделали на этих движках? Woocommerce это система с супер возможностями. И к ней есть дополнительные модули, с функционалом, который вряд ли появиться на Битрикс. А самому это программировать - сотни тысяч рублей на разработку. А приведя в пример сложности с robots.txt и Sitemap вы ставите под вопрос вашу компетенцию в понимании Интернет-бизнеса и веб-разработки в целом. Во-первых это такие мелочи, а во-вторых это все делается на вордпресса за 2 минуты, и опять же с возможностями многократно превышающими Битрикс.
Кейс: вывод лендинга по изготовлению флагов на заказ в ТОП 1 по Санкт-Петербургу
utka21
5
комментариев
LANG_NO
читателей
Полный профиль
utka21 - Кейс как кейс. Для некоторых станет вполне возможно полезным. ( Для конкурентов точно) . А вот с комментариями , что то пошло не так )
Обзор популярных CMS: плюсы и минусы
Гость
1
комментарий
LANG_NO
читателей
Полный профиль
Гость - У Битрикса техническое seo сильно страдает, чтоб оно там было нормальным придется все переделать. Безопасность у Битрикса тоже низкая, особено если надо дорабатывать функционал, как только правиться функционал у Битрикс , то уровень ее безопасности определяет тот разработчик , который этим занимается. Самые безопасные движки те, что нет в общем доступе и где нельзя ничего редактировать в коде. =)
Google обошел Яндекс по популярности в России в 2018 году: исследование SEO Auditor
Рамблер
1
комментарий
LANG_NO
читателей
Полный профиль
Рамблер - Вот вроде отечественный - это сказано верно.. «Я́ндекс» — российская транснациональная компания, зарегистрированная в Нидерландах. Так говорится в Википедии. И с хрена ли ОТЕЧЕСТВЕННЫЙ поисковик зарегистрирован в Европе? И где платится основная часть налогов? Ну-ууу, точно не в России. И если запахнет жаренным, то был Яндекс и нет Яндекса!
8 методик в SEO, от которых давно пора отказаться
Евгений Сметанин
11
комментариев
LANG_NO
читателей
Полный профиль
Евгений Сметанин - Факторов вообще очень много, согласитесь, вы будете использовать максимальное их количество, особенно, если в ТОПе засели агрегаторы с сумасшедшими ПФ. В таких случаях, вхождение ключа в домен для маленького профильного сайта, сыграет свою положительную роль. Конечно же, если контент на страницах хорошего качества. У меня есть несколько успешных кейсов на эту тему. На сайте продают несколько видов товаров, а выстреливает в ТОП тот, название которого присутствует в доменном имени. Как корабль назовешь, так он и поплывет, верно?))
Инструкция: настраиваем цели Яндекс.Метрики через Google Tag Manager
Roman Gorkunenko
1
комментарий
LANG_NO
читателей
Полный профиль
Roman Gorkunenko - Здравствуйте. Подскажите, пожалуйста, можно с айпи метрики вытащить среднюю стоимость клика по утм меткам? В метрике есть такой шаблон tags_u_t_m, но он не совместим с меткой директа, у них разные префиксы.
Аудит структуры интернет-магазина мебели от «Ашманов и партнеры»
Дмитрий
9
комментариев
LANG_NO
читателей
Полный профиль
Дмитрий - Сергей, а вы допускаете, что вся ваша жизнь - seo-миф?
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
344
Комментариев
262
Комментариев
246
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
73
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
56
Комментариев
55

Отправьте отзыв!
Отправьте отзыв!