Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:

Подробно о BrowseRank, алгоритме учета поведенческих факторов. Программа о накрутке поведенческого фактора

Россия +7 (495) 960-65-87
Шрифт:
7 9756

Несколько дней назад я вел программу на Мегаиндекс.ТВ, в которой мы со Станиславом Ставским обсуждали возможности учета поведения пользователей для ранжирования документов. Главный фокус программы: попытки накруток поведенческих факторов, реакция поиска на эти действия, перспективы. Наша точка зрения состоит в том, что у поиска много возможностей эффективно обнаруживать накрутки, что мы проиллюстрировали на примерах. Поэтому целесообразнее тратить время и ресурсы на улучшение сайта, что обеспечит естественное улучшение ранжирования.

При этом, конечно, хорошо бы понимать, что именно учитывают поисковые системы при анализе поведения пользователей в выдаче и на сайтах. Как ни странно, весьма немногие оптимизаторы и вебмастера знают о BrowseRank, технологии учета поведения пользователей от Microsoft (pdf, англ.). Хотя этой разработке уже 3 года, полагаю, она вполне актуальна.

Граф кликов вместо ссылочного графа

Основное отличие BrowseRank от PageRank — структура графа. В технологии PageRank узлами графа являются документы, а ребрами — ссылки. В технологии BrowseRank ребра образуют не ссылки, но клики (переходы). Помимо этого, сохраняется мета-информация о продолжительности сессии в рамках документа.

Очевидны два существенных преимущества BrowseRank:

  • существенно лучшая устойчивость к ссылочному спаму,
  • учет продолжительности сессии позволяет оценить полезность документа для посетителя.

Поведенческий граф более достоверно отражает процесс веб-серфинга, а, следовательно, он более полезен для расчета важности документов. Большее число посещений страницы и большее проведенное время означают большую важность страницы.

Основной источник данных о поведении пользователей — браузерные бары. Все ведущие поисковые системы имеют плагины, обеспечивающие мониторинг активности большой доли аудитории.

Для обработки данных о поведении пользователей предложено использовать цепи Маркова с непрерывным временем. Экспериментальные данные демонстрируют преимущество алгоритма BrowseRank по сравнению с алгоритмами PageRank и TrustRank в определении важности документов, борьбе со спамом и ранжировании.

По сути, собираемые данные можно представить записью вида URL; TIME; TYPE [input | click]. Предполагается два пути перехода на документ: по ссылке с другого документа (click), либо набором url в адресной строке браузера (input). Механизм извлечения данных о переходах:

  1. Сегментация сессии.
    Новая сессия инициируется в случае 30-минутной и более паузы с момента предыдущей активности, либо в случае ввода названия сайта в адресную строку.
  2. Формирование пар url.
    В рамках каждой сессии создаются пары url из соседних записей. Пара url означает, что переход был осуществлен при помощи ссылки.
  3. Формирование начального распределения.
    В каждой сессии, сегментированной по типу перехода, первый url введен непосредственно пользователем. Такие url мы считаем «доверительными» и называем этот трафик «зеленым». Обрабатывая данные о поведении пользователей, мы считаем переходы на эти url следствием случайного распределения. Нормализация на частоту посещения этих документов дает начальные вероятности посещения соответствующих страниц.
  4. Извлечение продолжительности сессии.
    Для каждой пары url продолжительность сессии первого url вычисляется простой разностью дат. Если url был последним в сессии, возможны два варианта. Для сессий, сегментированных по времени, продолжительность просмотра последнего url рассчитывается на основании данных о просмотрах других страниц. Для сессий, сегментированных по типу, время просмотра последнего url рассчитывается исходя из времени начала следующей сессии.

Результаты применения BrowseRank

Microsoft провела два исследования. Первый был проведен на уровне сайта для выявления важных сайтов и подавления спама. Второй эксперимент был проведен на уровне документа для тестирования BrowseRank с целью улучшения ранжирования.

Для первого эксперимента использовался набор данных из примерно 3 миллиардов записей, содержащий примерно 950 миллионов уникальных url. Любопытно, что распределение количества просмотров по времени просмотра отлично описывается классической экспонентой. В рамках этого эксперимента постраничные не использовались, они были агрегированы на уровне сайтов. Полученный поведенческий граф состоял из 5.6 миллионов узлов и 53 миллионов ребер.

Любопытна выборка ТОП20 сайтов, полученных ранжированием по трем разным алгоритмам. Видно, что BrowseRank отлично отранжировал MySpace, Youtube, Facebook и прочие сайты, для которых характерно большое время сессии. Обратите внимание, это данные 2008 года. Очевидно, в нашу эпоху социальных сетей и коммуникационных сервисов различие между PageRank и BrowseRank было бы еще более значительным.

На случайной выборке в 10 тысяч сайтов, вручную размеченной асессорами, показано, что BrowserRank эффективнее, чем TrustRank и PageRank решает задачу фильтрации спам-сайтов.

Второй эксперимент не менее интересен.

Факторы ранжирования документов можно грубо разделить на две группы: факторы релевантности и факторы важности. Предполагаем итоговую функцию релевантности линейной комбинацией этих двух групп факторов:

Θ * rankrelevance + (1-Θ) * rankimportance,

где Θ лежит в интервале [0;1].

Данные получены на выборке из сайтов, полученных для 8000 запросов. Каждая пара запрос-документ оценивалась тремя асессорами по бинарной шкале [релевантно; не релевантно]. Релевантными сочтены документы, получившие по запросу не менее 2 оценок «релевантно».

Результат: алгоритм BrowseRank обеспечивает существенно лучшее качество вплоть до полного подавления факторов важности факторами релевантности (Θ ~ 0.9).

Несколько слов о попытках накруток и манипуляциях

Может ли поиск эффективно отфильтровать накрутки? Безусловно. Чтобы понять это, достаточно трех фактов:

  • поиск оперирует колоссальным объемом незаспамленных данных,
  • у поиска достаточно ресурсов для построения срезов и анализа активностей пользователей в этих срезах,
  • поиск может использовать эталонные выборки пользователей, сайтов и активностей для обнаружения накруток.

Ну и, наконец, простые логические доводы для тех, кто не верит в технологии.

Совершенно очевидно, что поисковые системы начали собирать и использовать для ранжирования поведенческие факторы задолго до публичного освещения этой деятельности. Наивно думать, что разработчики не сделали выводов из судьбы предыдущей красивой идеи — учета ссылок как меры рекомендации. Уверен, проблема защиты от спама поведенческих факторов была детально проработана, благо недостатка в непредвзятой информации не было.

Резюме: существенно продуктивнее потратить время на легальные способы удлинения сессии и повышения «пользовательского счастья». Благо, таких способов предостаточно.


Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Поделиться 
Поделиться дискуссией:
Отправить отзыв
  • Михаил Сливинский
    33
    комментария
    0
    читателей
    Михаил Сливинский
    больше года назад
    Конечно, есть исключения. Понятно, что продолжительность сессии, скорее всего, а) нормирована на средние по тематике, б) включена в ранжирование в составе монома. Соответственно, жестких перекосов удается избежать. Кстати, о коротких сессиях в справочниках. Сессия в wikipedia - 8 минут, https://www.google.com/adplanner/?pli=1#siteSearch?uid=domai...
    -
    1
    +
    Ответить
    Поделиться
  • Виктор
    больше года назад
    Михаил, настораживает фраза "продуктивнее потратить время на легальные способы удлинения сессии и повышения «пользовательского счастья»..." Но ведь это не однозначное мерило качественного сайта. Идеальный интернет-магазин решает все проблемы за минимальное время и один клик. Еще ярче это ситуация видна на примере сервисных сайтов. Агреггатор прайсов, например, или справочный сайт какой-то...
    -
    1
    +
    Ответить
    Поделиться
  • Михаил Сливинский
    33
    комментария
    0
    читателей
    Михаил Сливинский
    больше года назад
    Дмитрий, ссылки работают просто потому, что Яндекс упустил время.

    Поясню.  Если бы фильтрация была сделана в самом начале, когда оптимизаторы только начинали спамить ссылочным, можно было отфильтровать и почти полностью нивелировать действие платных ссылок. Если это сделано вовремя - выдача не ухудшится, поскольку она построена на учете многих других факторов.

    Фактически, Яндекс сильно опоздал. Это привело к тому, что платными ссылками стали пользоваться ...
    Дмитрий, ссылки работают просто потому, что Яндекс упустил время.

    Поясню.  Если бы фильтрация была сделана в самом начале, когда оптимизаторы только начинали спамить ссылочным, можно было отфильтровать и почти полностью нивелировать действие платных ссылок. Если это сделано вовремя - выдача не ухудшится, поскольку она построена на учете многих других факторов.

    Фактически, Яндекс сильно опоздал. Это привело к тому, что платными ссылками стали пользоваться практически все продвигаемые сайты. Реальность такова, что качественные хорошие сайты также покупают ссылки. Соответственно, отключить ссылочное сейчас нельзя, поскольку это серьезно ухудшит качество выдачи.

    Очевидно, Яндекс избегает каких-либо действий, которые могут ухудшить основные метрики качества поиска. Поэтому ссылочное не отключено немедленно. По мере появления других качественных сигналов для ранжирования (как поведенческие факторы, например), вклад ссылочного будет снижаться.

    Этот долгий путь - плата за промедление.
    -
    0
    +
    Ответить
    Поделиться
  • Дмитрий Севальнев
    77
    комментариев
    0
    читателей
    Дмитрий Севальнев
    больше года назад
    Логично. Но тут мы и приходим к тому, что если Яндекс серьезно борется с ссылочным спамом, то необходимо постепенно занижать значимость ссылочных факторов в ранжировании.

    Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Ну а что в перспективе? В перспективе значимость поведенческих факторов необходимо будет (уж точно) занижать, что может привести и к относительному...
    Логично. Но тут мы и приходим к тому, что если Яндекс серьезно борется с ссылочным спамом, то необходимо постепенно занижать значимость ссылочных факторов в ранжировании.

    Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Ну а что в перспективе? В перспективе значимость поведенческих факторов необходимо будет (уж точно) занижать, что может привести и к относительному увеличению вклада от ссылочного.

    Прогнозы в этой сфере не столь уж однозначны, тех более что методы накрутки поведенческого вот-вот преобразятся, что в действительности может угрожать качеству поиска.
    -
    1
    +
    Ответить
    Поделиться
  • Дмитрий Севальнев
    77
    комментариев
    0
    читателей
    Дмитрий Севальнев
    больше года назад
    Кстати говоря, по ПФ они тоже кажется уже потеряли время — как минимум 8-11 месяцев.
    -
    -1
    +
    Ответить
    Поделиться
  • Михаил Сливинский
    33
    комментария
    0
    читателей
    Михаил Сливинский
    больше года назад
    > Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Имхо, некоторое снижение есть. Наличие незаспамленных и репрезентативных дополнительных сигналов ранжирования будут способствовать дальнейшему снижению. Поведенческие, кстати, не всегда можно эффективно применять. Скажем, по уникальным НЧ запросам поведенческие почти бесполезны.

    > Ну а что в перспективе? В перспективе...
    > Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Имхо, некоторое снижение есть. Наличие незаспамленных и репрезентативных дополнительных сигналов ранжирования будут способствовать дальнейшему снижению. Поведенческие, кстати, не всегда можно эффективно применять. Скажем, по уникальным НЧ запросам поведенческие почти бесполезны.

    > Ну а что в перспективе? В перспективе значимость поведенческих факторов необходимо будет (уж точно) занижать, что может привести и к относительному увеличению вклада от ссылочного.

    Не вижу предпосылок для этого.

    > Прогнозы в этой сфере не столь уж однозначны, тех более что методы накрутки поведенческого вот-вот преобразятся, что в действительности может угрожать качеству поиска.

    Подозреваю, что методы накрутки поведенческих эволюционируют от совершенно примитивных к просто примитивным. Имхо, пустая трата времени. Ловится на раз.
    -
    0
    +
    Ответить
    Поделиться
  • Дмитрий Севальнев
    77
    комментариев
    0
    читателей
    Дмитрий Севальнев
    больше года назад
    Михаил, спасибо за весьма близкий к оригиналу перевод-)

    Вопрос к вам:

    Может ли поиск эффективно отфильтровать накрутки PageRank? Безусловно.

    Чтобы понять это, достаточно трех фактов:

    1) Поиск оперирует колоссальным объемом незаспамленных данных.
    2) У поиска достаточно ресурсов для построения моделей естественной перелинковки и анализа структуры ссылочных графов.
    3) Поиск может использовать метки для фильтрации «п...
    Михаил, спасибо за весьма близкий к оригиналу перевод-)

    Вопрос к вам:

    Может ли поиск эффективно отфильтровать накрутки PageRank? Безусловно.

    Чтобы понять это, достаточно трех фактов:

    1) Поиск оперирует колоссальным объемом незаспамленных данных.
    2) У поиска достаточно ресурсов для построения моделей естественной перелинковки и анализа структуры ссылочных графов.
    3) Поиск может использовать метки для фильтрации «подозрительных» доноров, участников ссылочных взрывов для обнаружения и нивелирования накруток.

    Отсюда вопрос: почему же это не так с ссылками?
    Ссылочный спам работает. Потому что это кому-то нужно и/или потому что «мадридский доклад» работает не так как хотелось бы авторам, это уже дело второе. Факт есть факт.

    Также как и пока остаётся фактом продвижение с помощью ПФ.
    -
    -1
    +
    Ответить
    Поделиться
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
SEOnews и Serpstat запускают конкурс для интернет-маркетологов
Анна Ольяная
4
комментария
0
читателей
Полный профиль
Анна Ольяная - благодарю :)
Как построить качественную ссылочную массу сайта
Айрат Рахимзянов
39
комментариев
0
читателей
Полный профиль
Айрат Рахимзянов - Спасибо Кирилл. Сейчас восстановилась работа сервиса: take.ms/ttXrw
«Я оптимизировал сайт, а он не в ТОП! Что делать?»
Павел Горбунов
7
комментариев
0
читателей
Полный профиль
Павел Горбунов - Как можно в инструменте tools.pixelplus.ru/tools/text-natural сравнить текст со страницы конкурента и со своей страницы? Я вижу возможность только для проверки одного урла.
Мир глазами поисковых систем
Александр Рунов
4
комментария
0
читателей
Полный профиль
Александр Рунов - Какой регион, если не секрет? В Мск, в ряде ВК тематик (в тех же "окнах" или "колесах"), без работы с внешними факторами по ВЧ запросам в ТОП не выплывешь. Хотя в большинстве направлений вполне реально.
Влияние HTTPS на ранжирование региональных поддоменов в Яндексе
Екатерина Иванова
1
комментарий
0
читателей
Полный профиль
Екатерина Иванова - Посмотрите на сколько упал трафик и на сколько потом вырос:упал на 10-20% на 1 месяц, а вырос в итоге в 5 раз. Одним мартовским трафиком всё падение перекрыли. Или можно ждать Яндекс неопределённое количество времени со стартовым уровнем трафика. Упущенные возможности и всё-такое.
Google.ru внесли в реестр запрещенных сайтов
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Гон, все работает и будет работать. Да и пусть банят, будет как с рутрекером.
Монетизация сайта. Как, когда, сколько?
Ruslan Baybekov
2
комментария
0
читателей
Полный профиль
Ruslan Baybekov - Максим, добавили возможность вывода дохода на Яндекс Деньги и WMR.
Интеграция call tracking и CRM: углубленный анализ данных о звонках и продажах
Денис
2
комментария
0
читателей
Полный профиль
Денис - Какой смысл вообще в облачных CRM, обрезанный фугкционал, свое дописать невозможно, слив клиентов другим компаниям. Серверные бесплатные CRM куда надежней и кастамизируй как хочешь.
SEMrush: факторы ранжирования в Google в 2017 году
Анна Макарова
292
комментария
0
читателей
Полный профиль
Анна Макарова - Уважаемый S1, я тоже понимаю, что есть такие люди, которые заметив допущенную неточность несутся на всех парусах продемонстрировать "силу" своего ума. Спасибо вам за пристальное внимание. Это поможет нам быть лучше.
Дашборд Метрика 2.0 – мониторинг проблем на сайте в режиме реального времени
Константин Сокол
24
комментария
0
читателей
Полный профиль
Константин Сокол - Есть динамика трафика по разделам. Этот виджет показывает некоторые фильтры, в результате которых с поиска выпадают целые разделы.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
292
Комментариев
262
Комментариев
219
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
97
Комментариев
97
Комментариев
95
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
55
Комментариев
52
Комментариев
48
Комментариев
45

Отправьте отзыв!
Отправьте отзыв!