Подробно о BrowseRank, алгоритме учета поведенческих факторов. Программа о накрутке поведенческого фактора

Россия+7 (495) 960-65-87
Шрифт:
7 11898

Несколько дней назад я вел программу на Мегаиндекс.ТВ, в которой мы со Станиславом Ставским обсуждали возможности учета поведения пользователей для ранжирования документов. Главный фокус программы: попытки накруток поведенческих факторов, реакция поиска на эти действия, перспективы. Наша точка зрения состоит в том, что у поиска много возможностей эффективно обнаруживать накрутки, что мы проиллюстрировали на примерах. Поэтому целесообразнее тратить время и ресурсы на улучшение сайта, что обеспечит естественное улучшение ранжирования.

При этом, конечно, хорошо бы понимать, что именно учитывают поисковые системы при анализе поведения пользователей в выдаче и на сайтах. Как ни странно, весьма немногие оптимизаторы и вебмастера знают о BrowseRank, технологии учета поведения пользователей от Microsoft (pdf, англ.). Хотя этой разработке уже 3 года, полагаю, она вполне актуальна.

Граф кликов вместо ссылочного графа

Основное отличие BrowseRank от PageRank — структура графа. В технологии PageRank узлами графа являются документы, а ребрами — ссылки. В технологии BrowseRank ребра образуют не ссылки, но клики (переходы). Помимо этого, сохраняется мета-информация о продолжительности сессии в рамках документа.

Очевидны два существенных преимущества BrowseRank:

  • существенно лучшая устойчивость к ссылочному спаму,
  • учет продолжительности сессии позволяет оценить полезность документа для посетителя.

Поведенческий граф более достоверно отражает процесс веб-серфинга, а, следовательно, он более полезен для расчета важности документов. Большее число посещений страницы и большее проведенное время означают большую важность страницы.

Основной источник данных о поведении пользователей — браузерные бары. Все ведущие поисковые системы имеют плагины, обеспечивающие мониторинг активности большой доли аудитории.

Для обработки данных о поведении пользователей предложено использовать цепи Маркова с непрерывным временем. Экспериментальные данные демонстрируют преимущество алгоритма BrowseRank по сравнению с алгоритмами PageRank и TrustRank в определении важности документов, борьбе со спамом и ранжировании.

По сути, собираемые данные можно представить записью вида URL; TIME; TYPE [input | click]. Предполагается два пути перехода на документ: по ссылке с другого документа (click), либо набором url в адресной строке браузера (input). Механизм извлечения данных о переходах:

  1. Сегментация сессии.
    Новая сессия инициируется в случае 30-минутной и более паузы с момента предыдущей активности, либо в случае ввода названия сайта в адресную строку.
  2. Формирование пар url.
    В рамках каждой сессии создаются пары url из соседних записей. Пара url означает, что переход был осуществлен при помощи ссылки.
  3. Формирование начального распределения.
    В каждой сессии, сегментированной по типу перехода, первый url введен непосредственно пользователем. Такие url мы считаем «доверительными» и называем этот трафик «зеленым». Обрабатывая данные о поведении пользователей, мы считаем переходы на эти url следствием случайного распределения. Нормализация на частоту посещения этих документов дает начальные вероятности посещения соответствующих страниц.
  4. Извлечение продолжительности сессии.
    Для каждой пары url продолжительность сессии первого url вычисляется простой разностью дат. Если url был последним в сессии, возможны два варианта. Для сессий, сегментированных по времени, продолжительность просмотра последнего url рассчитывается на основании данных о просмотрах других страниц. Для сессий, сегментированных по типу, время просмотра последнего url рассчитывается исходя из времени начала следующей сессии.

Результаты применения BrowseRank

Microsoft провела два исследования. Первый был проведен на уровне сайта для выявления важных сайтов и подавления спама. Второй эксперимент был проведен на уровне документа для тестирования BrowseRank с целью улучшения ранжирования.

Для первого эксперимента использовался набор данных из примерно 3 миллиардов записей, содержащий примерно 950 миллионов уникальных url. Любопытно, что распределение количества просмотров по времени просмотра отлично описывается классической экспонентой. В рамках этого эксперимента постраничные не использовались, они были агрегированы на уровне сайтов. Полученный поведенческий граф состоял из 5.6 миллионов узлов и 53 миллионов ребер.

Любопытна выборка ТОП20 сайтов, полученных ранжированием по трем разным алгоритмам. Видно, что BrowseRank отлично отранжировал MySpace, Youtube, Facebook и прочие сайты, для которых характерно большое время сессии. Обратите внимание, это данные 2008 года. Очевидно, в нашу эпоху социальных сетей и коммуникационных сервисов различие между PageRank и BrowseRank было бы еще более значительным.

На случайной выборке в 10 тысяч сайтов, вручную размеченной асессорами, показано, что BrowserRank эффективнее, чем TrustRank и PageRank решает задачу фильтрации спам-сайтов.

Второй эксперимент не менее интересен.

Факторы ранжирования документов можно грубо разделить на две группы: факторы релевантности и факторы важности. Предполагаем итоговую функцию релевантности линейной комбинацией этих двух групп факторов:

Θ * rankrelevance + (1-Θ) * rankimportance,

где Θ лежит в интервале [0;1].

Данные получены на выборке из сайтов, полученных для 8000 запросов. Каждая пара запрос-документ оценивалась тремя асессорами по бинарной шкале [релевантно; не релевантно]. Релевантными сочтены документы, получившие по запросу не менее 2 оценок «релевантно».

Результат: алгоритм BrowseRank обеспечивает существенно лучшее качество вплоть до полного подавления факторов важности факторами релевантности (Θ ~ 0.9).

Несколько слов о попытках накруток и манипуляциях

Может ли поиск эффективно отфильтровать накрутки? Безусловно. Чтобы понять это, достаточно трех фактов:

  • поиск оперирует колоссальным объемом незаспамленных данных,
  • у поиска достаточно ресурсов для построения срезов и анализа активностей пользователей в этих срезах,
  • поиск может использовать эталонные выборки пользователей, сайтов и активностей для обнаружения накруток.

Ну и, наконец, простые логические доводы для тех, кто не верит в технологии.

Совершенно очевидно, что поисковые системы начали собирать и использовать для ранжирования поведенческие факторы задолго до публичного освещения этой деятельности. Наивно думать, что разработчики не сделали выводов из судьбы предыдущей красивой идеи — учета ссылок как меры рекомендации. Уверен, проблема защиты от спама поведенческих факторов была детально проработана, благо недостатка в непредвзятой информации не было.

Резюме: существенно продуктивнее потратить время на легальные способы удлинения сессии и повышения «пользовательского счастья». Благо, таких способов предостаточно.


Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Михаил Сливинский
    33
    комментария
    0
    читателей
    Михаил Сливинский
    больше года назад
    Конечно, есть исключения. Понятно, что продолжительность сессии, скорее всего, а) нормирована на средние по тематике, б) включена в ранжирование в составе монома. Соответственно, жестких перекосов удается избежать. Кстати, о коротких сессиях в справочниках. Сессия в wikipedia - 8 минут, https://www.google.com/adplanner/?pli=1#siteSearch?uid=domai...
    -
    1
    +
    Ответить
  • Виктор
    больше года назад
    Михаил, настораживает фраза "продуктивнее потратить время на легальные способы удлинения сессии и повышения «пользовательского счастья»..." Но ведь это не однозначное мерило качественного сайта. Идеальный интернет-магазин решает все проблемы за минимальное время и один клик. Еще ярче это ситуация видна на примере сервисных сайтов. Агреггатор прайсов, например, или справочный сайт какой-то...
    -
    1
    +
    Ответить
  • Михаил Сливинский
    33
    комментария
    0
    читателей
    Михаил Сливинский
    больше года назад
    Дмитрий, ссылки работают просто потому, что Яндекс упустил время.

    Поясню.  Если бы фильтрация была сделана в самом начале, когда оптимизаторы только начинали спамить ссылочным, можно было отфильтровать и почти полностью нивелировать действие платных ссылок. Если это сделано вовремя - выдача не ухудшится, поскольку она построена на учете многих других факторов.

    Фактически, Яндекс сильно опоздал. Это привело к тому, что платными ссылками стали пользоваться ...
    Дмитрий, ссылки работают просто потому, что Яндекс упустил время.

    Поясню.  Если бы фильтрация была сделана в самом начале, когда оптимизаторы только начинали спамить ссылочным, можно было отфильтровать и почти полностью нивелировать действие платных ссылок. Если это сделано вовремя - выдача не ухудшится, поскольку она построена на учете многих других факторов.

    Фактически, Яндекс сильно опоздал. Это привело к тому, что платными ссылками стали пользоваться практически все продвигаемые сайты. Реальность такова, что качественные хорошие сайты также покупают ссылки. Соответственно, отключить ссылочное сейчас нельзя, поскольку это серьезно ухудшит качество выдачи.

    Очевидно, Яндекс избегает каких-либо действий, которые могут ухудшить основные метрики качества поиска. Поэтому ссылочное не отключено немедленно. По мере появления других качественных сигналов для ранжирования (как поведенческие факторы, например), вклад ссылочного будет снижаться.

    Этот долгий путь - плата за промедление.
    -
    0
    +
    Ответить
  • Дмитрий Севальнев
    87
    комментариев
    0
    читателей
    Дмитрий Севальнев
    больше года назад
    Логично. Но тут мы и приходим к тому, что если Яндекс серьезно борется с ссылочным спамом, то необходимо постепенно занижать значимость ссылочных факторов в ранжировании.

    Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Ну а что в перспективе? В перспективе значимость поведенческих факторов необходимо будет (уж точно) занижать, что может привести и к относительному...
    Логично. Но тут мы и приходим к тому, что если Яндекс серьезно борется с ссылочным спамом, то необходимо постепенно занижать значимость ссылочных факторов в ранжировании.

    Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Ну а что в перспективе? В перспективе значимость поведенческих факторов необходимо будет (уж точно) занижать, что может привести и к относительному увеличению вклада от ссылочного.

    Прогнозы в этой сфере не столь уж однозначны, тех более что методы накрутки поведенческого вот-вот преобразятся, что в действительности может угрожать качеству поиска.
    -
    1
    +
    Ответить
  • Дмитрий Севальнев
    87
    комментариев
    0
    читателей
    Дмитрий Севальнев
    больше года назад
    Кстати говоря, по ПФ они тоже кажется уже потеряли время — как минимум 8-11 месяцев.
    -
    -1
    +
    Ответить
  • Михаил Сливинский
    33
    комментария
    0
    читателей
    Михаил Сливинский
    больше года назад
    > Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Имхо, некоторое снижение есть. Наличие незаспамленных и репрезентативных дополнительных сигналов ранжирования будут способствовать дальнейшему снижению. Поведенческие, кстати, не всегда можно эффективно применять. Скажем, по уникальным НЧ запросам поведенческие почти бесполезны.

    > Ну а что в перспективе? В перспективе...
    > Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Имхо, некоторое снижение есть. Наличие незаспамленных и репрезентативных дополнительных сигналов ранжирования будут способствовать дальнейшему снижению. Поведенческие, кстати, не всегда можно эффективно применять. Скажем, по уникальным НЧ запросам поведенческие почти бесполезны.

    > Ну а что в перспективе? В перспективе значимость поведенческих факторов необходимо будет (уж точно) занижать, что может привести и к относительному увеличению вклада от ссылочного.

    Не вижу предпосылок для этого.

    > Прогнозы в этой сфере не столь уж однозначны, тех более что методы накрутки поведенческого вот-вот преобразятся, что в действительности может угрожать качеству поиска.

    Подозреваю, что методы накрутки поведенческих эволюционируют от совершенно примитивных к просто примитивным. Имхо, пустая трата времени. Ловится на раз.
    -
    0
    +
    Ответить
  • Дмитрий Севальнев
    87
    комментариев
    0
    читателей
    Дмитрий Севальнев
    больше года назад
    Михаил, спасибо за весьма близкий к оригиналу перевод-)

    Вопрос к вам:

    Может ли поиск эффективно отфильтровать накрутки PageRank? Безусловно.

    Чтобы понять это, достаточно трех фактов:

    1) Поиск оперирует колоссальным объемом незаспамленных данных.
    2) У поиска достаточно ресурсов для построения моделей естественной перелинковки и анализа структуры ссылочных графов.
    3) Поиск может использовать метки для фильтрации «п...
    Михаил, спасибо за весьма близкий к оригиналу перевод-)

    Вопрос к вам:

    Может ли поиск эффективно отфильтровать накрутки PageRank? Безусловно.

    Чтобы понять это, достаточно трех фактов:

    1) Поиск оперирует колоссальным объемом незаспамленных данных.
    2) У поиска достаточно ресурсов для построения моделей естественной перелинковки и анализа структуры ссылочных графов.
    3) Поиск может использовать метки для фильтрации «подозрительных» доноров, участников ссылочных взрывов для обнаружения и нивелирования накруток.

    Отсюда вопрос: почему же это не так с ссылками?
    Ссылочный спам работает. Потому что это кому-то нужно и/или потому что «мадридский доклад» работает не так как хотелось бы авторам, это уже дело второе. Факт есть факт.

    Также как и пока остаётся фактом продвижение с помощью ПФ.
    -
    -1
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Тест: Кто как пробежал, или Итоги клиентского рейтинга SEOnews 2018
Анна Макарова
335
комментариев
0
читателей
Полный профиль
Анна Макарова - Друзья, спасибо всем за участие! Мы определили победителей. Кто ими стал - вы найдете по ссылке: www.seonews.ru/events/darim-knigi-ot-mif-pobediteli-opredeleny/ Если вы стали одним из победителей, обязательно свяжитесь с нами по указанной в новости (по ссылке выше) почте. Всем хороших выходных! =)
32 инструмента в помощь SEO-специалисту
luthorscorploanfirm
2
комментария
0
читателей
Полный профиль
luthorscorploanfirm - Я - г-н Марк Джо из корпорации corp, мы являемся законной, зарегистрированной и гарантированной кредитной компанией, мы предоставляем 3% -ые кредиты частным лицам, компаниям, государственным учреждениям и деловым организациям и людям всех родов. Свободные кредиты - это решение всех ваших финансовых проблем. свяжитесь с нами по электронной почте: mjoe0123@gmail.com
SEO глазами клиентов 2018
Гость
1
комментарий
0
читателей
Полный профиль
Гость - То есть *** пойми кто подался заявками и в итоге рейтинг должен называться seo глазами клиентов *** пойми каких компаний. Молодцы!
Комплексный аудит интернет-магазина от «Ашманов и партнеры». Часть 1
Александр Сова
1
комментарий
0
читателей
Полный профиль
Александр Сова - А вот и сеошники подъехали, покидать на вентилятор :D
Не очень удачный кейс продвижения сайта по услуге «Трезвый водитель» в Москве
Кирилл Щербаков
3
комментария
0
читателей
Полный профиль
Кирилл Щербаков - "даже пришлось подключить отслеживание звонков с сайта" "Даже" - как будто это что-то нереальное
Два идеальных способа разориться на старте интернет-магазина
Стас
4
комментария
0
читателей
Полный профиль
Стас - Seonews в последнее время такую чушь несет! Где вы таких афторов находите? Статья ничего не стоит и несет чушь! Кто хоть немного понимает в этом так вам и скажет, и такие де комментаторы горе-сеошники, просто смешно читать, вы хоть модерируете ваши статьи или просто для воды на сайте?! Бред сивой кобылы эта статья до самой последней точки!!!
Эксперимент: как уникальность контента влияет на продвижение сайта
Ilia Nazmutdinov
2
комментария
0
читателей
Полный профиль
Ilia Nazmutdinov - Кстати, ПФ не работают на нулевом трафике. Пока на сайт не льются тысячи показов по одним и тем же запросам влияние оказывает ток ссылочное\внешнее и внутреннее\ и внутренняя оптимизация.
Яндекс перестал индексировать сайты, созданные на Wix
Константин Даткунас
3
комментария
0
читателей
Полный профиль
Константин Даткунас - Было бы интересно посмотреть саму выборку из 10 000 и методику анализа.
Расчет трафика из поисковых систем по брендовым и небрендовым запросам
Дарья Калинская
238
комментариев
0
читателей
Полный профиль
Дарья Калинская - А вот и статья :) www.seonews.ru/analytics/raschet-trafika-po-nebrendovym-zaprosam-pri-pomoshchi-r/
Как мы разработали и вывели в ТОП сайт курсов рисования
Иван Стороженко
25
комментариев
0
читателей
Полный профиль
Иван Стороженко - Добрый день. 1)Чаще всего основная проблема заключается, в согласовании с клиентом добавляемого контента и то как он будет отображаться. На данном сайте фото и услуги конечно предоставлял клиент, все остальное уже делали мы. 2)Да в принципе, когда есть команда и понимание, что нужно делать, все идет быстро (опять же основная заминка идет на согласовании с клиентом) 3)Смысла делать новый в данном случает нет. В принципе доделывался полноценный сайт. 4)Когда клиент уже не предоставляет информацию, приходится искать у конкурентов (например с других стран или регионов). Но чаще всего клиент, хоть что-то "подкидывает".
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
335
Комментариев
262
Комментариев
238
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
97
Комментариев
97
Комментариев
95
Комментариев
87
Комментариев
80
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
57
Комментариев
55
Комментариев
54

Отправьте отзыв!
Отправьте отзыв!