Подробно о BrowseRank, алгоритме учета поведенческих факторов. Программа о накрутке поведенческого фактора

Россия+7 (495) 960-65-87
Шрифт:
7 10806

Несколько дней назад я вел программу на Мегаиндекс.ТВ, в которой мы со Станиславом Ставским обсуждали возможности учета поведения пользователей для ранжирования документов. Главный фокус программы: попытки накруток поведенческих факторов, реакция поиска на эти действия, перспективы. Наша точка зрения состоит в том, что у поиска много возможностей эффективно обнаруживать накрутки, что мы проиллюстрировали на примерах. Поэтому целесообразнее тратить время и ресурсы на улучшение сайта, что обеспечит естественное улучшение ранжирования.

При этом, конечно, хорошо бы понимать, что именно учитывают поисковые системы при анализе поведения пользователей в выдаче и на сайтах. Как ни странно, весьма немногие оптимизаторы и вебмастера знают о BrowseRank, технологии учета поведения пользователей от Microsoft (pdf, англ.). Хотя этой разработке уже 3 года, полагаю, она вполне актуальна.

Граф кликов вместо ссылочного графа

Основное отличие BrowseRank от PageRank — структура графа. В технологии PageRank узлами графа являются документы, а ребрами — ссылки. В технологии BrowseRank ребра образуют не ссылки, но клики (переходы). Помимо этого, сохраняется мета-информация о продолжительности сессии в рамках документа.

Очевидны два существенных преимущества BrowseRank:

  • существенно лучшая устойчивость к ссылочному спаму,
  • учет продолжительности сессии позволяет оценить полезность документа для посетителя.

Поведенческий граф более достоверно отражает процесс веб-серфинга, а, следовательно, он более полезен для расчета важности документов. Большее число посещений страницы и большее проведенное время означают большую важность страницы.

Основной источник данных о поведении пользователей — браузерные бары. Все ведущие поисковые системы имеют плагины, обеспечивающие мониторинг активности большой доли аудитории.

Для обработки данных о поведении пользователей предложено использовать цепи Маркова с непрерывным временем. Экспериментальные данные демонстрируют преимущество алгоритма BrowseRank по сравнению с алгоритмами PageRank и TrustRank в определении важности документов, борьбе со спамом и ранжировании.

По сути, собираемые данные можно представить записью вида URL; TIME; TYPE [input | click]. Предполагается два пути перехода на документ: по ссылке с другого документа (click), либо набором url в адресной строке браузера (input). Механизм извлечения данных о переходах:

  1. Сегментация сессии.
    Новая сессия инициируется в случае 30-минутной и более паузы с момента предыдущей активности, либо в случае ввода названия сайта в адресную строку.
  2. Формирование пар url.
    В рамках каждой сессии создаются пары url из соседних записей. Пара url означает, что переход был осуществлен при помощи ссылки.
  3. Формирование начального распределения.
    В каждой сессии, сегментированной по типу перехода, первый url введен непосредственно пользователем. Такие url мы считаем «доверительными» и называем этот трафик «зеленым». Обрабатывая данные о поведении пользователей, мы считаем переходы на эти url следствием случайного распределения. Нормализация на частоту посещения этих документов дает начальные вероятности посещения соответствующих страниц.
  4. Извлечение продолжительности сессии.
    Для каждой пары url продолжительность сессии первого url вычисляется простой разностью дат. Если url был последним в сессии, возможны два варианта. Для сессий, сегментированных по времени, продолжительность просмотра последнего url рассчитывается на основании данных о просмотрах других страниц. Для сессий, сегментированных по типу, время просмотра последнего url рассчитывается исходя из времени начала следующей сессии.

Результаты применения BrowseRank

Microsoft провела два исследования. Первый был проведен на уровне сайта для выявления важных сайтов и подавления спама. Второй эксперимент был проведен на уровне документа для тестирования BrowseRank с целью улучшения ранжирования.

Для первого эксперимента использовался набор данных из примерно 3 миллиардов записей, содержащий примерно 950 миллионов уникальных url. Любопытно, что распределение количества просмотров по времени просмотра отлично описывается классической экспонентой. В рамках этого эксперимента постраничные не использовались, они были агрегированы на уровне сайтов. Полученный поведенческий граф состоял из 5.6 миллионов узлов и 53 миллионов ребер.

Любопытна выборка ТОП20 сайтов, полученных ранжированием по трем разным алгоритмам. Видно, что BrowseRank отлично отранжировал MySpace, Youtube, Facebook и прочие сайты, для которых характерно большое время сессии. Обратите внимание, это данные 2008 года. Очевидно, в нашу эпоху социальных сетей и коммуникационных сервисов различие между PageRank и BrowseRank было бы еще более значительным.

На случайной выборке в 10 тысяч сайтов, вручную размеченной асессорами, показано, что BrowserRank эффективнее, чем TrustRank и PageRank решает задачу фильтрации спам-сайтов.

Второй эксперимент не менее интересен.

Факторы ранжирования документов можно грубо разделить на две группы: факторы релевантности и факторы важности. Предполагаем итоговую функцию релевантности линейной комбинацией этих двух групп факторов:

Θ * rankrelevance + (1-Θ) * rankimportance,

где Θ лежит в интервале [0;1].

Данные получены на выборке из сайтов, полученных для 8000 запросов. Каждая пара запрос-документ оценивалась тремя асессорами по бинарной шкале [релевантно; не релевантно]. Релевантными сочтены документы, получившие по запросу не менее 2 оценок «релевантно».

Результат: алгоритм BrowseRank обеспечивает существенно лучшее качество вплоть до полного подавления факторов важности факторами релевантности (Θ ~ 0.9).

Несколько слов о попытках накруток и манипуляциях

Может ли поиск эффективно отфильтровать накрутки? Безусловно. Чтобы понять это, достаточно трех фактов:

  • поиск оперирует колоссальным объемом незаспамленных данных,
  • у поиска достаточно ресурсов для построения срезов и анализа активностей пользователей в этих срезах,
  • поиск может использовать эталонные выборки пользователей, сайтов и активностей для обнаружения накруток.

Ну и, наконец, простые логические доводы для тех, кто не верит в технологии.

Совершенно очевидно, что поисковые системы начали собирать и использовать для ранжирования поведенческие факторы задолго до публичного освещения этой деятельности. Наивно думать, что разработчики не сделали выводов из судьбы предыдущей красивой идеи — учета ссылок как меры рекомендации. Уверен, проблема защиты от спама поведенческих факторов была детально проработана, благо недостатка в непредвзятой информации не было.

Резюме: существенно продуктивнее потратить время на легальные способы удлинения сессии и повышения «пользовательского счастья». Благо, таких способов предостаточно.


Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Михаил Сливинский
    33
    комментария
    0
    читателей
    Михаил Сливинский
    больше года назад
    Конечно, есть исключения. Понятно, что продолжительность сессии, скорее всего, а) нормирована на средние по тематике, б) включена в ранжирование в составе монома. Соответственно, жестких перекосов удается избежать. Кстати, о коротких сессиях в справочниках. Сессия в wikipedia - 8 минут, https://www.google.com/adplanner/?pli=1#siteSearch?uid=domai...
    -
    1
    +
    Ответить
  • Виктор
    больше года назад
    Михаил, настораживает фраза "продуктивнее потратить время на легальные способы удлинения сессии и повышения «пользовательского счастья»..." Но ведь это не однозначное мерило качественного сайта. Идеальный интернет-магазин решает все проблемы за минимальное время и один клик. Еще ярче это ситуация видна на примере сервисных сайтов. Агреггатор прайсов, например, или справочный сайт какой-то...
    -
    1
    +
    Ответить
  • Михаил Сливинский
    33
    комментария
    0
    читателей
    Михаил Сливинский
    больше года назад
    Дмитрий, ссылки работают просто потому, что Яндекс упустил время.

    Поясню.  Если бы фильтрация была сделана в самом начале, когда оптимизаторы только начинали спамить ссылочным, можно было отфильтровать и почти полностью нивелировать действие платных ссылок. Если это сделано вовремя - выдача не ухудшится, поскольку она построена на учете многих других факторов.

    Фактически, Яндекс сильно опоздал. Это привело к тому, что платными ссылками стали пользоваться ...
    Дмитрий, ссылки работают просто потому, что Яндекс упустил время.

    Поясню.  Если бы фильтрация была сделана в самом начале, когда оптимизаторы только начинали спамить ссылочным, можно было отфильтровать и почти полностью нивелировать действие платных ссылок. Если это сделано вовремя - выдача не ухудшится, поскольку она построена на учете многих других факторов.

    Фактически, Яндекс сильно опоздал. Это привело к тому, что платными ссылками стали пользоваться практически все продвигаемые сайты. Реальность такова, что качественные хорошие сайты также покупают ссылки. Соответственно, отключить ссылочное сейчас нельзя, поскольку это серьезно ухудшит качество выдачи.

    Очевидно, Яндекс избегает каких-либо действий, которые могут ухудшить основные метрики качества поиска. Поэтому ссылочное не отключено немедленно. По мере появления других качественных сигналов для ранжирования (как поведенческие факторы, например), вклад ссылочного будет снижаться.

    Этот долгий путь - плата за промедление.
    -
    0
    +
    Ответить
  • Дмитрий Севальнев
    77
    комментариев
    0
    читателей
    Дмитрий Севальнев
    больше года назад
    Логично. Но тут мы и приходим к тому, что если Яндекс серьезно борется с ссылочным спамом, то необходимо постепенно занижать значимость ссылочных факторов в ранжировании.

    Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Ну а что в перспективе? В перспективе значимость поведенческих факторов необходимо будет (уж точно) занижать, что может привести и к относительному...
    Логично. Но тут мы и приходим к тому, что если Яндекс серьезно борется с ссылочным спамом, то необходимо постепенно занижать значимость ссылочных факторов в ранжировании.

    Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Ну а что в перспективе? В перспективе значимость поведенческих факторов необходимо будет (уж точно) занижать, что может привести и к относительному увеличению вклада от ссылочного.

    Прогнозы в этой сфере не столь уж однозначны, тех более что методы накрутки поведенческого вот-вот преобразятся, что в действительности может угрожать качеству поиска.
    -
    1
    +
    Ответить
  • Дмитрий Севальнев
    77
    комментариев
    0
    читателей
    Дмитрий Севальнев
    больше года назад
    Кстати говоря, по ПФ они тоже кажется уже потеряли время — как минимум 8-11 месяцев.
    -
    -1
    +
    Ответить
  • Михаил Сливинский
    33
    комментария
    0
    читателей
    Михаил Сливинский
    больше года назад
    > Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Имхо, некоторое снижение есть. Наличие незаспамленных и репрезентативных дополнительных сигналов ранжирования будут способствовать дальнейшему снижению. Поведенческие, кстати, не всегда можно эффективно применять. Скажем, по уникальным НЧ запросам поведенческие почти бесполезны.

    > Ну а что в перспективе? В перспективе...
    > Однако этого мы не наблюдаем. По крайней мере, в последние 8-12 месяцев. Можно сделать вывод о стабилизации амплитудных значений этих факторов.

    Имхо, некоторое снижение есть. Наличие незаспамленных и репрезентативных дополнительных сигналов ранжирования будут способствовать дальнейшему снижению. Поведенческие, кстати, не всегда можно эффективно применять. Скажем, по уникальным НЧ запросам поведенческие почти бесполезны.

    > Ну а что в перспективе? В перспективе значимость поведенческих факторов необходимо будет (уж точно) занижать, что может привести и к относительному увеличению вклада от ссылочного.

    Не вижу предпосылок для этого.

    > Прогнозы в этой сфере не столь уж однозначны, тех более что методы накрутки поведенческого вот-вот преобразятся, что в действительности может угрожать качеству поиска.

    Подозреваю, что методы накрутки поведенческих эволюционируют от совершенно примитивных к просто примитивным. Имхо, пустая трата времени. Ловится на раз.
    -
    0
    +
    Ответить
  • Дмитрий Севальнев
    77
    комментариев
    0
    читателей
    Дмитрий Севальнев
    больше года назад
    Михаил, спасибо за весьма близкий к оригиналу перевод-)

    Вопрос к вам:

    Может ли поиск эффективно отфильтровать накрутки PageRank? Безусловно.

    Чтобы понять это, достаточно трех фактов:

    1) Поиск оперирует колоссальным объемом незаспамленных данных.
    2) У поиска достаточно ресурсов для построения моделей естественной перелинковки и анализа структуры ссылочных графов.
    3) Поиск может использовать метки для фильтрации «п...
    Михаил, спасибо за весьма близкий к оригиналу перевод-)

    Вопрос к вам:

    Может ли поиск эффективно отфильтровать накрутки PageRank? Безусловно.

    Чтобы понять это, достаточно трех фактов:

    1) Поиск оперирует колоссальным объемом незаспамленных данных.
    2) У поиска достаточно ресурсов для построения моделей естественной перелинковки и анализа структуры ссылочных графов.
    3) Поиск может использовать метки для фильтрации «подозрительных» доноров, участников ссылочных взрывов для обнаружения и нивелирования накруток.

    Отсюда вопрос: почему же это не так с ссылками?
    Ссылочный спам работает. Потому что это кому-то нужно и/или потому что «мадридский доклад» работает не так как хотелось бы авторам, это уже дело второе. Факт есть факт.

    Также как и пока остаётся фактом продвижение с помощью ПФ.
    -
    -1
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Рейтинг «Известность бренда SEO-компаний 2017»: народное голосование
Иван
1
комментарий
0
читателей
Полный профиль
Иван - 1) IT-Agency 2) Пиксели 3) 1ps 4) Ингейт 5) Нетпики
«Баден-Баден»: как выйти из-под фильтра
Сергей Дембицкий «Sima-Land.ru»
16
комментариев
0
читателей
Полный профиль
Сергей Дембицкий «Sima-Land.ru» - Скрины Метрики показывать не буду, но мы (sima-land.ru - 1,5 млн. стр. в поиске Яндекс) в сентябре загремели под ББ, в разгар сезона и вышли из-под фильтра, спустя 50 дней, удалив все тексты с сайта: категории + карточки товаров (описание). Трафик с Google только вырос. Тексты возвращать собираемся, но процесс будет длительный, тексты будем теперь писать исключительно полезные, т.к. было больно :-))
Второе дыхание ссылочного продвижения
Автопилот
14
комментариев
0
читателей
Полный профиль
Автопилот - Еще лучше, когда продвижение осуществляется комплексно :)
«Прямая линия» с Александром Алаевым («АлаичЪ и Ко»): отвечаем на вопросы
Александр Алаев
13
комментариев
0
читателей
Полный профиль
Александр Алаев - Роман. Тут ответ очень простой. Каждый запрос можно четко разделить на коммерческий или некоммерческий. "Купить слона" и его длинные хвосты - коммерческий. "Как выбрать слона" и подобные - информационные. Вот под коммерческие ключи должны быть страницы услуг или каталога товаров. А под информационку - блог. Очень важно не путать их, тем более несоответствующая коммерческим факторам страниц просто не продвинется, то есть по запросу с "купить" блог никогда не будет показываться в выдаче, так же как и страница услуги/товаров не покажется по "как выбрать". Понятно примерно?
Кейс: продвигаем бизнес по продаже пластиковых окон в Москве
Иван Стороженко
5
комментариев
0
читателей
Полный профиль
Иван Стороженко - 1. По началу вообще не использовали, сейчас уже много каналов используется. 2. Все может быть, в принципе сайты должны быть удобны для пользователя, для этого и нужна схожесть между собой. Честно говоря старались брать все самое интересное у конкурентов + подкреплять своими идеями.
Инфографика: самые распространенные SEO-ошибки Рунета
Dmitro Grunt
2
комментария
0
читателей
Полный профиль
Dmitro Grunt - Кстати, у проектов которые продвигает Нетпик все тайтлы не более 65 символов? Или вы надеетесь что кто то послушает советов и отдаст вам часть трафика? :-)
Google.ru внесли в реестр запрещенных сайтов
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Гон, все работает и будет работать. Да и пусть банят, будет как с рутрекером.
День рождения SEOnews: 12 лет в эфире!
Анна Макарова
313
комментария
0
читателей
Полный профиль
Анна Макарова - Ура )
Западные специалисты выяснили, как повысить позиции ресурса в выдаче Google
Serhii Diachenko
1
комментарий
0
читателей
Полный профиль
Serhii Diachenko - Спасибо Бернис!
«Прямая линия» с Артуром Латыповым: отвечаем на вопросы
God Koss
1
комментарий
0
читателей
Полный профиль
God Koss - Добрый день! Есть сайты одной компании продвигающиеся в разных странах. .ru .com .net. На российском сайте два языка ru и en, на остальных до 10 языков. Недавно сайт ru по основному брендовому запросу выпал из выдачи Яндекс но после апа вернулся на вторую позицию. На вопрос аффилирования в тех поддержку, получит ответ, что всё в порядке и сайт com не учавствует в выдаче. Но он есть и занимает 1 место. Как быть в данной ситуации? Так же, после возврата в топ 10 по этому запросу зашла еще одна внутренняя страница. Могло ли это случиться из-за каннибализации запроса? Немного изменил description на внутренней, исключил вхождения брендового запроса. Жду апа. Хотел бы услышать ваше мнение. Заранее благодарю!
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
313
Комментариев
262
Комментариев
229
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
97
Комментариев
97
Комментариев
95
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
55
Комментариев
54
Комментариев
52
Комментариев
49

Отправьте отзыв!
Отправьте отзыв!