×
Россия +7 (495) 139-20-33

Продолжаем изучать Баден-Баден. Что считается спамом, где пороги срабатывания фильтра?

Россия +7 (495) 139-20-33
Шрифт:
3 12801

SEOnews продолжает следить за «Баден-Баденом» глазами экспертов. Алексей Трудов провел исследование и теперь рассказывает, что ББ считает спамом и где пороги срабатывания фильтра.

***

Едва опубликовал исследование алгоритма «Баден-Баден», как меня буквально завалили вопросами про конкретные цифры для выявленных показателей. На что ориентироваться? Какой уровень водности или там индекса биграммы/униграммы считать хорошим, а какой — плохим? К чему стремиться при доработке текстов? Где буйки, за которые нельзя заплывать?..

Вопросы совершенно закономерные. Безусловно, понимать точные критерии попадания страницы под фильтр было бы просто здорово.

Однако эта задача очень сложна. Поймать различия на нескольких десятках сайтов по отдельности и усреднить их для всей выборки сравнительно просто. Еще более важно, что в этом случае мы можем сравнительно уверенно интерпретировать данные. Хостовые факторы картину не искажают, абсолютные различия переведены в проценты, благодаря чему их можно сравнивать. Просто копаем в сторону самых сильных отклонений и все.

Благодать, основные тенденции выявлены. На практике можно проделать аналогичное исследование для любого сайта и найти самые критичные проблемы конкретных текстов.

Если же просто найти среднее значение текстовых метрик у страниц, попавших под Баден-Баден, то эти данные сами по себе мало что будут значить. Мы не можем быть уверены, отловленные цифры будут актуальны для другого сайта в другой тематике.

В целом, мое мнение по этому вопросу совпадает с тем, что писал Станислав Ставский:

Если попытаться определить пороги срабатывания алгоритма, то это практически нереальная, на мой взгляд, задача. В выборках всегда будут примеры, которые должны упасть, но не падают. И, возможно, наоборот. 900 факторов против одного-двух факторов текстового антиспама — всегда будут ситуации, когда документы будут вытягиваться наверх другими сигналами.

Тем не менее даже сомнительные ориентиры могут пригодиться (главное не забывать, откуда они взялись, и не считать их высеченными в камне). Попробуем их выделить, чтобы иметь отправную точку для анализа, задать систему координат.

Хотя, зачем я вру. Главная задача — иметь ссылку, которую можно отправить в ответ на вопрос «много или мало, когда в анализе текстов в bez-bubna.com получаются такие цифры»:

Анализ текстов Статистика.png

Методика: что и как считаем

Выборка — та же, что и в прошлом исследовании (благо, для этих страниц уже посчитаны все значимые текстовые метрики, определено, попал ли URL под санкции, отброшен откровенный спам). Всего 4297, из них под «Баден-Баденом» 2772.

Однако теперь мы не разбиваем выборку по сайтам (нас интересуют универсальные цифры!), а смотрим средние значения показателей по всем URL сразу, сравнивая «хорошие» и «плохие».

Разумеется, любая разница между средними величинами может оказаться случайной. Крайне важно отличать истинные различия от случайных. К счастью, тут не нужно изобретать велосипед — метод для проверки статистической значимости найденных различий появился более века назад. Это ​t-критерий Стьюдента. Интересующиеся могут загуглить или почитать самое простое объяснение, какое я только встречал, на сайте «Статистика и котики».

Для понимания этой статьи достаточно помнить, что с помощью t-критерия вычисляется вероятность отсутствия различий между средними из двух выборок. Грубо говоря, если для той или иной метрики (например, тошноты) такой шанс больше 1%, то считаем разницу по параметру не доказанной. Если меньше — то берем на вооружение и рассматриваем среднее значение для «плохих» страниц как опасный порог (возможны и другие интерпретации, важнее всего наличие/отсутствие различий как таковое).

Результаты по средним значениям и ​t-критерию

Вот моя рабочая табличка:

Результаты по средним значениям и t-критерию.png

Долго вглядываться в нее не надо, главный вывод — статистически достоверные различия демонстрируют только средние значения по академической тошноте и по водности (вероятность значительно меньше 1%, выделено зеленым). Все остальное принимать во внимание нельзя.

Полезным ориентиром можно считать только порог по водности. Видим, что среднее для плохих страниц почти 0,31, а для хороших — 0,29. В общем-то результат ожидаем. «Вода» — естественная часть любых статей, но даже небольшое перенасыщение стоп-словами ухудшает качество текста. Это как машинное масло: без него никуда, но если перелить — мотор не обрадуется.

Конечно, «нормальная» водность может сильно меняться в зависимости от тематики (например, в юридических текстах много перечислений и мало вводных оборотов, а в статьях о литературе – скорее наоборот).

Второй параметр, для которого различия достоверны, академическая тошнота. Вряд ли он особо нам поможет. Тем более что из таблицы можно сделать вывод — «пихай побольше ключей, и будет хорошо». Ведь на страницах под фильтром тошнота ниже. Этот парадокс я подробно разобрал в предыдущей статье.

Можно ли найти дополнительные пороги? Можно!

Введем поправку на водность

Итак, мы получили еще одно свидетельство в пользу того, что тексты с высокой водностью Яндекс не любит. Естественно, мы хотим знать больше. Что еще ему может не нравиться, когда с водностью все в порядке? Сформируем новую выборку проблемных страниц. Возьмем для анализа только те, где водность не превышает 0,3:

Введем поправку на водность.png

Ого, так куда интереснее!

  • Исчезла какая-либо статистическая значимость в отношении тошноты. По всей видимости, она и правда никак не влияет на наложение фильтра (напоминаю, что я работал с выборкой достаточно качественных сайтов, где этот показатель не зашкаливал).
  • Появились значимые различия для показателя вариативности. Впрочем, в абсолютном выражении разница невелика: 0,23 против 0,24. Как и водность, это весьма устойчивый показатель, с небольшой изменчивостью.
  • Наконец, есть достоверная разница (обратите внимание на количество нулей в четвертом столбце!) по тошноте биграмм и триграмм, индексам биграммы-униграмы и триграммы-униграммы.

Выводы

Пропущу миллион оговорок и напоминаний о том, что реальная картина сложнее, чем ограниченная выборка, что различие по параметру еще не говорит о причинно-следственной связи и т.д. и т.п. Надеюсь, это и так понятно. По уму, конечно, нужно строить модель с использованием логистической регрессии. Проще говоря — подбирать формулу, которая бы определяла вероятность попадания страницы под фильтр на основе сразу всех значимых факторов. Я двигаюсь в этом направлении, но прогнозировать что-то сложно, поэтому пока работаем с тем, что есть.

Итак, отправными точками для анализа страниц-кандидатов на попадание под Баден-Баден можно считать:

  • Водность 0,31 и более.
  • Вариативность 0,23 и менее.
  • Тошноту биграмм 3,6 и более
  • Тошноту триграмм 1,8 и более.
  • Индекс биграммы/униграммы 32 и более.
  • Индекс триграммы/униграммы 17 и более.
(Голосов: 6, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Ане Макаровой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Юрий Жигалов
    3
    комментария
    0
    читателей
    Юрий Жигалов
    больше года назад
    Планируется ли сделать в сервисе проверку на эти данные для одной страницы? Я вижу только тарифы для проверки всего сайта
    -
    0
    +
    Ответить
  • Станислав Елистратов
    5
    комментариев
    0
    читателей
    Станислав Елистратов
    больше года назад
    Подскажите, пожалуйста, софт или инструменты, которыми можно эти значения в своих текстах проверять.
    -
    2
    +
    Ответить
    • Alexey Trudov
      6
      комментариев
      0
      читателей
      Alexey Trudov
      Станислав Елистратов
      больше года назад
      Станислав, вот о моей разработка (оттуда же скриншот):
      alexeytrudov.com/web-marketing/service/novyie-instrumentyi-dlya-rabotyi-s-kontentom.html

      Других в открытом доступе я не встречал. Есть проверяющие отдельные элементы, например arsenkin.ru/tools/lemma/ умеет выделять n-граммы, но чтобы видеть все параметры сразу - такого нет.
      -
      0
      +
      Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Кейс: как за 30 дней вывести новый сайт в ТОП выдачи Google
Сергей
2
комментария
0
читателей
Полный профиль
Сергей - Прошёл у Паши курс год назад, пытался продвигать свой сайт portativ.org.ua, но особых продвижений нет. Наверное сео уже умерло??
Выбираем CMS для сайта с точки зрения SEO: базовые требования
SEO.RU
6
комментариев
0
читателей
Полный профиль
SEO.RU - Спасибо за замечание, действительно была допущена неточность - возможно информация была не так давно обновилась. Данные в статье поправим на актуальные.
Digital-marketing: как выжить в кризис. Опыт реальной компании
Maks
1
комментарий
0
читателей
Полный профиль
Maks - Спасибо за опыт Вашей компании, Иван Папусь. Интересно получилось! Желаю Вашему бизнесу стабильности и успешно пережить все кризисы))
Облако тегов в интернет-магазине: прикладная инструкция по увеличению трафика
Юлия Дмитриева
2
комментария
0
читателей
Полный профиль
Юлия Дмитриева - Согласна с вами, что в любом деле важен индивидуальный подход:)
Как стандартизировать данные семантики с помощью логарифмов
Юлий
1
комментарий
0
читателей
Полный профиль
Юлий - Чем снималась коммерцелизация?
Специалисты в Рунете заметили глобальную накрутку поведенческих факторов
Гость
1
комментарий
0
читателей
Полный профиль
Гость - накрутка-пф.рф
Платные и бесплатные курсы по SEO и интернет-маркетингу для новичков и опытных специалистов
Алексей Терещенко
1
комментарий
0
читателей
Полный профиль
Алексей Терещенко - Запустил бесплатный марафон для SEO специалистов с нуля в Фейсбуке. Рекомендую начинать совой путь с него и дальше уже определятся, нравится направление или нет. Так же на базе обучающего марафона есть сообщестово в котором все в удобном формате общаются и постигают профессию. Моя миссия - создать сообщество крутых и образованых seo специалистов и поднять качество услуг на высокий уровень. Кому интересно, присоеденяйтесь www.facebook.com/groups/startseofree/
Гайд по работе с освобождающимися доменами: перехват, восстановление, создание сетки и заработок
Daniel Dan
1
комментарий
0
читателей
Полный профиль
Daniel Dan - Интересно и полезно читать, Спасибо!
Яндекс возобновил «показательные порки» за накрутку поведенческих факторов
Антон
1
комментарий
0
читателей
Полный профиль
Антон - Никакой не выпал. Кроме клиентского сайта, который проседал из-за скрутки, о чем Я.Поиску сообщали и клиенту тоже. Ноль реакции от поисковика (продолжайте развивать сайт, никаких проблем нет ...). Клиенту надоело и он заказал накрутку у подрядчиков. Мы искренне ждали бана, сообщали об этом клиенту, т.к. мы все таки делаем все остальное для развития. Как итог: с лета полет нормальный. Сайт растет, никаких проблем. Случайно даже стажер палил тех поддержке факт использования накрутки. И ничего. Сайт растет дальше. Если они не могут ничего принять даже после признания факта накрутки, что они могут сделать с жалобами на накрутку конкурентов?! Никогда не одобряли данные методы, но ... похоже ... все работает :)
Локальное продвижение интернет-магазина: как получить дополнительный трафик из регионов
Саша Дружин
2
комментария
0
читателей
Полный профиль
Саша Дружин - У меня был опыт раскрутки сайта на иностранных рынок, например для анголязычной аудитории. В целом отличия есть, хоть и небольшие. Больше всегда прироста получил после закупки ссылок от www.e-raskrutka.ru/anothercountry , они достаточно качественно работают на англоязычную аудиторию и могут лаконично вписаться в любое обсуждение. Можно самому попробовать заказать такие ссылки и посмотреть на результат.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
383
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
113
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
89
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
60
Комментариев
59
Комментариев
57

Отправьте отзыв!
Отправьте отзыв!