Хочешь повысить отдачу от Директа?
Включи «Автопилот»

Продолжаем изучать Баден-Баден. Что считается спамом, где пороги срабатывания фильтра?

Россия+7 (495) 960-65-87
Шрифт:
3 8261

SEOnews продолжает следить за «Баден-Баденом» глазами экспертов. Алексей Трудов провел исследование и теперь рассказывает, что ББ считает спамом и где пороги срабатывания фильтра.

***

Едва опубликовал исследование алгоритма «Баден-Баден», как меня буквально завалили вопросами про конкретные цифры для выявленных показателей. На что ориентироваться? Какой уровень водности или там индекса биграммы/униграммы считать хорошим, а какой — плохим? К чему стремиться при доработке текстов? Где буйки, за которые нельзя заплывать?..

Вопросы совершенно закономерные. Безусловно, понимать точные критерии попадания страницы под фильтр было бы просто здорово.

Однако эта задача очень сложна. Поймать различия на нескольких десятках сайтов по отдельности и усреднить их для всей выборки сравнительно просто. Еще более важно, что в этом случае мы можем сравнительно уверенно интерпретировать данные. Хостовые факторы картину не искажают, абсолютные различия переведены в проценты, благодаря чему их можно сравнивать. Просто копаем в сторону самых сильных отклонений и все.

Благодать, основные тенденции выявлены. На практике можно проделать аналогичное исследование для любого сайта и найти самые критичные проблемы конкретных текстов.

Если же просто найти среднее значение текстовых метрик у страниц, попавших под Баден-Баден, то эти данные сами по себе мало что будут значить. Мы не можем быть уверены, отловленные цифры будут актуальны для другого сайта в другой тематике.

В целом, мое мнение по этому вопросу совпадает с тем, что писал Станислав Ставский:

Если попытаться определить пороги срабатывания алгоритма, то это практически нереальная, на мой взгляд, задача. В выборках всегда будут примеры, которые должны упасть, но не падают. И, возможно, наоборот. 900 факторов против одного-двух факторов текстового антиспама — всегда будут ситуации, когда документы будут вытягиваться наверх другими сигналами.

Тем не менее даже сомнительные ориентиры могут пригодиться (главное не забывать, откуда они взялись, и не считать их высеченными в камне). Попробуем их выделить, чтобы иметь отправную точку для анализа, задать систему координат.

Хотя, зачем я вру. Главная задача — иметь ссылку, которую можно отправить в ответ на вопрос «много или мало, когда в анализе текстов в bez-bubna.com получаются такие цифры»:

Анализ текстов Статистика.png

Методика: что и как считаем

Выборка — та же, что и в прошлом исследовании (благо, для этих страниц уже посчитаны все значимые текстовые метрики, определено, попал ли URL под санкции, отброшен откровенный спам). Всего 4297, из них под «Баден-Баденом» 2772.

Однако теперь мы не разбиваем выборку по сайтам (нас интересуют универсальные цифры!), а смотрим средние значения показателей по всем URL сразу, сравнивая «хорошие» и «плохие».

Разумеется, любая разница между средними величинами может оказаться случайной. Крайне важно отличать истинные различия от случайных. К счастью, тут не нужно изобретать велосипед — метод для проверки статистической значимости найденных различий появился более века назад. Это ​t-критерий Стьюдента. Интересующиеся могут загуглить или почитать самое простое объяснение, какое я только встречал, на сайте «Статистика и котики».

Для понимания этой статьи достаточно помнить, что с помощью t-критерия вычисляется вероятность отсутствия различий между средними из двух выборок. Грубо говоря, если для той или иной метрики (например, тошноты) такой шанс больше 1%, то считаем разницу по параметру не доказанной. Если меньше — то берем на вооружение и рассматриваем среднее значение для «плохих» страниц как опасный порог (возможны и другие интерпретации, важнее всего наличие/отсутствие различий как таковое).

Результаты по средним значениям и ​t-критерию

Вот моя рабочая табличка:

Результаты по средним значениям и t-критерию.png

Долго вглядываться в нее не надо, главный вывод — статистически достоверные различия демонстрируют только средние значения по академической тошноте и по водности (вероятность значительно меньше 1%, выделено зеленым). Все остальное принимать во внимание нельзя.

Полезным ориентиром можно считать только порог по водности. Видим, что среднее для плохих страниц почти 0,31, а для хороших — 0,29. В общем-то результат ожидаем. «Вода» — естественная часть любых статей, но даже небольшое перенасыщение стоп-словами ухудшает качество текста. Это как машинное масло: без него никуда, но если перелить — мотор не обрадуется.

Конечно, «нормальная» водность может сильно меняться в зависимости от тематики (например, в юридических текстах много перечислений и мало вводных оборотов, а в статьях о литературе – скорее наоборот).

Второй параметр, для которого различия достоверны, академическая тошнота. Вряд ли он особо нам поможет. Тем более что из таблицы можно сделать вывод — «пихай побольше ключей, и будет хорошо». Ведь на страницах под фильтром тошнота ниже. Этот парадокс я подробно разобрал в предыдущей статье.

Можно ли найти дополнительные пороги? Можно!

Введем поправку на водность

Итак, мы получили еще одно свидетельство в пользу того, что тексты с высокой водностью Яндекс не любит. Естественно, мы хотим знать больше. Что еще ему может не нравиться, когда с водностью все в порядке? Сформируем новую выборку проблемных страниц. Возьмем для анализа только те, где водность не превышает 0,3:

Введем поправку на водность.png

Ого, так куда интереснее!

  • Исчезла какая-либо статистическая значимость в отношении тошноты. По всей видимости, она и правда никак не влияет на наложение фильтра (напоминаю, что я работал с выборкой достаточно качественных сайтов, где этот показатель не зашкаливал).
  • Появились значимые различия для показателя вариативности. Впрочем, в абсолютном выражении разница невелика: 0,23 против 0,24. Как и водность, это весьма устойчивый показатель, с небольшой изменчивостью.
  • Наконец, есть достоверная разница (обратите внимание на количество нулей в четвертом столбце!) по тошноте биграмм и триграмм, индексам биграммы-униграмы и триграммы-униграммы.

Выводы

Пропущу миллион оговорок и напоминаний о том, что реальная картина сложнее, чем ограниченная выборка, что различие по параметру еще не говорит о причинно-следственной связи и т.д. и т.п. Надеюсь, это и так понятно. По уму, конечно, нужно строить модель с использованием логистической регрессии. Проще говоря — подбирать формулу, которая бы определяла вероятность попадания страницы под фильтр на основе сразу всех значимых факторов. Я двигаюсь в этом направлении, но прогнозировать что-то сложно, поэтому пока работаем с тем, что есть.

Итак, отправными точками для анализа страниц-кандидатов на попадание под Баден-Баден можно считать:

  • Водность 0,31 и более.
  • Вариативность 0,23 и менее.
  • Тошноту биграмм 3,6 и более
  • Тошноту триграмм 1,8 и более.
  • Индекс биграммы/униграммы 32 и более.
  • Индекс триграммы/униграммы 17 и более.
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Юрий Жигалов
    2
    комментария
    0
    читателей
    Юрий Жигалов
    1 месяц назад
    Планируется ли сделать в сервисе проверку на эти данные для одной страницы? Я вижу только тарифы для проверки всего сайта
    -
    0
    +
    Ответить
  • Станислав Елистратов
    5
    комментариев
    0
    читателей
    Подскажите, пожалуйста, софт или инструменты, которыми можно эти значения в своих текстах проверять.
    -
    2
    +
    Ответить
    • Alexey Trudov
      6
      комментариев
      0
      читателей
      Станислав, вот о моей разработка (оттуда же скриншот):
      alexeytrudov.com/web-marketing/service/novyie-instrumentyi-dlya-rabotyi-s-kontentom.html

      Других в открытом доступе я не встречал. Есть проверяющие отдельные элементы, например arsenkin.ru/tools/lemma/ умеет выделять n-граммы, но чтобы видеть все параметры сразу - такого нет.
      -
      0
      +
      Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
SEOnews и Serpstat запускают конкурс для интернет-маркетологов
Marina Lagutina
1
комментарий
0
читателей
Полный профиль
Marina Lagutina - Добрый день! Видимо я из тех, кто пытается последней вскочить в уходящий поезд. Ночью написала статью на тему "обзор инструментов контент-маркетинга". Своего блога нет. Отправила вам не мейл. Я еще могу у вас разместиться или искать, кто возьмет статью к себе в блог?
Монетизация сайта. Как, когда, сколько?
NiK Malefictum
3
комментария
0
читателей
Полный профиль
NiK Malefictum - В статье почему-то не увидел РСЯ (оно просто упоминается в статье) и хотелось бы какое-то сравнение между ними. например - поставили на сайтах разную систему монетизации сняли статистику доходов за месяц в за 1 переход Хотелось бы увидеть мнение автора помимо пиара Макстаргета.
Влияние HTTPS на ранжирование региональных поддоменов в Яндексе
NiK Malefictum
3
комментария
0
читателей
Полный профиль
NiK Malefictum - Стакивался лишь с тем, что выдачу немного лихорадит первые 2-3 недели, и если у сайта была низкая скорость загрузки - ее нужно поправить. Региональным сайтам НУЖНО ставить HTTPS немного внутряк поправить / микроразметку и прочее прописать мета и пересмотреть контент зарегать компанию в каталогах предприятий и картографии и уже делать просто сделать статейные ссылки бесплатные. и все
Мир глазами поисковых систем
Александр Рунов
17
комментариев
0
читателей
Полный профиль
Александр Рунов - Какой регион, если не секрет? В Мск, в ряде ВК тематик (в тех же "окнах" или "колесах"), без работы с внешними факторами по ВЧ запросам в ТОП не выплывешь. Хотя в большинстве направлений вполне реально.
Инфографика: самые распространенные SEO-ошибки Рунета
Dmitro Grunt
2
комментария
0
читателей
Полный профиль
Dmitro Grunt - Кстати, у проектов которые продвигает Нетпик все тайтлы не более 65 символов? Или вы надеетесь что кто то послушает советов и отдаст вам часть трафика? :-)
Google.ru внесли в реестр запрещенных сайтов
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Гон, все работает и будет работать. Да и пусть банят, будет как с рутрекером.
День рождения SEOnews: 12 лет в эфире!
Анна Макарова
309
комментариев
0
читателей
Полный профиль
Анна Макарова - Ура )
7 причин не работать на биржах копирайтинга
Dasha Shkaruba
6
комментариев
0
читателей
Полный профиль
Dasha Shkaruba - Спасибо за мнение! Кстати, на бирже главреда прием анкет закрыт
Сердитый маркетолог: как вы сами хороните свой сайт, или 16 принципов, которые нужно усвоить заказчикам SEO
Руслан Латыпов
2
комментария
0
читателей
Полный профиль
Руслан Латыпов - Можно совершенно бесплатно заказать SEO-аудит своего сайта и получить все рекомендации по его продвижению a-erp.com/
Конкурс: угадайте пятерку лидеров рейтинга «SEO глазами клиентов 2017»
Оля
1
комментарий
0
читателей
Полный профиль
Оля - 1 Ingate 2 Wezom 3 Bynjg vtlbf 4 seo energy 5 директ лайн
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
309
Комментариев
262
Комментариев
225
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
97
Комментариев
97
Комментариев
95
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
55
Комментариев
53
Комментариев
52
Комментариев
47

Отправьте отзыв!
Отправьте отзыв!