Baltic Digital Days 2017: Исследование качества сервисов кластеризации по поисковой выдаче

Продолжаем обзор программной части конференции Baltic Digital Days, которая уже в пятый раз проходит в Калининграде. В рамках секции «SEO в русскоязычном интернете» Александр Ожгибесов представил доклад на тему «Исследование качества сервисов кластеризации по поисковой выдаче».


Свое выступление спикер начал с цитирования самых распространенных вопросов клиентов:

  • Какой кластеризатор лучше?
  • Какая степень лучше?
  • Как им пользоваться и так далее.

Когда я начал вести вебинары, эти вопросы мне стали задавать каждый день. Вот почему я решил взять на себя ответственность и сделать правдивый, объективный рейтинг существующих ТОП-овых кластеризаторов, – пояснил он.

Существует проблема в кластеризации: чтобы сделать качественное ядро, нужно проанализировать нишу, понять, чем занимается клиент, свести данные воедино, подготовить запросы для парсинга, вытащить множество запросов из источников, все это посмотреть по кластеризации по ТОПу, а потом еще вручную доанализировать, сгруппировать по контенту. В результате проект получается нереально долгим и затратным.

Таким образом, большую часть времени при составлении семантического ядра занимает:

1. Предварительный анализ структуры сайтов конкурентов.

2. Подготовка входных групп для парсинга и дальнейшая очистка данных от мусора.

3. Кластеризация запросов.

Кластеризаторы призваны решить эту проблему.

Рейтинг 8 кластеризаторов


В ходе исследования перед экспертами стояла задача получить рейтинг не по конкретной тематике, а сразу по нескольким тематикам. Поэтому брали примерно по 30% каждого из этих параметров. Были и низкочастотные запросы. Изначально на входе было 116 тематических ядер общим объемом на 102 тысячи запросов.


Но есть проблема: запросы собирала моя команда, и они не идеальны, – добавил Александр. – Но при этом нам нужно было представить выборку идеальной и репрезентативной для доклада. Что мы делаем дальше? Мы предполагаем, что нельзя оценивать правильность кластеризации во всему ядру в целом. Мы будем сравнивать не по семантике, а по каждому конкретному кластеру.

Допустим, есть 180 запросов, и по 170 запросам сайт занимает с 1 по 5 позицию. При этом запрос №180 занимает позиции с 5 по 10. Именно первый вариант будет наиболее интересен, поскольку по нему сайт смог попасть в ТОП.

У нас был пул запросов, все данные поисковой выдачи были получены через прокси, и по каждому URL сформировали ТОП-10 сайтов.


Далее необходимо отыскать наилучшие по количеству совпадений запросы из общего числа.


Выделенные сайты нужно проанализировать с точки зрения позиции в выдаче:


По итогам анализа видно, что по кластеру «расчет ОСАГО» в ТОПе выдачи находится следующий сайт:


Всего 189 запросов, на одной странице по одному кластеру, из них в ТОП-1 – 69, ТОП-10 – 31.

Что касается одной известной всем компании, то для нее результат оказался чуть хуже:


Далее следует полуинформационный-полукоммерческий сайт, здесь результаты гораздо хуже:


Для дальнейшего разбора кластеризаторов будет использоваться ресурс www.bonus-malus.ru.

Что делаем дальше?

Далее необходимо обратиться к сервису кластеризации и выгрузить все запросы по странице, которая, согласно приведенным выше данным, была идеальной. С этой целью был выполнен экспорт запросов из Serpstat по странице https://www.bonus- malus.ru/osago/kalkuljator.html.

При этом позиции ниже ТОП-10 в расчет брать не нужно. Далее производят сравнение исходного кластера, который был представлен в семантике, с кластером сайта. Аналогичное сравнение производится по каждому кластеру в исходном семантическом ядре. Только после этого будет получен результат.

Тематика «ОСАГО страхование» очень популярна, и здесь данные идеальные.


Однако и здесь не бывает идеальной ситуации. Так, например, в ходе эксперимента возникли проблемы: часть семантических ядер была не так хороша, как того бы хотелось.


К нам обращаются совсем разные бизнесы. 37% тех, с которыми все получилось: во-первых, это узкая тематика, – пояснил Александр:


Во-вторых, тематика и регион.


Представители сервисов кластеризации нередко подчеркивают, что SEO-специалисты неправильно работают с ними. Не нужно подавать голые парсинги из Вордстат, подсказок и всего прочего, нужно изначально делать оценку, убирать лишнее, предоставлять на вход более-менее правильные данные, и тогда вы получите реальный, крутой результат.

Так и есть, мы используем данные кластеризации, но только в таком фоне, а не в фоне «спарсили и отдали на вход». Поэтому данные, которые мы подавали на вход — это наши ядра, которые мы продали, которые прошли оценку качества, у которых все круто, – согласился с позицией сервисов спикер.

Иными словами, данные, которые подаются на вход, являются максимально объективными по требованию самих же кластеризаторов. Это не только очищенные от мусора запросы, а готовая группировка, на основе которых строится структура и продвижение реальных сайтов. Данные, которые вы получите, применив эту методику на «голом» парсинге, никак не могут соотноситься с текущим исследованием!

Кластеризация проводилась в каждом из сервисов в одно и то же время.

Но прежде чем представить слушателям рейтинг сервисов, Александр продемонстрировал проблемные моменты, с которыми столкнулся во время проведения анализа.

На слайде представлены 3 кластера

Прежде всего, это дублирование кластеров:


Важно понимать, что:

  1. салют
  2. фейерверки
  3. салют и фейерверки

Это три разных кластера.

В то же время рядовой специалист работает по следующей схеме: выгружает ядро из 60 тыс. запросов и отдает это на вход. Кластеризаторы выдают самый большой кластер, по которому и формируется ТОП. При таком подходе получить качественный результат невозможно.

Вот как должна проводиться работа по кластеризации в идеале:



Еще одна существенная проблема - это отсутствие кластеризации в регионах. Стоит лишь копнуть чуть глубже и можно получить абсолютно разные кластеры. На слайде видна статистика по 2400 запросам.



Поскольку отдельные запросы нередко «прыгают» по кластерам, важно сформировать структуру запросов, статьи, сайта и распределить некластеризованные запросы:


Важно понимать, что есть множество запросов, которые в принципе не кластеризуются.


Дополнительно спикер пояснил, что сбор семантики — это отдельный бизнес-процесс, и в каждой уважающей себя SEO-компании есть целый отдел, который им занимается.

Я не призываю вас не использовать кластеризацию, я призываю думать своей головой. Кластеризация это круто, — пояснил Александр.

Семь параметров оценки

В ходе анализа кластеризаторов использовали 7 параметров оценки:

1 параметр — это сильное совпадение. К примеру, есть исходный кластер и есть кластер кластеризатор, он на 60% повторяет наш кластер, от 60 до 100% — это хороший показатель.

2 параметр — слабое совпадение, когда процент совпадений из кластера сервиса составляет от 59 до 21% с исходным кластером. Это тоже неплохо.

3 параметр — когда идет сильное несовпадение (от 20 до 0%). Это не круто.

4 параметр — процент некластеризованного. То есть процент запросов из кластеризации сервиса, которые оказались непригодными для кластеризации по сравнению с исходным кластером.

5 параметр — совпадение по важным запросам. То есть совпадения по частотным запросам в тематике.

6 параметр — совпадение по второстепенным запросам. Этот параметр характерен только для очень крупных бизнесов.

7 параметр — совпадение по ТОПу. Сравнение проводится по методологии оценки исходной группировки, но с учетом дублей по кластерам.

Вот такие данные удалось получить по каждому ядру.


Key Collector крут!


Что касается сильного совпадения, здесь данные оказались следующими:


Далее сравниваем слабое совпадение:


Сильное несовпадение:


Некластиризовано:


Совпадение по важным:


Совпадение по второстепенным:


Вхождение в ТОП:


Далее были выбраны лучшие кластеризации, которые будут представлены ниже:


Итоговая оценка получилась такой:


Что касается вхождения по ТОПу, то у 40% кластеризаторов проблем с этим параметром нет. Однако в целом кластеризаторы уступают специалистам и всем сервисам есть, куда расти.

Сделать однозначный вывод о том, какой из кластеризаторов лучший, невозможно. Ведь следует учитывать все предыдущие параметры, на основе которых проводился эксперимент: где-то Rush Soft реально проигрывает Just-Magic, а где-то Топвизор выигрывает у Rush Soft, но это исключение из правил.

В таблицах представлены общие данные по 116 тысячам запросов. Я считаю, это объективно, – подвел итог исследования спикер. 

(Голосов: 5, Рейтинг: 5)