×
Россия +7 (495) 139-20-33

Алгоритм кластеризации поисковых запросов

Россия +7 (495) 139-20-33
Шрифт:
0 2195
Подпишитесь на нас в Telegram

На этапе продажи услуги поискового продвижения формируется список запросов, планируемых для продвижения. Количество запросов в предварительном семантическом ядре может варьироваться от 200 до нескольких десятков тысяч для крупных клиентов. Человеку воспринимать список таких запросов очень сложно, поэтому было принято решение реализовать автоматическую кластеризацию запросов.

Кластеризация – задача разбиения объектов на подмножества (кластеры), так, чтобы внутри одного кластера находились схожие объекты, причем объекты в разных кластерах должны отличаться.

Решения задачи кластеризации можно свести к следующим этапам:

  1. Определение характеристик(признаков) каждого объекта.
  2. Вычисление меры сходства между объектами.
  3. Применение алгоритмов кластеризации.

Задача кластеризации поисковых запросов часто возникает у SEO специалиста. Обычно это связано с тем, что требуется разбить все запросы по страницам для дальнейшего продвижения. Большинство сервисов, которые есть на рынке, используют различные меры сходства выдачи по запросам. Это может быть, например, доля пересечений адресов в топ 10 выдачи. Особенностью такой кластеризации является то, что самый хороший вариант – это когда запросы на одной странице максимально похожи. Но при таком разбиении разные модели одной марки будут находиться в разных группах, а количество групп будет достаточно велико. Для нашей задачи это не очень хорошо, потому что если показать человеку вместо 1000 запросов 400, то это не сильно упростит ему восприятие. Идеальным вариантом, было бы разбиение на небольшое количество кластеров. Например, один кластер про холодильники, другой про стиральные машины и т.д. В этом случае, человек легко сможет проанализировать все группы, какие-то вычеркнуть как очень дорогие и не конверсионные, а какие-то наоборот расширить, если увидит, что это приоритетный товар или услуга, но запросов внутри группы не очень много.

Порядок исследования

Как было решено ранее, брать в качестве метрики сходства результаты выдачи любой из поисковой системы будет неправильно. Нужно анализировать схожесть запросов по смыслу. Для начала нужно преобразовать запросы в вектор признаков (векторное представление). Популярной практикой работы с текстом является преобразование каждого запроса в вектор TF-IDF.

TF-IDF – статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса.

TF – частота слова, позволяет оценить важность слова в пределах одного документа.

халин-1.png

TF – всегда рассчитывается в рамках одного документа (текста, запроса), а величина IDF должна быть рассчитана на основе всего множества документов (корпуса). Можно говорить о глобальном IDF для русского языка, если собрать достаточно большое количество текстов на русском, а затем по этим текстам посчитать для каждого слова IDF. В таком случае полученные величины будут отражать, насколько тот или иной термин популярен в языке. Но для кластеризации запросов глобальный IDF не нужен, т.к. могут быть совершенно разные клиенты, у которых слова из запроса значимы, несмотря на то, что в целом в языке эти слова достаточно часто повторяются, например, слова дом или машина. Поэтому IDF нужно считать по всем запросам в семантическом ядре, а корпус будет представлять собой список всех запросов.

Таким образом алгоритм кластеризации выглядит так:

  1. Все слова из запросов нормализуются, удаляются служебные части речи (предлоги, союзы и т.п.)
  2. Каждый запрос преобразуется в вектор чисел. Делается это с помощью TfidfVectorizer в библиотеке sklearn.
  3. Полученные вектора кластеризуются с помощью метода MiniBatchKMeans из библиотеки sklearn. MINI-BATCH K-MEANS является вариацией алгоритма K-MEANS, который использует мини-партии для сокращения времени вычисления, при этом работает незначительно хуже стандартного алгоритма. Так же как и KMeans метод принимает на вход количество кластеров.

Стоит напомнить, что кластеризация — это задача обучения без учителя, в которой нет правильных или неправильных ответов. Есть метрики, которые позволяют оценить качество кластеризации, но нам было важно, чтобы результат устраивал клиента, поэтому качество кластеризации оценивалось людьми. Результат кластеризации при каждом запуске может быть разный, т.к. при запуске алгоритма используются случайные величины в качестве начальных состояний. Это не является проблемой, т.к. в реальности происходит тоже самое: разные люди могут разбить одно и тоже СЯ совсем по-разному. Более того, специалист в процессе работы с инструментом, может сделать перерасчет, если по каким-то причинам ему не понравился результат.

Ниже приведены примеры кластеризации одного СЯ:

– купить цветы германия

– цветы с доставкой германия

– цветы с доставкой франция

– купить цветы франция

– цветы с доставкой по москве

– цветы на заказ москва

– купить цветы германия

– купить цветы франция

– цветы с доставкой германия

– цветы с доставкой по москве

– цветы с доставкой франция

– цветы на заказ москва

В описанном подходе есть несколько проблем:

1. От специалиста (пользователя инструмента кластеризации) требуется вводить количество кластеров. Для маленьких СЯ можно достаточно быстро подобрать оптимальное число кластеров, учитывая, что специалист сам подбирал эти запросы, он знает приблизительное количество групп. Но когда число запросов превышает несколько тысяч, итеративно увеличивать количество требуемых кластеров, пока не получиться удовлетворительный результат – очень долго, т.к. требуется время, чтобы оценить качество каждого кластера.

2. Синонимы и близкие по смыслу слова могут оказаться в одной группе в очень редких случаях, когда их TF-IDF будет в рамках СЯ очень похож. А хотелось бы, чтобы такие слова объединялись в группы как можно чаще

В примере ниже, при разбиении списка запросов на 2 группы, гарнитура оказалась в одном кластере с домашним кинотеатром, хотя логически это неправильно.

– блютуз наушники

– наушники цена

– наушники сони

– купить наушники в москве

– домашний кинотеатр 2.1

– домашний кинотеатр сони

– домашний кинотеатр цена

– беспроводной домашний кинотеатр

– купить гарнитуру для телефона

– гарнитура для телефона

– гарнитура самсунг


Чтобы научить алгоритм находить похожие слова по смыслу, а не по частоте их употребления (проблема №2), вместо TF-IDF, можно использовать Word2Vec. Этот инструмент был разработан Google в 2013 году. Алгоритм обучается на большом объеме текста, а затем его можно использовать для получения векторного представления слова. При этом векторные представления близких по смыслу слов будут похожи. Именно это позволяет находить синонимы, сокращения и т.д.

Для тестирования решили не обучать новую модель, а взять готовую. Обученная модель была взята на сайте https://zenodo.org/record/400631. Слова в этой модели не нормализованы, каждое слово представляет собой вектор из 300 элементов.

Каждый запрос состоит из нескольких слов, для кластеризации все запросы необходимо преобразовать в вектора одной длины. Для этого можно представить каждый запрос как сумму векторов слов, которые его составляют.

Формула для сложения N векторов:

халин-2.png

Векторное представление слов по Word2Vec не предполагает, что какие-то операции над векторами могут дать ценный результат, так как сами вектора не несут полезной информации о слове, смысл имеет лишь расстояние между векторами.

Но рассмотрим пример, когда у нас есть 3 запроса:

  • купить машину
  • купить автомобиль
  • купить квартиру

Вектора слов «машина» и «автомобиль» будут более схожи, чем вектора слов «машина» и «квартира», поэтому при суммировании мы получим векторное представление, по которому запрос «купить квартиру» будет отличаться от двух других запросов достаточно сильно, чтобы выделить его в отдельный кластер. Очевидно, что полученное векторное представление для запроса «купить машину» может быть получено суммирование нескольких других слов, которые по тематике очень далеки от автомобиля, но этим можно пренебречь, т.к. обычно семантическое ядро состоит из тематически связанных запросов, в которых нет такого разнообразия лексики, которое создавало случаи, объединения совершенно непохожих запросов в одну группу.

Ниже примеры кластеризации СЯ с использованием Word2Vec:

– заказать цветы китай купить цветы чехия

– цветы с доставкой германия

– заказать букет маме

– заказать цветы мужчине

– заказать цветы невесте

– цветы девушке с доставкой

– цветы учителю на дом

– анемоны дешево

– гиацинты с доставкой

– ландыши на дом

– лилии недорого

– мимоза с доставкой

– розовые розы на заказ

– розы гран при недорого

– тюльпаны заказать


В этом примере получились 3 группы: группа запросов со странами, группа запросов про букеты кому-то в подарок, группа запросов с названиями цветов.

Задача кластеризации на этом этапе достаточно успешно решена. Дополнительным требованием к инструменту было автоматическое назначение названий для групп, чтобы пользователь сразу понимал, о чем группа.

Название группы может представляет собой список слов или словосочетаний. Все запросы в группе должны быть покрыты хотя бы одним словом или словосочетанием из списка. Определение названия происходит итеративно:

  1. Определяется самое частое слово в группе, если с ним связано другое слово, то формируем словосочетание. Полученное слово или словосочетание добавляем в финальный список названия.
  2. Вычеркиваем из группы, все запросы, которые содержат слово или словосочетание из первого пункта.
  3. Повторяем пункты 1-2 пока в группе остаются запросы.

Пример кластеризации запросов с названиями групп:

доставка срочный

экспресс доставка

грузоперевозка, авиаперевозка

экспресс доставка

– срочная доставка владивосток

– срочная доставка документов по россии

– срочная доставка москва новороссийск

– международная срочная доставка

– экспресс доставка в австралию

– экспресс доставка в индию

– экспресс доставка во вьетнам

– экспресс доставка в грецию

– стоимость авиаперевозки грузов

– стоимость жд грузоперевозок

– транспортные грузоперевозки цена
грузовые авиаперевозки цена

– морские грузоперевозки цена

– экспресс доставка москва калининград

– экспресс доставка сергиев посад

– экспресс доставка документов нижний новгород

– экспресс доставка в новороссийск из москвы


Из примера видно, что две группы имеют одинаковое название, но одна про доставку внутри страны, а другая про международную доставку. Человек легко подберет правильное название для каждой из групп, но сделать это автоматически не представляется возможным.

Проблема определения оптимального числа кластеров (проблема №1) относится к нерешенным проблемам кластерного анализа. Поэтому для каждой конкретной задачи подбираются эвристики, которые дают хоть какое-то решение.

Одно из возможных решений – найти зависимость числа кластеров от количества запросов.

Недостаток – не учитывается возможные различия между СЯ, т.е. может быть, как мелкий клиент с большим количеством групп, так и большой клиент с всего несколькими тематиками.

Другое решение – подобрать допустимый диапазон расстояний между векторами. Увеличивать количество кластеров, если среднее расстояние между векторами больше максимального значения диапазона и уменьшать – если среднее расстояние меньше минимального. Проблема такого подхода в том, что есть клиенты, у которых только один товар, и его кластеры будут является разновидностями этого товара. В этом случае расстояние будет очень маленьким. Попытка склеивания этих групп до допустимого диапазона приведет к формированию одного кластера. А есть клиенты, у которых интернет магазин, и в одном кластере бытовая техника, а в другом ювелирные изделия. В таком случае расстояние будет очень большим, разбиение же до допустимого диапазона даст очень большое число кластеров.

Для другого решения можно использовать название групп, а точнее количество слов и словосочетаний, которые это название формируют. Интуитивно понятно, что чем меньше слов или словосочетаний присутствует в названии группы, тем больше похожи запросы внутри группы. Если среднее число слов и словосочетаний в СЯ очень большое, это значит, что внутри каждой группы собралось очень много тем/предметов/услуг. И количество кластеров нужно увеличивать. При это если требовать, чтобы каждое название содержало ровно 1 слово или словосочетание, то это приведет к тому, что синонимичные понятия не будут объединяться в одну группу. Поэтому экспериментально был подобрал коэффициент, при достижении которого можно больше не увеличивать число кластеров. Этот коэффициент равен 1.3. Подобный подход работает достаточно хорошо для любых СЯ.

Общий алгоритм работы полученного инструмента:

  1. Очистка и нормализация запросов.
  2.   Получение векторного представления запросов с помощью Word2Vec.
  3. Кластеризация полученных векторов с заданным числом кластеров (по умолчанию = 3).
  4. Получение названий всех кластеров.
  5. Расчет среднего значения количества слов и словосочетаний в названиях кластеров. Если полученное значение больше 1.3, то возврат на пункт 3 с изменением числа кластеров (шаг увеличения = 3).
  6. Склейка исходных форм с базовой (одной нормальной форме может соответствовать несколько исходных) и вывод пользователю результатов.

Результат кластеризации с автоматическим определением числа кластеров:

Название кластера

Запросы

оборудование

клининговое оборудование

моющее оборудование

оборудование для клининга

уборочное оборудование

высокий давление аппарат

аренда аппарата высокого давления

ремонт аппарата высокого давления

керхер минимойка

купить минимойки керхер

купить минимойку керхер

минимойка керхер купить

минимойка керхер цена

минимойки керхер цена

ремонт,сервис

ремонт минимойки

ремонт подметальной машины

ремонт поломоечной машины

ремонт пылесосов

сервис поломоечной машины

сервис пылесосов

высокий давление

аппарат высокого давления

аппарат высокого давления купить

аппарат высокого давления отзывы

аппарат высокого давления цена

аппараты высокого давления

аппараты высокого давления купить

аппараты высокого давления отзывы

аппараты высокого давления цена

купить аппарат высокого давления

купить минимойку высокого давления

минимойка высокого давления

минимойки высокого давления

минимойки высокого давления купить

минимойка,пароочиститель

купить минимойку

купить пароочиститель

минимойка купить

минимойка отзывы

минимойка цена

минимойки купить

минимойки отзывы

минимойки цена

пароочистители купить

пароочиститель для дома

пароочиститель купить

пароочиститель цена

аренда

аренда коммунальной техники

аренда минимойки

аренда подметальной машины

аренда поломоечной машины

аренда пылесоса

аренда пылесосов

аренда уборочной техники

поломойка

ремонт поломойки

сервис поломойки

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Как мы увеличили число посетителей сайта на 89 000 человек и индекс качества на 30 единиц за 4 месяца
Никита Ширяев
4
комментария
0
читателей
Полный профиль
Никита Ширяев - Здравствуйте, 1. ТЗ на создание контента, это всего лишь одна из задач, которую мы делаем на проекте. 2. Получаемый текст обязательно проходит проверки на спам. 3. ТЗ на создание контента, это ориентир для авторов. 4. Как раз таки ТЗ помогает не переспамить в тексте, так как мы замеряем показатели ТОПа и ориентируемся на него. И опять приведу Вам скриншот, который подтверждает постоянный рост рейтинга домена. DR имеет сильную прогрессию.
Алексей Романенков (Rookee): как обеспечить проекту видимость в интернете и какими инструментами ее наращивать
Rookee
3
комментария
0
читателей
Полный профиль
Rookee - Добрый день. Взяли на заметку, спасибо. Чтобы не пропустить материал на тему репутационной стратегии от Алексея, следите за Rookee в соцсетях :)
Михаил Сливинский (Яндекс): об алгоритмах качества в поиске, сгенерированных текстах и накрутке ПФ
Анна Макарова
389
комментариев
0
читателей
Полный профиль
Анна Макарова - Владимир, спасибо за комментарий! Если вдруг Михаил сюда не придет, то мнением и мыслями можно напрямую поделиться в ТГ амбассадора. В этой новости оставляли контакт: www.seonews.ru/events/vebmasterskaya-2024-v-yandekse-poyavilsya-ambassador-internet-ploshchadok-v-poiske/
В какой поисковой системе продвигать финансовый сайт: выводы исследования Sape
Sape
3
комментария
0
читателей
Полный профиль
Sape - Добрый день! Спасибо за вашу обратную связь. Да, действительно, метрика DA не обновляется последние три месяца из-за проблем с поставщиком данных. Мы уже работаем над этим, в ближайшее время исправим. На данный момент для отбора сайтов в системе доступны десятки других метрик, которые обновляются регулярно. Касательно цен — с ними всё в порядке. Если у вас есть вопросы относительно ценообразования, мы готовы на них ответить. Благодарим, что поделились мнением. Мы всегда рады конструктивному диалогу!
Как вырастить трафик из блога в 9,7 раз за год. Кейс
Сергей Шабуров
1
комментарий
0
читателей
Полный профиль
Сергей Шабуров - Константин, здравствуйте! Лид-формы у нас прямо в статьях, так что трафик идет с самих статей.
Яндекс Маркет представил собственный бренд велосипедов Raskat
Анна Макарова
389
комментариев
0
читателей
Полный профиль
Анна Макарова - Для городского велосипеда 14-16 кг - вполне ок, можно сказать легкий. Почему нет? )) Понятно, что есть варианты и легче, но они уже скорее всего будут спортивного плана, где каждый грамм имеем значение.
Роскомнадзор заблокировал Discord в России за нарушение требований законодательства
Максим Федотов
2
комментария
0
читателей
Полный профиль
Максим Федотов - Пользуюсь впн для дискорда отдельно от игр, очень удобно Инструкции есть в боте t.me/dzenvpnbot?start=ref_jesacefajocedisa
Матвей Северянин дает экспертный отзыв: 788 000 ₽ за месяц на продаже Telegram-каналов – реально
Александр
1
комментарий
0
читателей
Полный профиль
Александр - Согласен с Матвеем. Сам покупаю- продаю Тг каналы на бирже : t.me/birga_prodagi_tg_kanalov - Биржа продажи ТГ каналов | Альянс-А
Зачем вам доверие поисковиков, как его укреплять и привлекать клиентов на сайт
Rookee
3
комментария
0
читателей
Полный профиль
Rookee - Рекомендуем задуматься как можно скорее, потому что даже только что созданный сайт чаще всего нуждается в оптимизации. Битые ссылки, лишние редиректы, низкая скорость загрузки - от всего этого нужно избавляться, чтобы сайт успешно продвигался в поиске и удерживал внимание пользователей. Тарифы на оптимизацию бывают разные, в Rookee базовая техническая оптимизация стоит 13 090, а в рамках Комплексного продвижения может обойтись дешевле или дороже в зависимости от потребностей сайта.
Как применить методики зарубежного SEO в Рунете
SEO manager
1
комментарий
0
читателей
Полный профиль
SEO manager - Спасибо! Михаил, как всегда!
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
389
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
120
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
64
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!