×
Россия +7 (495) 139-20-33

Выявление группы потенциальных клиентов, которые с высокой вероятностью заинтересуются услугами компании

Россия +7 (495) 139-20-33
Шрифт:
0 717

Гипотеза

Мы сделали предположение, что на основании параметров сайта + домена компании можно находить клиентов, которые с большей вероятностью заинтересуются определенным продуктом/услугами этой компании.

Проверка гипотезы

Первый этап: скачиваем все зарегистрированные домены .ru и рф. Ищем на главных страницах телефон и определяем регион по телефону. На этом же этапе отсеиваются все недоступные домены и домены без телефона. В первую очередь интересует Москва и МО. Именно среди этих доменов, будем производить отбор самых приоритетных (перспективных).

Второй этап - разметка параметров:

  • Количество проиндексированных страниц (Яндекса и Google)
  • Количество доменов и страниц, которые ссылаются на сайт
  • Раздел Яндекс каталога (если есть)
  • Количество просмотров и посетителей в день
  • Системы статистики (Яндекс Метрика, Google Analytics, Liveinternet и тд)
  • Социальная активность (количество пользователей в группе ВК, число твиттов и т.д)
  • Скорость загрузки страницы (абсолютный показатель в секундах и процент сайтов, которые медленнее нашего)
  • Количество внутренних и внешних ссылок
  • Наличие микроразметки
  • Местоположение сервера
  • Возраст домена
  • Настроен ли https и редирект www
  • Наличие sitemap и robots.txt
  • Видимость в Яндекс и Google

Все признаки размечались с помощью сервиса pr-cy.ru.

Следующим этапом была бинарная классификация:

  • те домены, по которым в нашей системе был хотя бы одна заявка, помечались как хорошие, т.е. имеющие класс 1;
  • в качестве плохих доменов, выбрали домены, по которым были неудачные попытки коммуникации с компанией.

Размеры полученных классов получились сильно разными, поэтому из нулевого класса случайно отобрали N объектов, где N- число объектов первого класса.

Обучение проводилось с помощью следующих инструментов:

  • Scikit-learn
  • XGBoost
  • CatBoost

Scikit-learn – библиотека для Python, в которое реализовано большое количество алгоритмов машинного обучения, как для задач классификации и регрессии, так и для обучения без учителя. Библиотека и имеет хорошую документацию, а также включает в себя ряд дополнительных методов, например, для оценки качества полученной модели.

XGBoost- библиотека с открытым исходным кодом, в основе которой лежит алгоритм градиентного бустинга. Широко известна среди сообщества Kaggle, где использовалась для большого количества соревнований.

CatBoost - это новая технология машинного обучения от Яндекса, особенностью которой является возможность обучать модели на разнородных данных, т.е. можно использовать категориальные признаки, без какой-либо предобработки. Отсюда и название технологии:

Cat (категориальный) + Boost (бустинг)

Категориальными называются признаки, которые могут принимать значения из конечного неупорядоченного множества. Примером может служить признак «Город», который принимает значения: Москва, Тула, Санкт-Петербург, Новгород. Классические методы машинного обучения с такими признаками работать не умеют, поэтому необходимы преобразований, например, one-hot кодирование. От этого недостатка CatBoost избавлен.

В нашей задаче категориальными являются признаки:

  • Раздел Яндекс каталога
  • Местоположение сервера
  • Системы статистики, установленные на сайте

Обучении проводилось 17 тысячах доменов. Использовалась стандартная KFold-валидация на 20 фолдах.

Результат RandomForestClassifier:

Орлов 1.png

Результат XGBClassifier:

Орлов 2.png

Результат CatBoostClassifier:

Орлов 3.png

CatBoost если и показал себя лучше, то совсем незначительно. Зато время обучения в несколько раз больше, чем у остальных классификаторов в этом эксперименте.

Классы были уравнены по количеству для обучения, но в реальности объектов из нулевого класса в 10 раз больше, поэтому нужно оценить, как полученная модель будет отрабатывать на реальном соотношении классов.

Для проверки были выбраны все данные, которые не участвовали в обучении. Полученный результат:

Орлов 4.png

Что мы получили:

Раньше, когда не было никакой фильтрации доменов, нам нужно было совершить 103 тысячи коммуникаций, из которых хороших только 8 тысяч, т.е. процент эффективности = 8168/103767=0.07

Если теперь использовать модель для выбора приоритетных доменов, т.е. будем выбирать домены с классом 1, то потребуется совершить 33242+6075 = 39317 коммуникаций, а процент эффективности будет равен 6075/39317 = 0.15 (6075 – число доменов, которые действительно являются хорошими, 39317- домены, которые классификатор определил, как хорошие), что в 2 раза выше старого варианта. Плохо то, что 2093 потенциальных клиентов будут потеряны, но если предположить, что потребуется 39 тысяч доменов в год, то через год повторяем процедуру и находим новых клиентов.

Чтобы еще улучшить результат попробуем построить регрессионную модель, а не классификатор. Тогда можно будет подобрать некоторый порог, по которому будем говорить хороший это домен или нет, таким образом, чтобы наш процент эффективности еще вырос.

XGBoost ранее показал себя оптимально и с точки зрения качества и с точки зрения скорости, поэтому дальше будем использовать его.

Порог = 0.6. Результат на всем множестве данных, не участвующих в обучении:

Орлов 5.png

В этом случае потребуется 17488+ 4722=22210 коммуникаций, а процент эффективности будет равен 4722/22210=0.21. Это выше предыдущего варианта, при этом коммуникаций требуется в 1.7 раза меньше, но и хороших доменов мы определим меньше.

Другой попыткой улучшения было внесение большего числа значений целевой переменной (вместо двух):

  1. если была заявка, целевая функция = 2
  2. если после заявки была продажа, целевая функция = 5
  3. если заявки не было, то целевая функция равна числу коммуникаций по домену со знаком минус (чем больше коммуницируем и не получаем лидов, тем менее интересен потенциальный клиент)

Качество модели получилось хуже, чем в предыдущих случаях. Вообще, в этой задаче качество низкое, но объяснить это можно достаточно просто:

  • во-первых, некоторые из доменов, которые сейчас помечены как плохие, т.е. без заявки, легко могут переходить в хороший класс, возможно там просто сейчас недостаточно коммуникаций. Это размазывает границу между классами.
  • во-вторых, доменные признаки скорее фильтрующие, т.е. если на сайте 5 страниц, нет счетчиков и сайту 3 месяца, то такой сайт нам не интересен, но, если есть домены с большим числом страниц, присутствующие в Яндекс каталоге и социально активные, то они наши потенциальные клиенты, но дальше вступают в силу другие факторы: нет ли у них уже поставщика наших услуг, устроит ли наше предложение и т.д.

Использование:

Для доменов, которые были получены на первом этапе и которые отсутствуют в нашей базе, получаем прогноз по модели. Осуществляем коммуникации по доменам, которые были отнесены к первому классу.

Результаты:

Несмотря на низкое качество полученной модели, ее использование может повысить эффективность коммуникаций почти в 2 раза, поэтому важно смотреть не только на цифры, важно искать пользу для бизнеса.

В ходе исследования было проведено знакомство с новой технологией – CatBoost, которая показала себя как достаточно хорошая по качеству, по крайней мере сопоставима с XGBoost, но очень медленная.

(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Ане Макаровой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Как выбрать CMS для интернет-магазина
Колян Гусляков
2
комментария
0
читателей
Полный профиль
Колян Гусляков - Если же у вас не получилось решить данную проблему, предлагаю воспользоваться авторской сборкой от neoseo. neoseo.ru/internet-magazin-seo-magazin-model. Они предоставляют дополнительные модули для работы и взаимодействия с вашим сайтом, современный дизайн, качественную оптимизацию и продвижение. Советую попробовать, не пожалеете.
«Юзабилити-лаборатория»: оставляйте заявку на участие!
Анна Макарова
378
комментариев
0
читателей
Полный профиль
Анна Макарова - Антон, добрый день! Ваш сайт не попал в основную выборку для юзабилити-анализа, но эксперты постараются сделать по вашему сайту видеоразбор (ю-ревью). Будем держать вас в курсе )
Тест по SEO – проверь свой уровень знаний
Артем Дорофеев
8
комментариев
0
читателей
Полный профиль
Артем Дорофеев - Полный текст вопроса со скриншотом панели прикладываю. Итого, что имеем: - на скриншоте отмечено, что это фильтр МПК - сайт коммерческий - рекламы на сайте нет С вероятностью 95% это ошибка (которая уже дважды случалась в Яндексе), когда они случайно "закосили" неповинные сайты. Тогда по запросу Платону фильтр быстренько снимали. Но вопрос даже не на знание этого нюанса. В любой непонятной ситуации, прежде чем что-либо предпринимать (особенно переписывать весь контент на сайте или менять дизайн, как указано в других вариантах) - фильтр следует подтвердить. Правильный ответ: "Написать письмо в техподдержку Яндекса".
Выбираем CMS для сайта с точки зрения SEO: базовые требования
SEO.RU
6
комментариев
0
читателей
Полный профиль
SEO.RU - Спасибо за замечание, действительно была допущена неточность - возможно информация была не так давно обновилась. Данные в статье поправим на актуальные.
Автоматические SEO-аудиты: как напугать некорректными выводами
Trydogolik
25
комментариев
0
читателей
Полный профиль
Trydogolik - спасибо
Зачем подменять контент на сайте: разбираем инструмент и развенчиваем мифы
Trydogolik
25
комментариев
0
читателей
Полный профиль
Trydogolik - К мифу 1 добавлю Google optimize optimize.google.com Удобен для сотрудников со спец. знаниями и без них. Подмена контента настраивается за счет многих вариантов страниц и условий настроек распределения трафика. Варианты страниц можно легко создать копипастом. На мой взгляд удобно и бесплатно. Тот же Calibri и программисты в любом случае, пусть не за это, но где-то берут свою комиссию. (чисто мое мнение). В качестве цены отдаешь такой ресурс как личное время и копейки за внесение двух первоначальных изменений в html шаблон страниц. Но если ваша digital-кампания имеет совесть то оплата максимум час, а то и бесплатно. Интернет-маркетолог сам должен уметь это делать. Все просто + подробную инструкцию прилагают на языке пользователя. + за поддомены платить не надо, они вообще не нужны. + взаимодействие с: - Google Ads; - Google Tag; - Google Analytics просто прекрасно отслеживается по всем вариантам параллельно. Это помогает до деталей нарисовать профиль ЦА по любому "кредиту - отдельно на машину и отдельно на бизнес". Что с аналитикой у Calibri на этот счет? Сам с Calibri не разу не работал, всегда работаю с первоисточником. + к мифу 3 в том что это и есть детище поисковой системы и рекламного инструмента. Яша тоже спокоен будет так как сам везде навязывает Турбо-страницы (считаю их не удобными).- Как "-" (минус) вижу то, что может повлиять на скорость загрузки сайта. Но если у вас не конструктор, а темболее Landing Page, то о скорости можно не волноваться. Но это чисто мое мнение. В остальном согласен с автором.
100+ ресурсов по SEO для изучения поисковой оптимизации с нуля
Марина Ибушева
59
комментариев
0
читателей
Полный профиль
Марина Ибушева - Спасибо за добавление. Мы уже работаем над отдельным материалом про курсы, потому что одной статьи мало, чтобы охватить все крутое по обучению)
7 способов увеличить авторитетность сайта «в глазах» поисковых систем
Grigo5
4
комментария
0
читателей
Полный профиль
Grigo5 - Понятно.
Монетизируйте свой сайт вместе с VIZTROM
VIZTROM
3
комментария
0
читателей
Полный профиль
VIZTROM - Добрый день! Так как мы сейчас работаем в приватном режиме, Вы врятли можете объективно оценить нашу рекламную площадку. У нас будет официальный запуск 3 марта для вебмастеров. Приглашаем Вас присоединиться к нам и лично посмотреть наш функционал.
SEO must go on! Почему в кризис нельзя останавливать продвижение сайта
everystraus
28
комментариев
0
читателей
Полный профиль
everystraus - Мы даже варианты не рассматривали. Если проект неустойчив, сразу предлагали сбавить обороты до минимума, но и так, чтоб не свалиться в штопор. Именно по СЕО чаще всего.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
378
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
140
Комментариев
121
Комментариев
111
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
88
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
59
Комментариев
57

Отправьте отзыв!
Отправьте отзыв!