Выявление группы потенциальных клиентов, которые с высокой вероятностью заинтересуются услугами компании

Россия+7 (495) 960-65-87
Шрифт:
0 72

Гипотеза

Мы сделали предположение, что на основании параметров сайта + домена компании можно находить клиентов, которые с большей вероятностью заинтересуются определенным продуктом/услугами этой компании.

Проверка гипотезы

Первый этап: скачиваем все зарегистрированные домены .ru и рф. Ищем на главных страницах телефон и определяем регион по телефону. На этом же этапе отсеиваются все недоступные домены и домены без телефона. В первую очередь интересует Москва и МО. Именно среди этих доменов, будем производить отбор самых приоритетных (перспективных).

Второй этап - разметка параметров:

  • Количество проиндексированных страниц (Яндекса и Google)
  • Количество доменов и страниц, которые ссылаются на сайт
  • Раздел Яндекс каталога (если есть)
  • Количество просмотров и посетителей в день
  • Системы статистики (Яндекс Метрика, Google Analytics, Liveinternet и тд)
  • Социальная активность (количество пользователей в группе ВК, число твиттов и т.д)
  • Скорость загрузки страницы (абсолютный показатель в секундах и процент сайтов, которые медленнее нашего)
  • Количество внутренних и внешних ссылок
  • Наличие микроразметки
  • Местоположение сервера
  • Возраст домена
  • Настроен ли https и редирект www
  • Наличие sitemap и robots.txt
  • Видимость в Яндекс и Google

Все признаки размечались с помощью сервиса pr-cy.ru.

Следующим этапом была бинарная классификация:

  • те домены, по которым в нашей системе был хотя бы одна заявка, помечались как хорошие, т.е. имеющие класс 1;
  • в качестве плохих доменов, выбрали домены, по которым были неудачные попытки коммуникации с компанией.

Размеры полученных классов получились сильно разными, поэтому из нулевого класса случайно отобрали N объектов, где N- число объектов первого класса.

Обучение проводилось с помощью следующих инструментов:

  • Scikit-learn
  • XGBoost
  • CatBoost

Scikit-learn – библиотека для Python, в которое реализовано большое количество алгоритмов машинного обучения, как для задач классификации и регрессии, так и для обучения без учителя. Библиотека и имеет хорошую документацию, а также включает в себя ряд дополнительных методов, например, для оценки качества полученной модели.

XGBoost- библиотека с открытым исходным кодом, в основе которой лежит алгоритм градиентного бустинга. Широко известна среди сообщества Kaggle, где использовалась для большого количества соревнований.

CatBoost - это новая технология машинного обучения от Яндекса, особенностью которой является возможность обучать модели на разнородных данных, т.е. можно использовать категориальные признаки, без какой-либо предобработки. Отсюда и название технологии:

Cat (категориальный) + Boost (бустинг)

Категориальными называются признаки, которые могут принимать значения из конечного неупорядоченного множества. Примером может служить признак «Город», который принимает значения: Москва, Тула, Санкт-Петербург, Новгород. Классические методы машинного обучения с такими признаками работать не умеют, поэтому необходимы преобразований, например, one-hot кодирование. От этого недостатка CatBoost избавлен.

В нашей задаче категориальными являются признаки:

  • Раздел Яндекс каталога
  • Местоположение сервера
  • Системы статистики, установленные на сайте

Обучении проводилось 17 тысячах доменов. Использовалась стандартная KFold-валидация на 20 фолдах.

Результат RandomForestClassifier:

Орлов 1.png

Результат XGBClassifier:

Орлов 2.png

Результат CatBoostClassifier:

Орлов 3.png

CatBoost если и показал себя лучше, то совсем незначительно. Зато время обучения в несколько раз больше, чем у остальных классификаторов в этом эксперименте.

Классы были уравнены по количеству для обучения, но в реальности объектов из нулевого класса в 10 раз больше, поэтому нужно оценить, как полученная модель будет отрабатывать на реальном соотношении классов.

Для проверки были выбраны все данные, которые не участвовали в обучении. Полученный результат:

Орлов 4.png

Что мы получили:

Раньше, когда не было никакой фильтрации доменов, нам нужно было совершить 103 тысячи коммуникаций, из которых хороших только 8 тысяч, т.е. процент эффективности = 8168/103767=0.07

Если теперь использовать модель для выбора приоритетных доменов, т.е. будем выбирать домены с классом 1, то потребуется совершить 33242+6075 = 39317 коммуникаций, а процент эффективности будет равен 6075/39317 = 0.15 (6075 – число доменов, которые действительно являются хорошими, 39317- домены, которые классификатор определил, как хорошие), что в 2 раза выше старого варианта. Плохо то, что 2093 потенциальных клиентов будут потеряны, но если предположить, что потребуется 39 тысяч доменов в год, то через год повторяем процедуру и находим новых клиентов.

Чтобы еще улучшить результат попробуем построить регрессионную модель, а не классификатор. Тогда можно будет подобрать некоторый порог, по которому будем говорить хороший это домен или нет, таким образом, чтобы наш процент эффективности еще вырос.

XGBoost ранее показал себя оптимально и с точки зрения качества и с точки зрения скорости, поэтому дальше будем использовать его.

Порог = 0.6. Результат на всем множестве данных, не участвующих в обучении:

Орлов 5.png

В этом случае потребуется 17488+ 4722=22210 коммуникаций, а процент эффективности будет равен 4722/22210=0.21. Это выше предыдущего варианта, при этом коммуникаций требуется в 1.7 раза меньше, но и хороших доменов мы определим меньше.

Другой попыткой улучшения было внесение большего числа значений целевой переменной (вместо двух):

  1. если была заявка, целевая функция = 2
  2. если после заявки была продажа, целевая функция = 5
  3. если заявки не было, то целевая функция равна числу коммуникаций по домену со знаком минус (чем больше коммуницируем и не получаем лидов, тем менее интересен потенциальный клиент)

Качество модели получилось хуже, чем в предыдущих случаях. Вообще, в этой задаче качество низкое, но объяснить это можно достаточно просто:

  • во-первых, некоторые из доменов, которые сейчас помечены как плохие, т.е. без заявки, легко могут переходить в хороший класс, возможно там просто сейчас недостаточно коммуникаций. Это размазывает границу между классами.
  • во-вторых, доменные признаки скорее фильтрующие, т.е. если на сайте 5 страниц, нет счетчиков и сайту 3 месяца, то такой сайт нам не интересен, но, если есть домены с большим числом страниц, присутствующие в Яндекс каталоге и социально активные, то они наши потенциальные клиенты, но дальше вступают в силу другие факторы: нет ли у них уже поставщика наших услуг, устроит ли наше предложение и т.д.

Использование:

Для доменов, которые были получены на первом этапе и которые отсутствуют в нашей базе, получаем прогноз по модели. Осуществляем коммуникации по доменам, которые были отнесены к первому классу.

Результаты:

Несмотря на низкое качество полученной модели, ее использование может повысить эффективность коммуникаций почти в 2 раза, поэтому важно смотреть не только на цифры, важно искать пользу для бизнеса.

В ходе исследования было проведено знакомство с новой технологией – CatBoost, которая показала себя как достаточно хорошая по качеству, по крайней мере сопоставима с XGBoost, но очень медленная.

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Кейс: как продвинуть сайт производителя мебели на заказ в Москве
    Art Moderator
    2
    комментария
    0
    читателей
    Полный профиль
    Art Moderator -
    32 инструмента в помощь SEO-специалисту
    clark
    3
    комментария
    0
    читателей
    Полный профиль
    clark - Я - г-н Марк Джо из корпорации corp, мы являемся законной, зарегистрированной и гарантированной кредитной компанией, мы предоставляем 3% -ые кредиты частным лицам, компаниям, государственным учреждениям и деловым организациям и людям всех родов. Свободные кредиты - это решение всех ваших финансовых проблем. свяжитесь с нами по электронной почте: mjoe0123@gmail.com
    Исследование: влияние smart-ссылок на продвижение по СЧ-запросам
    Анатолий Шевчик
    1
    комментарий
    0
    читателей
    Полный профиль
    Анатолий Шевчик - +1097988
    Контекст под SEO. Как поисковая реклама помогает позициям в органической выдаче
    Сергей Дембицкий «Sima-Land.ru»
    22
    комментария
    0
    читателей
    Полный профиль
    Сергей Дембицкий «Sima-Land.ru» - Боже мой, неужели SEO-маги вернулись??? Открыть в роботс utm-метки для индексации и наплодить дублей...что? А расчеты в конце статьи про бюджет на SEO и контекст...откуда эти пропорции? Как по мне, SEO-магия вне Хогвартс. Спасибо, развеселили!
    Все, что нужно SEO-специалисту. Обзор инструментов
    Администратор Сайта
    1
    комментарий
    1
    читатель
    Полный профиль
    Администратор Сайта - Шаришь в seo! Сервис реально хороший
    Два идеальных способа разориться на старте интернет-магазина
    Стас
    4
    комментария
    0
    читателей
    Полный профиль
    Стас - Seonews в последнее время такую чушь несет! Где вы таких афторов находите? Статья ничего не стоит и несет чушь! Кто хоть немного понимает в этом так вам и скажет, и такие де комментаторы горе-сеошники, просто смешно читать, вы хоть модерируете ваши статьи или просто для воды на сайте?! Бред сивой кобылы эта статья до самой последней точки!!!
    4 способа быстро собрать теги для сайта
    Рустем Низамутинов
    5
    комментариев
    0
    читателей
    Полный профиль
    Рустем Низамутинов - Расписал и закинул в Google Docs, а то здесь в комментариях ссылки на активны. docs.google.com/document/d/1r0TZLNrQyYLdIzDQsD5YKlMG41HUGQgEep3bxE_ij-M/edit?usp=sharing
    Яндекс перестал индексировать сайты, созданные на Wix
    Константин Даткунас
    3
    комментария
    0
    читателей
    Полный профиль
    Константин Даткунас - Было бы интересно посмотреть саму выборку из 10 000 и методику анализа.
    Яндекс: как мы модерируем объявления
    Гость
    5
    комментариев
    0
    читателей
    Полный профиль
    Гость - Это ж Яндекс, чего вы ожидали-то? Коммерческая структура с раздутым штатом, задачей которой является заработать больше денег. Любыми методами. Задача всех пользователей посадить на Директ, даже если придется разрушить суть рунета, реализуется по полной программе. Все возражающие караются и выпиливаются. И каждый из сотрудников делает все возможное и невозможное, чтобы реализовать любую дурацкую идею - за это еще и премию выхватить можно. Даже если потом придется выполнять "откат", премиальные уже заплачены. Так было с одним из фильтров Яндекса, так было с купленным им сайтом Кинопоиска, который из русскоязычной энциклопедии кино был превращен за безумные деньги в банальный платный онлайн-кинотеатр.
    Как мы разработали и вывели в ТОП сайт курсов рисования
    Иван Стороженко
    21
    комментарий
    0
    читателей
    Полный профиль
    Иван Стороженко - Добрый день. 1)Чаще всего основная проблема заключается, в согласовании с клиентом добавляемого контента и то как он будет отображаться. На данном сайте фото и услуги конечно предоставлял клиент, все остальное уже делали мы. 2)Да в принципе, когда есть команда и понимание, что нужно делать, все идет быстро (опять же основная заминка идет на согласовании с клиентом) 3)Смысла делать новый в данном случает нет. В принципе доделывался полноценный сайт. 4)Когда клиент уже не предоставляет информацию, приходится искать у конкурентов (например с других стран или регионов). Но чаще всего клиент, хоть что-то "подкидывает".
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    325
    Комментариев
    262
    Комментариев
    234
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    86
    Комментариев
    80
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    57
    Комментариев
    55
    Комментариев
    54
    Комментариев
    53

    Отправьте отзыв!
    Отправьте отзыв!