4 вызова, с которыми сталкиваются аналитики данных

Партнерский материал

За последние несколько лет аналитика данных превратилась из модного тренда в обязательный элемент развивающихся компаний. Анализ данных раскрывает новые возможности и точки роста: получив полезные инсайты, можно повысить эффективность как отдельных процессов, так и работу организации в целом. Если в компании нет такой должности, это значит только то, что данные в ней изучают другие люди – маркетологи, менеджеры и т.д.

Работа с большими объемами сырых данных связана с постоянным поиском новых инструментов, требующих специальных знаний. Но так как аналитикой данных занимается далеко не всегда аналитик (а иногда маркетолог или даже PR-менеджер), и таких специалистов редко много в штате, человек оказывается один на один со своими вопросами и проблемами.

В этой статье мы разберем, какие именно трудности возникают в работе аналитиков, и предложим решения.

Статья будет полезна тем, кто:

  • хочет стать аналитиком. Если вы давно хотите попробовать себя в анализе данных, но никак не решаетесь, в статье вы узнаете, чем аналитик занимается на ежедневной основе и какими инструментами он должен владеть.
  • уже работает аналитиком. Если вы уже работаете аналитиком, но чувствуете, что могли бы выполнять свою работу лучше, в статье вы узнаете, как это сделать.
  • сталкивается с анализом данных в работе. Если вы не аналитик, но вам приходится работать с данными, в статье вы найдете информацию, которая поможет упорядочить знания и справиться с возникающими проблемами.

Нехватка знаний в математике и статистике

Несмотря на пул инструментов, доступных для анализа, знание математики и статистики, а также наличие аналитического мышления повышают шансы стать высокоуровневым специалистом.

Если речь идет об анализе эффективности сайта, знание статистики поможет правильно классифицировать пользователей, избежать критических погрешностей в A/B-тестированиях и отделить ненужные данные низкого качества, оставляя только необходимые. А фундамент для успешного освоения статистики формирует математика.

Нехватка базовых знаний может негативно сказаться на скорости выполнения задач и результате в целом. Полностью исключить ошибки невозможно, однако можно минимизировать их количество.

Пример

Для проведения A/B-тестирования веб-аналитику необходимо не только «задать два разных цвета для кнопки», но и сформировать правильную гипотезу, верно сегментировать пользователей и исключить все погрешности и возможные ошибки в анализе результатов тестирования. Для этого и нужна статистика.

Решение

Изучение статистики в целом поможет проводить более качественные A/B-тесты. Углубленные знания математики и статистики с примерами применения в реальных задачах можно получить в рамках специализированного курса «Аналитик данных» от SkillFactory.

Проблемы со сбором разнородных данных

Для качественного анализа данных важно, чтобы на каждом этапе присутствовало минимальное количество ошибок. Перед сбором данных аналитику стоит тщательно продумать, откуда и как будет собираться информация. Далее ему стоит решить, как получить данные – вручную или с помощью алгоритма. Проблема заключается в том, что данные часто поступают из разных источников и в разных форматах, на ручной сбор уходит слишком много времени и сил, а многие аналитики не умеют использовать алгоритмы для автоматизированного сбора данных.

Пример

Например, аналитику нужно следить за эффективностью интернет-магазина, его упоминаниями в сети и сайтами-конкурентами. В таком случае на сбор данных вручную уйдет слишком много времени и сил.

Решение

Решением станет автоматический парсинг данных с помощью Python. Аналитик сможет создать алгоритм, который сам найдет и добавит в базу уже конвертированные данные, с которыми будет удобно работать.

Сложности в работе с базами данных

Аналитикам приходится работать с большим количеством данных, в которых запросто можно «утонуть». Практически всегда на начальном этапе аналитик имеет дело с сырой информацией. Сначала данные нужно «очистить» – проверить на дублирование, удалить лишние, устаревшие, противоречивые и некачественные – и привести в единообразный вид.

В качестве примера можно взять email-рассылки, которые есть у многих компаний. Часть пользователей, подписавшихся на рассылку, неверно написали email-адрес, другие – подписались дважды, сменив электронный адрес, а третьи оформили подписку давно и уже не пользуются тем почтовым ящиком. Если данные не очистить, эти, казалось бы, небольшие недочеты могут привести к тому, что специалист получит искаженную картину происходящего, например, посчитает неэффективной рассылку, которая на самом деле хорошо «зашла» клиентам. Неправильные выводы в этом случае могут привести к стратегически неверным решениям и, как следствие, к падению эффективности работы компании.

Пример

Приведем еще один пример. Аналитику мобильного приложения для тренировок поступило задание: исследовать поведение пользователей на этапе обучения и понять, влияет ли прохождение этого шага на частоту и величину выплат пользователей.

Решение

Для нахождения разницы между процентом пользователей, просмотревших обучение и совершившихся оплату, и тех, кто не прошел его до конца, нужно использовать данные из БД PostgreSQL и провести их анализ с помощью Python. После получения данных аналитику стоит провести их обзор и преобразование, выделить группы/когорты, рассчитать значения для каждой группы и сделать датафреймы, определить разницу в значениях.

Оперативный анализ и визуализация данных

Следующий шаг – анализ данных. Основная проблема заключается в том, что анализировать данные нужно как можно быстрее – чем раньше получены результаты, тем быстрее можно внедрить решение. К тому же некоторые данные быстро устаревают.

Помимо этого, данные не всегда удается визуализировать таким образом, чтобы донести до руководства все инсайты, полученные в ходе анализа. Сами по себе цифры лишены смысла, осмысленными их делает интерпретация.

От того, насколько убедительно будут представлены таблицы, графики и дашборды, зависит то, удастся ли аналитику донести до начальства текущее состояние и проблемы, над которыми нужно работать. Важно подобрать подходящую форму визуализации, в которой будут учтены все тенденции, нюансы и детали. К сожалению, визуализация данных – трудоемкий процесс, если делать все вручную.

Пример

Аналитик, работающий в онлайн-кинотеатре, может оказаться в следующей ситуации. Например, дела в компании идут хорошо: сервис набирает популярность, количество аудитории и платных подписчиков растет. И тут ему приходит задача: подготовить отчет для инвесторов о том, влияют ли просмотры трейлеров и рекомендаций на решение клиента о покупке.

Решение

Чтобы проанализировать показатели, нужно посчитать с помощью Python и сравнить по когортам конверсию в покупку двух типов пользователей: тех, кто видел и не видел трейлеры. Результаты можно визуализировать с помощью библиотек Matplotlib и Seaborn либо в Google Таблицах (Excel).

Вывод

Самое важное в любой области – систематизированные знания и сильная база, без которой работа может превратиться в мучение. Для аналитиков такой базой являются математика и статистика, умение работать с Excel/Google Таблицами, SQL и Python, способность выбрать подходящий для конкретной ситуации инструмент, а также понимание того, как визуализировать полученную информацию. Обычно теории недостаточно, требуется практика. Конечно, ее можно приобрести уже на рабочем месте, однако тогда ошибок в работе не избежать.

Систематизировать свои знания и попрактиковаться в аналитике без страха совершить ошибку можно в рамках фундаментального курса по аналитике данных. SkillFactory как раз запускает такой курс, в котором начинающие или уже работающие аналитики смогут получить все знания, необходимые для работы. До 15 октября записаться на курс можно со скидкой в 30%, достаточно при регистрации указать промокод SEOnews.

(Голосов: 12, Рейтинг: 3.83)