×
Партнерская программа
с выгодой до 35%
Россия +7 (495) 139-20-33

Baltic Digital Days 2017: Текстовая аналитика

Россия +7 (495) 139-20-33
Шрифт:
0 6297

Продолжаем обзор программной части конференции Baltic Digital Days, которая уже в пятый раз проходит в Калининграде. Секцию «SEO в Европе и США» продолжил доклад Олега Саламахи, founder Serpstat, на тему «Текстовая аналитика».

Прежде всего, спикер напомнил слушателям о том, что в сервисе недавно появилась текстовая выгрузка и кластеризация, при помощи которой специально для доклада на BDD 2017 удалось сделать несколько выгрузок для выдачи США.

Традиционно SEO-специалистов волнуют следующие вопросы:

1. Сколько раз нужно «поспамить фразой»?

2. Как правильно спамить?

3. Какой размер текста нужно разместить на странице?

4. Как найти LSI-фразы?

5. Как проверить воду в тексте?

Озвучив эти вопросы, Олег пообещал дать исчерпывающие ответы на них, но немного не в том ключе, как этого обычно ожидают. На самом деле, однозначного и четкого ответа на этот вопрос нет – правильнее всего рассматривать определенные диапазоны показателей. Этот подход в математике носит название «Правило трех сигм» («three-sigma rule» или «68–95–99 rule»).

Вот почему имеет смысл применять статистический подход к ответу на перечисленные выше вопросы. С этой целью нужно:

1. Построить распределение метрик своих конкурентов в выдаче.

2. Исключить аномалии отсечением хвостов по «правилу трех сигм» (анализируя тем самым 68, 95 или 99% выборки). Это позволит убрать из рекомендации «Титанов», которые могут позволить себе слабую релевантность или переспам.

3. Составить рекомендационную базу, содержащую:

  • диапазон релевантности ключу;
  • диапазон приемлемой длины текста;
  • список LSI-слов и вероятностей их употребления конкурентами.

Подход к измерению релевантности.png

Что это значит для SEO-специалиста: если у вас есть определенный показатель, то нужно стараться, чтобы показатели не выходили за пределы данного диапазона. Максимальное отклонение – плюс-минус 30% от заданного числа.

В следующей части доклада спикер показал, как работает данное правило на примере разных выборок.

Релевантность

Что касается спамности (релевантности или тошнотности), то однозначного ответа на вопрос о том, сколько раз можно употребить конкретное слово в тексте, нет и не может быть. В каждой тематике, в каждом тексте и даже в каждом срезе будет свой ответ на этот вопрос. Однако, зная формулу релевантности, можно найти правильный ответ. Так, например, в компании Serpstat используют модифицированный алгоритм ВМ25, который способен учитывать немного больше факторов. В настоящее время данная возможность для клиентов включена в текстовый анализатор. В этом случае можно контролировать, насколько вы отходите от этой релевантности. При этом важно помнить, что диапазон попадания в нужные параметры колеблется в пределах 30% от среднего значения релевантности в ТОП по запросу. Это дает странице возможность на некоторое время оказаться в ТОПе. Также важно помнить, что помимо текстового ранжирования на нахождение сайта в ТОПе влияет масса других факторов.

Итак, SEO-специалисту не стоит забывать о том, что:

  • нужно контролировать переспам;
  • контролировать страницы с низкой релевантностью;
  • число в любой из формул ничего не значит, показатели необходимо сравнивать с конкурентами в тематике;
  • из-за большого количества факторов, невозможно провести reverse engineering;
  • нужны «веса слов».

Продолжая исследовать тему, специалисты Serpstat взяли выборку из нескольких тысяч запросов и нескольких десятков тысяч URL-ов, которые находятся в ТОП-10 выдачи. Посчитали среднюю релевантность в ТОП-10 по каждой фразе и разницу между средним значением и значением каждой страницы.

Графики распределения релевантности по коммерческим и информационным запросам получились следующими:

Распределение релевантности по коммерческим запросам.png

Как видно, показатели для основных сайтов по коммерческим запросам находятся в пределах обозначенных ранее 20–30%.

Распределение релевантности по информационным запросам.png

Важно отметить, что западном сегменте поисковая система гораздо лучше понимает текст, а в текстовых факторах используются не вхождения, а синонимы, связанные с тематикой. Здесь текстовая релевантность не играет столь большого значения. При этом нужно следить, чтобы показатель не уходил в крайнюю правую область графика. То есть важно избегать переспама.

В целом в западной выдаче лучше ранжируются статьи, в которых не только текст, но и дополнительные полезные пользователю элементы: видео, таблицы, карты и другие.

Выводы:

1. Релевантность в ТОПе сконцентрирована возле среднего значения (в Рунете намного больше аномалий).

2. Сколько нужно вхождений: +/- 30% от средней релевантности в ТОПе.

3. Следить за переспамом можно с помощью % отклонения от среднего показателя в ТОПе.

4. В информационной̆ тематике дисперсия релевантности больше, чем в коммерческой̆, т.е. следить стоит больше за коммерческими запросами.

Аномалии в релевантности

Всегда интересно следить за сайтами, которые входят в ТОП выдачи, однако у них наблюдаются некоторые аномалии в релевантности. Чтобы выявить закономерности, был произведен анализ выдачи в регионе США для более чем 10 тысяч страниц. Анализировали выдачу по высокочастотным и среднечастотным фразам. Цель: найти в ТОПе сайты с низкой текстовой релевантностью (то есть сайты, которые не входят в средний процент).

Результаты оказались вполне закономерными, среди подобных сайтов:

ТОП-10 нерелевантных доменов.png

Далее возникает вопрос, как наполнить страницу с релевантной тематикой и как понять, что нужно изменить странице? Ответом может стать статистический анализ сайтов конкурентов, которые уже находятся в ТОПе.

Однако и тут могут возникать проблемы:

  • Как спарсить «чистый» текст со всех страниц из ТОПа (без «шапок», комментариев и прочих блоков).
  • Нужно ли использовать все страницы в выдаче для анализа (поиск своей тематики и анализ конкурентов из этой группы).
  • Какие именно слова советовать (какие слова важны). СПОЙЛЕР: простой фильтр стоп слов в данном случае не поможет.

Еще одним значимым аспектом продвижения в Google является использование слов из вектора тематики. Что касается поиска тематических слов автоматизированным способом, то здесь формула, казалось бы, проста:

Значимые слова у конкурентовСлова, которые уже есть у нас = Рекомендации

Но на самом деле здесь также присутствует определенная сложность. Прежде всего, это такие негативные явления, как:

  • При анализе конкурентов в выдаче всегда проявляется шум: брендовые фразы, стоп-слова.
  • В SERP несколько интентов. Это явление ярко выражено в США.
  • Страницы в одном кластере на разных языках.
  • Страницы разных тематик в одном кластере.
  • Анализ только текстовой составляющей (без навигации, хлебных крошек и т.п.).

В качестве решения можно использовать CF-TF-IDF ранжирование:

CF – как часто слово встречается в тематике.

TF – встречаемость в каждом тексте из тематики.

IDF – информативность слова [контролирует стоп слова].

Вывод: лучше всего использовать не переспам, а другие ключевые слова из тематики.

Слова, определяющие тематику.png

Далее на основе статистического анализа строят выводы.

Строим выводы на основе статистического анализа конкурентов.png

Чтобы проверить теорию, в Serpstat проанализировали несколько сотен кластеров запросов, разделили эти кластеры на два типа:

1. для обучения;

2. для проверки.

Проверили сколько рекомендованных слов содержит вторая выборка. Результат получился следующим:

Покрытие значимыми словами ТОПа (ком).png

Также проанализировали по информационным запросам – там больше значимых слов и их больше используют непосредственно в текстах страниц:

Покрытие значимыми словами ТОПа (инф).png

Чтобы написать качественные тексты, которые будут хорошо ранжироваться в Google, необходимо использовать значимые слова. Но здесь есть важная деталь: при сборе запросов формируется несколько тематик и нельзя конкурировать со всеми этими тематиками. Соответственно, надо выбирать тематику, которая наиболее подходит под вашу страницу. Serpstat использует алгоритм автоматического определения тематики вашего сайта и строит рекомендации, исходя из тематики страницы и тематик, представленных в ТОПе.

Для тех, кто интересуется вопросом, какой должна быть средняя длина текстового блока для коммерческих и информационных запросов, докладчик привел следующие результаты выборки по 10 тысячам сайтов.

Размер текста по коммерческим запросам.png

Размер текста по информационным запросам.png

Завершая свой доклад, Олег Саламаха поделился ссылками на полезные либы для работы с текстами. Они будут полезны тем, кто занимается автоматизированной разработкой:

(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Ане Макаровой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Что скрывает «Прогноз бюджета Яндекс.Директ»?
Михаил Мухин
15
комментариев
0
читателей
Полный профиль
Михаил Мухин - Здравствуйте! 1-2. Считает стенд. Ссылка на него дана, но могу повторить: online.p-c-l.ru/competition/task/card/id/106. Нажмите на кнопку "Начать" и заранее приготовьте прогноз бюджета Яндекс. Суть расчета: перебор комбинаций всех ставок на всех фразах, построение бюджетных когорт - бюджетов с одинаковым СРС, отбор в каждой когорте бюджета с максимальным количеством кликов и ..., да упорядочивание этих бюджетов по мере возрастания СРС, причем берем не все, а с фиксированным шагом. 3. Гугл считается через поправочные коэффициенты. Мы перевариваем океан данных и представляем их. На удивление, получается не менее, хотя и не более точно, как и прогноз Яндекс. Конечно, нужно понимать, что это очень примерные прикидки, фактически перевод неточного прогноза Яндекс в удобочитаемую форму, не больше. Самое интересное начинается, когда применяешь метод бюджетных когорт к измерению показателей фраз на реальной рекламной кампании в режиме 48х7. Первые результаты очень хорошие. Если хотите присоединиться к бесплатному тестированию, напишите Эльвире r-support@r-broker.ru. В теме укажите "хочу присоединиться к тестам Умного управления рекламой"
Ссылочное продвижение локальных сайтов: ТОП худших SEO-методов
demimurych
8
комментариев
0
читателей
Полный профиль
demimurych - о господи. это для регионального сайта? в яндексе? где у сайта по региону конкурентов меньше чем выдачи на двух страницах из которых перваш это реклама москвы? потешно ей богу. ктото чего то не понеимает.
Зачем подменять контент на сайте: разбираем инструмент и развенчиваем мифы
Дмитрий Сульман
4
комментария
0
читателей
Полный профиль
Дмитрий Сульман - Все верно, об этом я и говорю. У крупных компаний есть много данных и они имеют доступ к дорогим технологиям и решениям для персонализации контента. Топовые западные сервисы для персонализации, такие как RichRelevance или Dynamic Yield, стоят от нескольких тысяч до десятков тысяч долларов в месяц. Понятно, что малый бизнес не может себе этого позволить. Да даже если бы чисто теоретически и мог, то это вряд ли бы имело хоть какой-то смысл. Во-первых, у малого бизнеса недостаточно данных, чтобы подобные алгоритмы персонализации начали эффективно работать, а во-вторых, тот профит, который МСБ получит от персонализации, никогда не покроет таких расходов. Мы же предлагаем решение, доступное как раз для малого и среднего бизнеса. При этом наше решение комплексное: МультиЧат - это одновременно и инструмент для персонализации, и для коммуникации.
От мечты стать юристом к собственному SMM-агентству. Как найти себя в современном цифровом мире
Виктор Брухис
5
комментариев
0
читателей
Полный профиль
Виктор Брухис - Статья выглядит так, как пожелали редакторы и интервьюер) Вопросы к интервью подбирал не я)) Хотя, в целом я согласен с вашим видением. А за пожелание удачи большое спасибо!
Монетизируйте свой сайт вместе с VIZTROM
VIZTROM
3
комментария
0
читателей
Полный профиль
VIZTROM - Добрый день! Так как мы сейчас работаем в приватном режиме, Вы врятли можете объективно оценить нашу рекламную площадку. У нас будет официальный запуск 3 марта для вебмастеров. Приглашаем Вас присоединиться к нам и лично посмотреть наш функционал.
Как выбрать CMS для интернет-магазина
Константин Елистратов
5
комментариев
0
читателей
Полный профиль
Константин Елистратов - Бесплатный движок со всеми описанными в статье плюсами и минусами :-)
Digital-разговор: Михаил Шакин про SEO, Google и заработок в интернете
Анна Макарова
368
комментариев
0
читателей
Полный профиль
Анна Макарова - Подготовим ) Пока предлагаю почитать интервью с Денисом Нарижным из той же серии. Там стенограмма =) www.seonews.ru/interviews/digital-razgovor-denis-narizhnyy-pro-ukhod-iz-seo-i-zarabotok-na-partnerkakh/
Как удвоить выручку за счет продвижения в поиске. Кейс coffee-butik.ru
Максим Боровой
3
комментария
0
читателей
Полный профиль
Максим Боровой - Последний вопрос (извиняюсь за количество) - почему на "В корзину" стоит Nofollow. Осознанно для распределение весов?
Где SEO-специалист может углубить свои навыки в области поискового продвижения
Ирина Полинина
1
комментарий
0
читателей
Полный профиль
Ирина Полинина - Полезно! Спасибо
Кейс Hansa: как увеличить органический трафик в 1,5 раза
Алексей Порфирьев
3
комментария
0
читателей
Полный профиль
Алексей Порфирьев - Спасибо за замечание, о данной проблеме известно, но она не стоит в порядке приоритетных. Вопрос, на самом деле, дискуссионный. В тематике конкуренция не настолько велика, а в топе выдачи часто встречаются сайты с более серьёзными техническими проблемами. По этому, именно в статьях, более важно работать над релевантностью контента, отношением времени пользователя на странице к уровню доскрола, и различным пользовательским функционалом (рейтинг материала, просмотры и т. п.).
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
368
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
139
Комментариев
121
Комментариев
108
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
85
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
56

Отправьте отзыв!
Отправьте отзыв!