×
Россия +7 (495) 139-20-33

Baltic Digital Days 2017: Текстовая аналитика

Россия +7 (495) 139-20-33
Шрифт:
0 6927

Продолжаем обзор программной части конференции Baltic Digital Days, которая уже в пятый раз проходит в Калининграде. Секцию «SEO в Европе и США» продолжил доклад Олега Саламахи, founder Serpstat, на тему «Текстовая аналитика».

Прежде всего, спикер напомнил слушателям о том, что в сервисе недавно появилась текстовая выгрузка и кластеризация, при помощи которой специально для доклада на BDD 2017 удалось сделать несколько выгрузок для выдачи США.

Традиционно SEO-специалистов волнуют следующие вопросы:

1. Сколько раз нужно «поспамить фразой»?

2. Как правильно спамить?

3. Какой размер текста нужно разместить на странице?

4. Как найти LSI-фразы?

5. Как проверить воду в тексте?

Озвучив эти вопросы, Олег пообещал дать исчерпывающие ответы на них, но немного не в том ключе, как этого обычно ожидают. На самом деле, однозначного и четкого ответа на этот вопрос нет – правильнее всего рассматривать определенные диапазоны показателей. Этот подход в математике носит название «Правило трех сигм» («three-sigma rule» или «68–95–99 rule»).

Вот почему имеет смысл применять статистический подход к ответу на перечисленные выше вопросы. С этой целью нужно:

1. Построить распределение метрик своих конкурентов в выдаче.

2. Исключить аномалии отсечением хвостов по «правилу трех сигм» (анализируя тем самым 68, 95 или 99% выборки). Это позволит убрать из рекомендации «Титанов», которые могут позволить себе слабую релевантность или переспам.

3. Составить рекомендационную базу, содержащую:

  • диапазон релевантности ключу;
  • диапазон приемлемой длины текста;
  • список LSI-слов и вероятностей их употребления конкурентами.

Подход к измерению релевантности.png

Что это значит для SEO-специалиста: если у вас есть определенный показатель, то нужно стараться, чтобы показатели не выходили за пределы данного диапазона. Максимальное отклонение – плюс-минус 30% от заданного числа.

В следующей части доклада спикер показал, как работает данное правило на примере разных выборок.

Релевантность

Что касается спамности (релевантности или тошнотности), то однозначного ответа на вопрос о том, сколько раз можно употребить конкретное слово в тексте, нет и не может быть. В каждой тематике, в каждом тексте и даже в каждом срезе будет свой ответ на этот вопрос. Однако, зная формулу релевантности, можно найти правильный ответ. Так, например, в компании Serpstat используют модифицированный алгоритм ВМ25, который способен учитывать немного больше факторов. В настоящее время данная возможность для клиентов включена в текстовый анализатор. В этом случае можно контролировать, насколько вы отходите от этой релевантности. При этом важно помнить, что диапазон попадания в нужные параметры колеблется в пределах 30% от среднего значения релевантности в ТОП по запросу. Это дает странице возможность на некоторое время оказаться в ТОПе. Также важно помнить, что помимо текстового ранжирования на нахождение сайта в ТОПе влияет масса других факторов.

Итак, SEO-специалисту не стоит забывать о том, что:

  • нужно контролировать переспам;
  • контролировать страницы с низкой релевантностью;
  • число в любой из формул ничего не значит, показатели необходимо сравнивать с конкурентами в тематике;
  • из-за большого количества факторов, невозможно провести reverse engineering;
  • нужны «веса слов».

Продолжая исследовать тему, специалисты Serpstat взяли выборку из нескольких тысяч запросов и нескольких десятков тысяч URL-ов, которые находятся в ТОП-10 выдачи. Посчитали среднюю релевантность в ТОП-10 по каждой фразе и разницу между средним значением и значением каждой страницы.

Графики распределения релевантности по коммерческим и информационным запросам получились следующими:

Распределение релевантности по коммерческим запросам.png

Как видно, показатели для основных сайтов по коммерческим запросам находятся в пределах обозначенных ранее 20–30%.

Распределение релевантности по информационным запросам.png

Важно отметить, что западном сегменте поисковая система гораздо лучше понимает текст, а в текстовых факторах используются не вхождения, а синонимы, связанные с тематикой. Здесь текстовая релевантность не играет столь большого значения. При этом нужно следить, чтобы показатель не уходил в крайнюю правую область графика. То есть важно избегать переспама.

В целом в западной выдаче лучше ранжируются статьи, в которых не только текст, но и дополнительные полезные пользователю элементы: видео, таблицы, карты и другие.

Выводы:

1. Релевантность в ТОПе сконцентрирована возле среднего значения (в Рунете намного больше аномалий).

2. Сколько нужно вхождений: /- 30% от средней релевантности в ТОПе.

3. Следить за переспамом можно с помощью % отклонения от среднего показателя в ТОПе.

4. В информационной̆ тематике дисперсия релевантности больше, чем в коммерческой̆, т.е. следить стоит больше за коммерческими запросами.

Аномалии в релевантности

Всегда интересно следить за сайтами, которые входят в ТОП выдачи, однако у них наблюдаются некоторые аномалии в релевантности. Чтобы выявить закономерности, был произведен анализ выдачи в регионе США для более чем 10 тысяч страниц. Анализировали выдачу по высокочастотным и среднечастотным фразам. Цель: найти в ТОПе сайты с низкой текстовой релевантностью (то есть сайты, которые не входят в средний процент).

Результаты оказались вполне закономерными, среди подобных сайтов:

ТОП-10 нерелевантных доменов.png

Далее возникает вопрос, как наполнить страницу с релевантной тематикой и как понять, что нужно изменить странице? Ответом может стать статистический анализ сайтов конкурентов, которые уже находятся в ТОПе.

Однако и тут могут возникать проблемы:

  • Как спарсить «чистый» текст со всех страниц из ТОПа (без «шапок», комментариев и прочих блоков).
  • Нужно ли использовать все страницы в выдаче для анализа (поиск своей тематики и анализ конкурентов из этой группы).
  • Какие именно слова советовать (какие слова важны). СПОЙЛЕР: простой фильтр стоп слов в данном случае не поможет.

Еще одним значимым аспектом продвижения в Google является использование слов из вектора тематики. Что касается поиска тематических слов автоматизированным способом, то здесь формула, казалось бы, проста:

Значимые слова у конкурентовСлова, которые уже есть у нас = Рекомендации

Но на самом деле здесь также присутствует определенная сложность. Прежде всего, это такие негативные явления, как:

  • При анализе конкурентов в выдаче всегда проявляется шум: брендовые фразы, стоп-слова.
  • В SERP несколько интентов. Это явление ярко выражено в США.
  • Страницы в одном кластере на разных языках.
  • Страницы разных тематик в одном кластере.
  • Анализ только текстовой составляющей (без навигации, хлебных крошек и т.п.).

В качестве решения можно использовать CF-TF-IDF ранжирование:

CF – как часто слово встречается в тематике.

TF – встречаемость в каждом тексте из тематики.

IDF – информативность слова [контролирует стоп слова].

Вывод: лучше всего использовать не переспам, а другие ключевые слова из тематики.

Слова, определяющие тематику.png

Далее на основе статистического анализа строят выводы.

Строим выводы на основе статистического анализа конкурентов.png

Чтобы проверить теорию, в Serpstat проанализировали несколько сотен кластеров запросов, разделили эти кластеры на два типа:

1. для обучения;

2. для проверки.

Проверили сколько рекомендованных слов содержит вторая выборка. Результат получился следующим:

Покрытие значимыми словами ТОПа (ком).png

Также проанализировали по информационным запросам – там больше значимых слов и их больше используют непосредственно в текстах страниц:

Покрытие значимыми словами ТОПа (инф).png

Чтобы написать качественные тексты, которые будут хорошо ранжироваться в Google, необходимо использовать значимые слова. Но здесь есть важная деталь: при сборе запросов формируется несколько тематик и нельзя конкурировать со всеми этими тематиками. Соответственно, надо выбирать тематику, которая наиболее подходит под вашу страницу. Serpstat использует алгоритм автоматического определения тематики вашего сайта и строит рекомендации, исходя из тематики страницы и тематик, представленных в ТОПе.

Для тех, кто интересуется вопросом, какой должна быть средняя длина текстового блока для коммерческих и информационных запросов, докладчик привел следующие результаты выборки по 10 тысячам сайтов.

Размер текста по коммерческим запросам.png

Размер текста по информационным запросам.png

Завершая свой доклад, Олег Саламаха поделился ссылками на полезные либы для работы с текстами. Они будут полезны тем, кто занимается автоматизированной разработкой:

(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Как работать с сервисом для блогеров и бизнеса Perfluence
SergZa
1
комментарий
0
читателей
Полный профиль
SergZa - Не знал, что с небольшим количеством подписчиков можно заработать, буду пробовать;)
Диагностика и снятие ссылочного фильтра «Минусинск» в 2021 году. Кейс
Stanislav Romanenko
7
комментариев
0
читателей
Полный профиль
Stanislav Romanenko - Просто чисткой ссылочного можно просадить позиции в гугле, поэтому с бухты-барахты начинать удалять ссылки как-то тоже не хотелось бы. Ну в общем, если попадётся ещё подобный случай - не стесняйтесь выкладывать новый кейс :) Просто видите как мало кейсов по этому поводу, поэтому каждый на вес золота. "с этой бедой также приходится сталкиваться и пока кроме как крутить в обратную сторону ничего лучше не придумали." - на серче один товарищ скрипт антибота своего под это дело заточил searchengines.guru/ru/forum/981615/page39#unread - вроде боты пропадают, но и часть живых людей тоже :)
Михаил Ляшенко (PostMarket): о рынке инфлюенс-маркетинга и рекламе у блогеров
Данил Щеглов
1
комментарий
0
читателей
Полный профиль
Данил Щеглов - Сервис вообще отличный. Я обращался для рекламы к блогерам, которых я мог даже сам выбрать. Справляются быстро и качественно.
Алгоритм продвижения сайта через Pinterest
Сергей Демин
9
комментариев
0
читателей
Полный профиль
Сергей Демин - Работает я так понимаю для инфо запросов в гугле?
Специалисты в Рунете заметили глобальную накрутку поведенческих факторов
Дмитрий Кулаевский
1
комментарий
0
читателей
Полный профиль
Дмитрий Кулаевский - кто-нибудь знает как с этим бороться? очень много такого трафа идёт с июля, сайт сильно просел
Как мы увеличили трафик из Яндекса более чем в 3 раза за неделю на сайте клиники. Кейс
Андрей
1
комментарий
0
читателей
Полный профиль
Андрей - У большинства сайтов произошел рост в Гугле в декабре и в марте Яндекса. Ваши шаманства тут не причём :)
Облако тегов в интернет-магазине: прикладная инструкция по увеличению трафика
Юлия Дмитриева
2
комментария
0
читателей
Полный профиль
Юлия Дмитриева - Согласна с вами, что в любом деле важен индивидуальный подход:)
Как забрать 5 мест в выдаче из 10. Кейс-эксперимент
Павел Берсенев
1
комментарий
0
читателей
Полный профиль
Павел Берсенев - Мы тоже такое делали, только по СЧ. vc.ru/marketing/226855-ohrana-perimetra-alternativa-polucheniya-100500-poziciy-v-tope-poiskovoy-vydachi
Локальное SEO, или Как увеличить трафик стоматологии на 700% в небольшом городе
Дмитрий Дмитриев
1
комментарий
0
читателей
Полный профиль
Дмитрий Дмитриев - расскажите, о чем именно речь? :)
Увеличение трафика новостного сайта в 2 раза с помощью SEO. Кейс
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Делали подобное тут ruszakony.ru/rubrikator/ , получилось полная фигня
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
385
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
113
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
92
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
67
Комментариев
62
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!