Baltic Digital Days 2017: Текстовая аналитика

Россия+7 (495) 960-65-87
Шрифт:
0 5385

Продолжаем обзор программной части конференции Baltic Digital Days, которая уже в пятый раз проходит в Калининграде. Секцию «SEO в Европе и США» продолжил доклад Олега Саламахи, founder Serpstat, на тему «Текстовая аналитика».

Прежде всего, спикер напомнил слушателям о том, что в сервисе недавно появилась текстовая выгрузка и кластеризация, при помощи которой специально для доклада на BDD 2017 удалось сделать несколько выгрузок для выдачи США.

Традиционно SEO-специалистов волнуют следующие вопросы:

1. Сколько раз нужно «поспамить фразой»?

2. Как правильно спамить?

3. Какой размер текста нужно разместить на странице?

4. Как найти LSI-фразы?

5. Как проверить воду в тексте?

Озвучив эти вопросы, Олег пообещал дать исчерпывающие ответы на них, но немного не в том ключе, как этого обычно ожидают. На самом деле, однозначного и четкого ответа на этот вопрос нет – правильнее всего рассматривать определенные диапазоны показателей. Этот подход в математике носит название «Правило трех сигм» («three-sigma rule» или «68–95–99 rule»).

Вот почему имеет смысл применять статистический подход к ответу на перечисленные выше вопросы. С этой целью нужно:

1. Построить распределение метрик своих конкурентов в выдаче.

2. Исключить аномалии отсечением хвостов по «правилу трех сигм» (анализируя тем самым 68, 95 или 99% выборки). Это позволит убрать из рекомендации «Титанов», которые могут позволить себе слабую релевантность или переспам.

3. Составить рекомендационную базу, содержащую:

  • диапазон релевантности ключу;
  • диапазон приемлемой длины текста;
  • список LSI-слов и вероятностей их употребления конкурентами.

Подход к измерению релевантности.png

Что это значит для SEO-специалиста: если у вас есть определенный показатель, то нужно стараться, чтобы показатели не выходили за пределы данного диапазона. Максимальное отклонение – плюс-минус 30% от заданного числа.

В следующей части доклада спикер показал, как работает данное правило на примере разных выборок.

Релевантность

Что касается спамности (релевантности или тошнотности), то однозначного ответа на вопрос о том, сколько раз можно употребить конкретное слово в тексте, нет и не может быть. В каждой тематике, в каждом тексте и даже в каждом срезе будет свой ответ на этот вопрос. Однако, зная формулу релевантности, можно найти правильный ответ. Так, например, в компании Serpstat используют модифицированный алгоритм ВМ25, который способен учитывать немного больше факторов. В настоящее время данная возможность для клиентов включена в текстовый анализатор. В этом случае можно контролировать, насколько вы отходите от этой релевантности. При этом важно помнить, что диапазон попадания в нужные параметры колеблется в пределах 30% от среднего значения релевантности в ТОП по запросу. Это дает странице возможность на некоторое время оказаться в ТОПе. Также важно помнить, что помимо текстового ранжирования на нахождение сайта в ТОПе влияет масса других факторов.

Итак, SEO-специалисту не стоит забывать о том, что:

  • нужно контролировать переспам;
  • контролировать страницы с низкой релевантностью;
  • число в любой из формул ничего не значит, показатели необходимо сравнивать с конкурентами в тематике;
  • из-за большого количества факторов, невозможно провести reverse engineering;
  • нужны «веса слов».

Продолжая исследовать тему, специалисты Serpstat взяли выборку из нескольких тысяч запросов и нескольких десятков тысяч URL-ов, которые находятся в ТОП-10 выдачи. Посчитали среднюю релевантность в ТОП-10 по каждой фразе и разницу между средним значением и значением каждой страницы.

Графики распределения релевантности по коммерческим и информационным запросам получились следующими:

Распределение релевантности по коммерческим запросам.png

Как видно, показатели для основных сайтов по коммерческим запросам находятся в пределах обозначенных ранее 20–30%.

Распределение релевантности по информационным запросам.png

Важно отметить, что западном сегменте поисковая система гораздо лучше понимает текст, а в текстовых факторах используются не вхождения, а синонимы, связанные с тематикой. Здесь текстовая релевантность не играет столь большого значения. При этом нужно следить, чтобы показатель не уходил в крайнюю правую область графика. То есть важно избегать переспама.

В целом в западной выдаче лучше ранжируются статьи, в которых не только текст, но и дополнительные полезные пользователю элементы: видео, таблицы, карты и другие.

Выводы:

1. Релевантность в ТОПе сконцентрирована возле среднего значения (в Рунете намного больше аномалий).

2. Сколько нужно вхождений: +/- 30% от средней релевантности в ТОПе.

3. Следить за переспамом можно с помощью % отклонения от среднего показателя в ТОПе.

4. В информационной̆ тематике дисперсия релевантности больше, чем в коммерческой̆, т.е. следить стоит больше за коммерческими запросами.

Аномалии в релевантности

Всегда интересно следить за сайтами, которые входят в ТОП выдачи, однако у них наблюдаются некоторые аномалии в релевантности. Чтобы выявить закономерности, был произведен анализ выдачи в регионе США для более чем 10 тысяч страниц. Анализировали выдачу по высокочастотным и среднечастотным фразам. Цель: найти в ТОПе сайты с низкой текстовой релевантностью (то есть сайты, которые не входят в средний процент).

Результаты оказались вполне закономерными, среди подобных сайтов:

ТОП-10 нерелевантных доменов.png

Далее возникает вопрос, как наполнить страницу с релевантной тематикой и как понять, что нужно изменить странице? Ответом может стать статистический анализ сайтов конкурентов, которые уже находятся в ТОПе.

Однако и тут могут возникать проблемы:

  • Как спарсить «чистый» текст со всех страниц из ТОПа (без «шапок», комментариев и прочих блоков).
  • Нужно ли использовать все страницы в выдаче для анализа (поиск своей тематики и анализ конкурентов из этой группы).
  • Какие именно слова советовать (какие слова важны). СПОЙЛЕР: простой фильтр стоп слов в данном случае не поможет.

Еще одним значимым аспектом продвижения в Google является использование слов из вектора тематики. Что касается поиска тематических слов автоматизированным способом, то здесь формула, казалось бы, проста:

Значимые слова у конкурентовСлова, которые уже есть у нас = Рекомендации

Но на самом деле здесь также присутствует определенная сложность. Прежде всего, это такие негативные явления, как:

  • При анализе конкурентов в выдаче всегда проявляется шум: брендовые фразы, стоп-слова.
  • В SERP несколько интентов. Это явление ярко выражено в США.
  • Страницы в одном кластере на разных языках.
  • Страницы разных тематик в одном кластере.
  • Анализ только текстовой составляющей (без навигации, хлебных крошек и т.п.).

В качестве решения можно использовать CF-TF-IDF ранжирование:

CF – как часто слово встречается в тематике.

TF – встречаемость в каждом тексте из тематики.

IDF – информативность слова [контролирует стоп слова].

Вывод: лучше всего использовать не переспам, а другие ключевые слова из тематики.

Слова, определяющие тематику.png

Далее на основе статистического анализа строят выводы.

Строим выводы на основе статистического анализа конкурентов.png

Чтобы проверить теорию, в Serpstat проанализировали несколько сотен кластеров запросов, разделили эти кластеры на два типа:

1. для обучения;

2. для проверки.

Проверили сколько рекомендованных слов содержит вторая выборка. Результат получился следующим:

Покрытие значимыми словами ТОПа (ком).png

Также проанализировали по информационным запросам – там больше значимых слов и их больше используют непосредственно в текстах страниц:

Покрытие значимыми словами ТОПа (инф).png

Чтобы написать качественные тексты, которые будут хорошо ранжироваться в Google, необходимо использовать значимые слова. Но здесь есть важная деталь: при сборе запросов формируется несколько тематик и нельзя конкурировать со всеми этими тематиками. Соответственно, надо выбирать тематику, которая наиболее подходит под вашу страницу. Serpstat использует алгоритм автоматического определения тематики вашего сайта и строит рекомендации, исходя из тематики страницы и тематик, представленных в ТОПе.

Для тех, кто интересуется вопросом, какой должна быть средняя длина текстового блока для коммерческих и информационных запросов, докладчик привел следующие результаты выборки по 10 тысячам сайтов.

Размер текста по коммерческим запросам.png

Размер текста по информационным запросам.png

Завершая свой доклад, Олег Саламаха поделился ссылками на полезные либы для работы с текстами. Они будут полезны тем, кто занимается автоматизированной разработкой:

(Нет голосов)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Рейтинг Известности 2018: старт народного голосования
    Михаил Р
    1
    комментарий
    0
    читателей
    Полный профиль
    Михаил Р - 1. Demis 2. кокс 3. Ашманов 4. Скобеев 5. Digital Strategy
    Тест: Кто как пробежал, или Итоги клиентского рейтинга SEOnews 2018
    Анна Макарова
    338
    комментариев
    0
    читателей
    Полный профиль
    Анна Макарова - Друзья, спасибо всем за участие! Мы определили победителей. Кто ими стал - вы найдете по ссылке: www.seonews.ru/events/darim-knigi-ot-mif-pobediteli-opredeleny/ Если вы стали одним из победителей, обязательно свяжитесь с нами по указанной в новости (по ссылке выше) почте. Всем хороших выходных! =)
    SEO глазами клиентов 2018
    Артур Якушев
    1
    комментарий
    0
    читателей
    Полный профиль
    Артур Якушев - >сейчас же сложно найти агентства, которые специализируются только на SEO Не так и сложно найти нас www.msk.lapkinlab.ru
    Рейтинг Известности 2018: второй этап народного голосования
    Константин Сокол
    3
    комментария
    0
    читателей
    Полный профиль
    Константин Сокол - Кто был ответственный за дизайн таблицы голосования? Копирайтер?
    Комплексный аудит интернет-магазина от «Ашманов и партнеры». Часть 1
    Александр Сова
    1
    комментарий
    0
    читателей
    Полный профиль
    Александр Сова - А вот и сеошники подъехали, покидать на вентилятор :D
    Кейс: вывод лендинга по изготовлению флагов на заказ в ТОП 1 по Санкт-Петербургу
    utka21
    4
    комментария
    0
    читателей
    Полный профиль
    utka21 - Кейс как кейс. Для некоторых станет вполне возможно полезным. ( Для конкурентов точно) . А вот с комментариями , что то пошло не так )
    Не очень удачный кейс продвижения сайта по услуге «Трезвый водитель» в Москве
    Кирилл Щербаков
    3
    комментария
    0
    читателей
    Полный профиль
    Кирилл Щербаков - "даже пришлось подключить отслеживание звонков с сайта" "Даже" - как будто это что-то нереальное
    Как использовать Python для LSI-копирайтинга
    Evgeny Montana
    6
    комментариев
    0
    читателей
    Полный профиль
    Evgeny Montana - спасибо)
    Стартовал сбор заявок на участие в рейтинге «Известность бренда SEO-компаний 2018»
    Артем Первухин
    1
    комментарий
    0
    читателей
    Полный профиль
    Артем Первухин - Make KINETICA Great Again!
    Эксперимент: как уникальность контента влияет на продвижение сайта
    Ilia Nazmutdinov
    2
    комментария
    0
    читателей
    Полный профиль
    Ilia Nazmutdinov - Кстати, ПФ не работают на нулевом трафике. Пока на сайт не льются тысячи показов по одним и тем же запросам влияние оказывает ток ссылочное\внешнее и внутреннее\ и внутренняя оптимизация.
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    338
    Комментариев
    262
    Комментариев
    241
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    97
    Комментариев
    96
    Комментариев
    80
    Комментариев
    67
    Комментариев
    61
    Комментариев
    60
    Комментариев
    59
    Комментариев
    57
    Комментариев
    55
    Комментариев
    54

    Отправьте отзыв!
    Отправьте отзыв!