Baltic Digital Days 2017: Текстовая аналитика

Россия+7 (495) 960-65-87
Шрифт:
0 4882

Продолжаем обзор программной части конференции Baltic Digital Days, которая уже в пятый раз проходит в Калининграде. Секцию «SEO в Европе и США» продолжил доклад Олега Саламахи, founder Serpstat, на тему «Текстовая аналитика».

Прежде всего, спикер напомнил слушателям о том, что в сервисе недавно появилась текстовая выгрузка и кластеризация, при помощи которой специально для доклада на BDD 2017 удалось сделать несколько выгрузок для выдачи США.

Традиционно SEO-специалистов волнуют следующие вопросы:

1. Сколько раз нужно «поспамить фразой»?

2. Как правильно спамить?

3. Какой размер текста нужно разместить на странице?

4. Как найти LSI-фразы?

5. Как проверить воду в тексте?

Озвучив эти вопросы, Олег пообещал дать исчерпывающие ответы на них, но немного не в том ключе, как этого обычно ожидают. На самом деле, однозначного и четкого ответа на этот вопрос нет – правильнее всего рассматривать определенные диапазоны показателей. Этот подход в математике носит название «Правило трех сигм» («three-sigma rule» или «68–95–99 rule»).

Вот почему имеет смысл применять статистический подход к ответу на перечисленные выше вопросы. С этой целью нужно:

1. Построить распределение метрик своих конкурентов в выдаче.

2. Исключить аномалии отсечением хвостов по «правилу трех сигм» (анализируя тем самым 68, 95 или 99% выборки). Это позволит убрать из рекомендации «Титанов», которые могут позволить себе слабую релевантность или переспам.

3. Составить рекомендационную базу, содержащую:

  • диапазон релевантности ключу;
  • диапазон приемлемой длины текста;
  • список LSI-слов и вероятностей их употребления конкурентами.

Подход к измерению релевантности.png

Что это значит для SEO-специалиста: если у вас есть определенный показатель, то нужно стараться, чтобы показатели не выходили за пределы данного диапазона. Максимальное отклонение – плюс-минус 30% от заданного числа.

В следующей части доклада спикер показал, как работает данное правило на примере разных выборок.

Релевантность

Что касается спамности (релевантности или тошнотности), то однозначного ответа на вопрос о том, сколько раз можно употребить конкретное слово в тексте, нет и не может быть. В каждой тематике, в каждом тексте и даже в каждом срезе будет свой ответ на этот вопрос. Однако, зная формулу релевантности, можно найти правильный ответ. Так, например, в компании Serpstat используют модифицированный алгоритм ВМ25, который способен учитывать немного больше факторов. В настоящее время данная возможность для клиентов включена в текстовый анализатор. В этом случае можно контролировать, насколько вы отходите от этой релевантности. При этом важно помнить, что диапазон попадания в нужные параметры колеблется в пределах 30% от среднего значения релевантности в ТОП по запросу. Это дает странице возможность на некоторое время оказаться в ТОПе. Также важно помнить, что помимо текстового ранжирования на нахождение сайта в ТОПе влияет масса других факторов.

Итак, SEO-специалисту не стоит забывать о том, что:

  • нужно контролировать переспам;
  • контролировать страницы с низкой релевантностью;
  • число в любой из формул ничего не значит, показатели необходимо сравнивать с конкурентами в тематике;
  • из-за большого количества факторов, невозможно провести reverse engineering;
  • нужны «веса слов».

Продолжая исследовать тему, специалисты Serpstat взяли выборку из нескольких тысяч запросов и нескольких десятков тысяч URL-ов, которые находятся в ТОП-10 выдачи. Посчитали среднюю релевантность в ТОП-10 по каждой фразе и разницу между средним значением и значением каждой страницы.

Графики распределения релевантности по коммерческим и информационным запросам получились следующими:

Распределение релевантности по коммерческим запросам.png

Как видно, показатели для основных сайтов по коммерческим запросам находятся в пределах обозначенных ранее 20–30%.

Распределение релевантности по информационным запросам.png

Важно отметить, что западном сегменте поисковая система гораздо лучше понимает текст, а в текстовых факторах используются не вхождения, а синонимы, связанные с тематикой. Здесь текстовая релевантность не играет столь большого значения. При этом нужно следить, чтобы показатель не уходил в крайнюю правую область графика. То есть важно избегать переспама.

В целом в западной выдаче лучше ранжируются статьи, в которых не только текст, но и дополнительные полезные пользователю элементы: видео, таблицы, карты и другие.

Выводы:

1. Релевантность в ТОПе сконцентрирована возле среднего значения (в Рунете намного больше аномалий).

2. Сколько нужно вхождений: +/- 30% от средней релевантности в ТОПе.

3. Следить за переспамом можно с помощью % отклонения от среднего показателя в ТОПе.

4. В информационной̆ тематике дисперсия релевантности больше, чем в коммерческой̆, т.е. следить стоит больше за коммерческими запросами.

Аномалии в релевантности

Всегда интересно следить за сайтами, которые входят в ТОП выдачи, однако у них наблюдаются некоторые аномалии в релевантности. Чтобы выявить закономерности, был произведен анализ выдачи в регионе США для более чем 10 тысяч страниц. Анализировали выдачу по высокочастотным и среднечастотным фразам. Цель: найти в ТОПе сайты с низкой текстовой релевантностью (то есть сайты, которые не входят в средний процент).

Результаты оказались вполне закономерными, среди подобных сайтов:

ТОП-10 нерелевантных доменов.png

Далее возникает вопрос, как наполнить страницу с релевантной тематикой и как понять, что нужно изменить странице? Ответом может стать статистический анализ сайтов конкурентов, которые уже находятся в ТОПе.

Однако и тут могут возникать проблемы:

  • Как спарсить «чистый» текст со всех страниц из ТОПа (без «шапок», комментариев и прочих блоков).
  • Нужно ли использовать все страницы в выдаче для анализа (поиск своей тематики и анализ конкурентов из этой группы).
  • Какие именно слова советовать (какие слова важны). СПОЙЛЕР: простой фильтр стоп слов в данном случае не поможет.

Еще одним значимым аспектом продвижения в Google является использование слов из вектора тематики. Что касается поиска тематических слов автоматизированным способом, то здесь формула, казалось бы, проста:

Значимые слова у конкурентовСлова, которые уже есть у нас = Рекомендации

Но на самом деле здесь также присутствует определенная сложность. Прежде всего, это такие негативные явления, как:

  • При анализе конкурентов в выдаче всегда проявляется шум: брендовые фразы, стоп-слова.
  • В SERP несколько интентов. Это явление ярко выражено в США.
  • Страницы в одном кластере на разных языках.
  • Страницы разных тематик в одном кластере.
  • Анализ только текстовой составляющей (без навигации, хлебных крошек и т.п.).

В качестве решения можно использовать CF-TF-IDF ранжирование:

CF – как часто слово встречается в тематике.

TF – встречаемость в каждом тексте из тематики.

IDF – информативность слова [контролирует стоп слова].

Вывод: лучше всего использовать не переспам, а другие ключевые слова из тематики.

Слова, определяющие тематику.png

Далее на основе статистического анализа строят выводы.

Строим выводы на основе статистического анализа конкурентов.png

Чтобы проверить теорию, в Serpstat проанализировали несколько сотен кластеров запросов, разделили эти кластеры на два типа:

1. для обучения;

2. для проверки.

Проверили сколько рекомендованных слов содержит вторая выборка. Результат получился следующим:

Покрытие значимыми словами ТОПа (ком).png

Также проанализировали по информационным запросам – там больше значимых слов и их больше используют непосредственно в текстах страниц:

Покрытие значимыми словами ТОПа (инф).png

Чтобы написать качественные тексты, которые будут хорошо ранжироваться в Google, необходимо использовать значимые слова. Но здесь есть важная деталь: при сборе запросов формируется несколько тематик и нельзя конкурировать со всеми этими тематиками. Соответственно, надо выбирать тематику, которая наиболее подходит под вашу страницу. Serpstat использует алгоритм автоматического определения тематики вашего сайта и строит рекомендации, исходя из тематики страницы и тематик, представленных в ТОПе.

Для тех, кто интересуется вопросом, какой должна быть средняя длина текстового блока для коммерческих и информационных запросов, докладчик привел следующие результаты выборки по 10 тысячам сайтов.

Размер текста по коммерческим запросам.png

Размер текста по информационным запросам.png

Завершая свой доклад, Олег Саламаха поделился ссылками на полезные либы для работы с текстами. Они будут полезны тем, кто занимается автоматизированной разработкой:

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Кейс: как продвинуть сайт производителя мебели на заказ в Москве
    Art Moderator
    2
    комментария
    0
    читателей
    Полный профиль
    Art Moderator -
    32 инструмента в помощь SEO-специалисту
    clark
    3
    комментария
    0
    читателей
    Полный профиль
    clark - Я - г-н Марк Джо из корпорации corp, мы являемся законной, зарегистрированной и гарантированной кредитной компанией, мы предоставляем 3% -ые кредиты частным лицам, компаниям, государственным учреждениям и деловым организациям и людям всех родов. Свободные кредиты - это решение всех ваших финансовых проблем. свяжитесь с нами по электронной почте: mjoe0123@gmail.com
    Исследование: влияние smart-ссылок на продвижение по СЧ-запросам
    Анатолий Шевчик
    1
    комментарий
    0
    читателей
    Полный профиль
    Анатолий Шевчик - +1097988
    Контекст под SEO. Как поисковая реклама помогает позициям в органической выдаче
    Сергей Дембицкий «Sima-Land.ru»
    22
    комментария
    0
    читателей
    Полный профиль
    Сергей Дембицкий «Sima-Land.ru» - Боже мой, неужели SEO-маги вернулись??? Открыть в роботс utm-метки для индексации и наплодить дублей...что? А расчеты в конце статьи про бюджет на SEO и контекст...откуда эти пропорции? Как по мне, SEO-магия вне Хогвартс. Спасибо, развеселили!
    Все, что нужно SEO-специалисту. Обзор инструментов
    Администратор Сайта
    1
    комментарий
    1
    читатель
    Полный профиль
    Администратор Сайта - Шаришь в seo! Сервис реально хороший
    Два идеальных способа разориться на старте интернет-магазина
    Стас
    4
    комментария
    0
    читателей
    Полный профиль
    Стас - Seonews в последнее время такую чушь несет! Где вы таких афторов находите? Статья ничего не стоит и несет чушь! Кто хоть немного понимает в этом так вам и скажет, и такие де комментаторы горе-сеошники, просто смешно читать, вы хоть модерируете ваши статьи или просто для воды на сайте?! Бред сивой кобылы эта статья до самой последней точки!!!
    Яндекс перестал индексировать сайты, созданные на Wix
    Константин Даткунас
    3
    комментария
    0
    читателей
    Полный профиль
    Константин Даткунас - Было бы интересно посмотреть саму выборку из 10 000 и методику анализа.
    4 способа быстро собрать теги для сайта
    Рустем Низамутинов
    5
    комментариев
    0
    читателей
    Полный профиль
    Рустем Низамутинов - Расписал и закинул в Google Docs, а то здесь в комментариях ссылки на активны. docs.google.com/document/d/1r0TZLNrQyYLdIzDQsD5YKlMG41HUGQgEep3bxE_ij-M/edit?usp=sharing
    Как мы разработали и вывели в ТОП сайт курсов рисования
    Иван Стороженко
    21
    комментарий
    0
    читателей
    Полный профиль
    Иван Стороженко - Добрый день. 1)Чаще всего основная проблема заключается, в согласовании с клиентом добавляемого контента и то как он будет отображаться. На данном сайте фото и услуги конечно предоставлял клиент, все остальное уже делали мы. 2)Да в принципе, когда есть команда и понимание, что нужно делать, все идет быстро (опять же основная заминка идет на согласовании с клиентом) 3)Смысла делать новый в данном случает нет. В принципе доделывался полноценный сайт. 4)Когда клиент уже не предоставляет информацию, приходится искать у конкурентов (например с других стран или регионов). Но чаще всего клиент, хоть что-то "подкидывает".
    Яндекс: как мы модерируем объявления
    Гость
    5
    комментариев
    0
    читателей
    Полный профиль
    Гость - Это ж Яндекс, чего вы ожидали-то? Коммерческая структура с раздутым штатом, задачей которой является заработать больше денег. Любыми методами. Задача всех пользователей посадить на Директ, даже если придется разрушить суть рунета, реализуется по полной программе. Все возражающие караются и выпиливаются. И каждый из сотрудников делает все возможное и невозможное, чтобы реализовать любую дурацкую идею - за это еще и премию выхватить можно. Даже если потом придется выполнять "откат", премиальные уже заплачены. Так было с одним из фильтров Яндекса, так было с купленным им сайтом Кинопоиска, который из русскоязычной энциклопедии кино был превращен за безумные деньги в банальный платный онлайн-кинотеатр.
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    325
    Комментариев
    262
    Комментариев
    234
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    86
    Комментариев
    80
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    57
    Комментариев
    55
    Комментариев
    54
    Комментариев
    53

    Отправьте отзыв!
    Отправьте отзыв!