Baltic Digital Days 2017: Текстовая аналитика

Россия+7 (495) 960-65-87
Шрифт:
0 4141

Продолжаем обзор программной части конференции Baltic Digital Days, которая уже в пятый раз проходит в Калининграде. Секцию «SEO в Европе и США» продолжил доклад Олега Саламахи, founder Serpstat, на тему «Текстовая аналитика».

Прежде всего, спикер напомнил слушателям о том, что в сервисе недавно появилась текстовая выгрузка и кластеризация, при помощи которой специально для доклада на BDD 2017 удалось сделать несколько выгрузок для выдачи США.

Традиционно SEO-специалистов волнуют следующие вопросы:

1. Сколько раз нужно «поспамить фразой»?

2. Как правильно спамить?

3. Какой размер текста нужно разместить на странице?

4. Как найти LSI-фразы?

5. Как проверить воду в тексте?

Озвучив эти вопросы, Олег пообещал дать исчерпывающие ответы на них, но немного не в том ключе, как этого обычно ожидают. На самом деле, однозначного и четкого ответа на этот вопрос нет – правильнее всего рассматривать определенные диапазоны показателей. Этот подход в математике носит название «Правило трех сигм» («three-sigma rule» или «68–95–99 rule»).

Вот почему имеет смысл применять статистический подход к ответу на перечисленные выше вопросы. С этой целью нужно:

1. Построить распределение метрик своих конкурентов в выдаче.

2. Исключить аномалии отсечением хвостов по «правилу трех сигм» (анализируя тем самым 68, 95 или 99% выборки). Это позволит убрать из рекомендации «Титанов», которые могут позволить себе слабую релевантность или переспам.

3. Составить рекомендационную базу, содержащую:

  • диапазон релевантности ключу;
  • диапазон приемлемой длины текста;
  • список LSI-слов и вероятностей их употребления конкурентами.

Подход к измерению релевантности.png

Что это значит для SEO-специалиста: если у вас есть определенный показатель, то нужно стараться, чтобы показатели не выходили за пределы данного диапазона. Максимальное отклонение – плюс-минус 30% от заданного числа.

В следующей части доклада спикер показал, как работает данное правило на примере разных выборок.

Релевантность

Что касается спамности (релевантности или тошнотности), то однозначного ответа на вопрос о том, сколько раз можно употребить конкретное слово в тексте, нет и не может быть. В каждой тематике, в каждом тексте и даже в каждом срезе будет свой ответ на этот вопрос. Однако, зная формулу релевантности, можно найти правильный ответ. Так, например, в компании Serpstat используют модифицированный алгоритм ВМ25, который способен учитывать немного больше факторов. В настоящее время данная возможность для клиентов включена в текстовый анализатор. В этом случае можно контролировать, насколько вы отходите от этой релевантности. При этом важно помнить, что диапазон попадания в нужные параметры колеблется в пределах 30% от среднего значения релевантности в ТОП по запросу. Это дает странице возможность на некоторое время оказаться в ТОПе. Также важно помнить, что помимо текстового ранжирования на нахождение сайта в ТОПе влияет масса других факторов.

Итак, SEO-специалисту не стоит забывать о том, что:

  • нужно контролировать переспам;
  • контролировать страницы с низкой релевантностью;
  • число в любой из формул ничего не значит, показатели необходимо сравнивать с конкурентами в тематике;
  • из-за большого количества факторов, невозможно провести reverse engineering;
  • нужны «веса слов».

Продолжая исследовать тему, специалисты Serpstat взяли выборку из нескольких тысяч запросов и нескольких десятков тысяч URL-ов, которые находятся в ТОП-10 выдачи. Посчитали среднюю релевантность в ТОП-10 по каждой фразе и разницу между средним значением и значением каждой страницы.

Графики распределения релевантности по коммерческим и информационным запросам получились следующими:

Распределение релевантности по коммерческим запросам.png

Как видно, показатели для основных сайтов по коммерческим запросам находятся в пределах обозначенных ранее 20–30%.

Распределение релевантности по информационным запросам.png

Важно отметить, что западном сегменте поисковая система гораздо лучше понимает текст, а в текстовых факторах используются не вхождения, а синонимы, связанные с тематикой. Здесь текстовая релевантность не играет столь большого значения. При этом нужно следить, чтобы показатель не уходил в крайнюю правую область графика. То есть важно избегать переспама.

В целом в западной выдаче лучше ранжируются статьи, в которых не только текст, но и дополнительные полезные пользователю элементы: видео, таблицы, карты и другие.

Выводы:

1. Релевантность в ТОПе сконцентрирована возле среднего значения (в Рунете намного больше аномалий).

2. Сколько нужно вхождений: +/- 30% от средней релевантности в ТОПе.

3. Следить за переспамом можно с помощью % отклонения от среднего показателя в ТОПе.

4. В информационной̆ тематике дисперсия релевантности больше, чем в коммерческой̆, т.е. следить стоит больше за коммерческими запросами.

Аномалии в релевантности

Всегда интересно следить за сайтами, которые входят в ТОП выдачи, однако у них наблюдаются некоторые аномалии в релевантности. Чтобы выявить закономерности, был произведен анализ выдачи в регионе США для более чем 10 тысяч страниц. Анализировали выдачу по высокочастотным и среднечастотным фразам. Цель: найти в ТОПе сайты с низкой текстовой релевантностью (то есть сайты, которые не входят в средний процент).

Результаты оказались вполне закономерными, среди подобных сайтов:

ТОП-10 нерелевантных доменов.png

Далее возникает вопрос, как наполнить страницу с релевантной тематикой и как понять, что нужно изменить странице? Ответом может стать статистический анализ сайтов конкурентов, которые уже находятся в ТОПе.

Однако и тут могут возникать проблемы:

  • Как спарсить «чистый» текст со всех страниц из ТОПа (без «шапок», комментариев и прочих блоков).
  • Нужно ли использовать все страницы в выдаче для анализа (поиск своей тематики и анализ конкурентов из этой группы).
  • Какие именно слова советовать (какие слова важны). СПОЙЛЕР: простой фильтр стоп слов в данном случае не поможет.

Еще одним значимым аспектом продвижения в Google является использование слов из вектора тематики. Что касается поиска тематических слов автоматизированным способом, то здесь формула, казалось бы, проста:

Значимые слова у конкурентовСлова, которые уже есть у нас = Рекомендации

Но на самом деле здесь также присутствует определенная сложность. Прежде всего, это такие негативные явления, как:

  • При анализе конкурентов в выдаче всегда проявляется шум: брендовые фразы, стоп-слова.
  • В SERP несколько интентов. Это явление ярко выражено в США.
  • Страницы в одном кластере на разных языках.
  • Страницы разных тематик в одном кластере.
  • Анализ только текстовой составляющей (без навигации, хлебных крошек и т.п.).

В качестве решения можно использовать CF-TF-IDF ранжирование:

CF – как часто слово встречается в тематике.

TF – встречаемость в каждом тексте из тематики.

IDF – информативность слова [контролирует стоп слова].

Вывод: лучше всего использовать не переспам, а другие ключевые слова из тематики.

Слова, определяющие тематику.png

Далее на основе статистического анализа строят выводы.

Строим выводы на основе статистического анализа конкурентов.png

Чтобы проверить теорию, в Serpstat проанализировали несколько сотен кластеров запросов, разделили эти кластеры на два типа:

1. для обучения;

2. для проверки.

Проверили сколько рекомендованных слов содержит вторая выборка. Результат получился следующим:

Покрытие значимыми словами ТОПа (ком).png

Также проанализировали по информационным запросам – там больше значимых слов и их больше используют непосредственно в текстах страниц:

Покрытие значимыми словами ТОПа (инф).png

Чтобы написать качественные тексты, которые будут хорошо ранжироваться в Google, необходимо использовать значимые слова. Но здесь есть важная деталь: при сборе запросов формируется несколько тематик и нельзя конкурировать со всеми этими тематиками. Соответственно, надо выбирать тематику, которая наиболее подходит под вашу страницу. Serpstat использует алгоритм автоматического определения тематики вашего сайта и строит рекомендации, исходя из тематики страницы и тематик, представленных в ТОПе.

Для тех, кто интересуется вопросом, какой должна быть средняя длина текстового блока для коммерческих и информационных запросов, докладчик привел следующие результаты выборки по 10 тысячам сайтов.

Размер текста по коммерческим запросам.png

Размер текста по информационным запросам.png

Завершая свой доклад, Олег Саламаха поделился ссылками на полезные либы для работы с текстами. Они будут полезны тем, кто занимается автоматизированной разработкой:

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    «Баден-Баден»: как выйти из-под фильтра
    Александр
    27
    комментариев
    0
    читателей
    Полный профиль
    Александр - Сергей, будем рады увидеть исследование, которое докажет мифичность.
    «Прямая линия» с Александром Алаевым («АлаичЪ и Ко»): отвечаем на вопросы
    Александр Алаев
    13
    комментариев
    0
    читателей
    Полный профиль
    Александр Алаев - Роман. Тут ответ очень простой. Каждый запрос можно четко разделить на коммерческий или некоммерческий. "Купить слона" и его длинные хвосты - коммерческий. "Как выбрать слона" и подобные - информационные. Вот под коммерческие ключи должны быть страницы услуг или каталога товаров. А под информационку - блог. Очень важно не путать их, тем более несоответствующая коммерческим факторам страниц просто не продвинется, то есть по запросу с "купить" блог никогда не будет показываться в выдаче, так же как и страница услуги/товаров не покажется по "как выбрать". Понятно примерно?
    Кейс: продвигаем бизнес по продаже пластиковых окон в Москве
    Иван Стороженко
    5
    комментариев
    0
    читателей
    Полный профиль
    Иван Стороженко - 1. По началу вообще не использовали, сейчас уже много каналов используется. 2. Все может быть, в принципе сайты должны быть удобны для пользователя, для этого и нужна схожесть между собой. Честно говоря старались брать все самое интересное у конкурентов + подкреплять своими идеями.
    Инфографика: самые распространенные SEO-ошибки Рунета
    Dmitro Grunt
    2
    комментария
    0
    читателей
    Полный профиль
    Dmitro Grunt - Кстати, у проектов которые продвигает Нетпик все тайтлы не более 65 символов? Или вы надеетесь что кто то послушает советов и отдаст вам часть трафика? :-)
    7 причин не работать на биржах копирайтинга
    Dasha Shkaruba
    6
    комментариев
    0
    читателей
    Полный профиль
    Dasha Shkaruba - Спасибо за мнение! Кстати, на бирже главреда прием анкет закрыт
    День рождения SEOnews: 12 лет в эфире!
    Анна Макарова
    0
    комментариев
    0
    читателей
    Полный профиль
    Анна Макарова - Ура )
    Google.ru внесли в реестр запрещенных сайтов
    Гость
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость - Гон, все работает и будет работать. Да и пусть банят, будет как с рутрекером.
    Западные специалисты выяснили, как повысить позиции ресурса в выдаче Google
    Serhii Diachenko
    1
    комментарий
    0
    читателей
    Полный профиль
    Serhii Diachenko - Спасибо Бернис!
    Как бесплатно публиковать гостевые посты без миралинкс и бирж ссылок
    Александра Емец
    1
    комментарий
    0
    читателей
    Полный профиль
    Александра Емец - Некоторые сеошники почему-то забывают о таком эффективном бесплатном способе продвижения, как гостевые посты. Все внешнее продвижение заключается в закупке ссылок и раскрутке групп в соцсетях. Первое уже начало изживать себя, нужно искать что-то новое. Хорошо, что вы напомнили о гостевых постах. Будем пробовать и развиваться.
    SEMrush: факторы ранжирования в Google в 2017 году
    Анна Макарова
    0
    комментариев
    0
    читателей
    Полный профиль
    Анна Макарова - Уважаемый S1, я тоже понимаю, что есть такие люди, которые заметив допущенную неточность несутся на всех парусах продемонстрировать "силу" своего ума. Спасибо вам за пристальное внимание. Это поможет нам быть лучше.
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    310
    Комментариев
    262
    Комментариев
    228
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    80
    Комментариев
    77
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    55
    Комментариев
    53
    Комментариев
    52
    Комментариев
    48

    Отправьте отзыв!
    Отправьте отзыв!