×
Россия +7 (495) 139-20-33

Фактор текстовой релевантности YMW: как не загубить оптимизацию под длинный хвост ключей

Россия +7 (495) 139-20-33
Шрифт:
3 5055

На этой неделе Яндекс начал использовать алгоритм «Баден-Баден» для определения нарушений, связанных с переоптимизацией, дополнив им предыдущие способы определения этой проблемы.

Поэтому мы решили вспомнить недавнюю статью Алексея Трудова, посвященную фактору текстовой релевантности — YMW.

Cеошная общественность бурно обсуждает новый алгоритм Яндекса «Баден-Баден». Не особо продуктивное занятие, на мой взгляд. Слишком мало времени прошло. Вряд ли у кого-то накопились достоверные наблюдения по хорошей выборке пострадавших сайтов. Тем более наивно ждать эффективную методику снятия. Да что там, пока даже неизвестно, включен ли алгоритм на полную мощность.

Ясно только одно: оптимизацию теперь нужно делать еще аккуратнее и тщательнее. Поэтому нелишне будет разобраться в достаточно редко упоминаемом факторе текстовой релевантности — YMW. Он основан на размере минимального куска текста, включающего максимальное количество встречающихся в документе слов запроса.

Статья Александра Сафронова «Тестирование простой ранжирующей формулы»

В публикации описана формула ранжирования, разработанная сотрудниками Яндекса для экспериментальной оценки отдельных факторов. Среди них — в первую очередь хорошо знакомые оптимизаторам вариации BM25 а также пара метрик, оценивающих близость слов запроса.

Вот описание одной из них — YMW:

YMW 1.png

Впали в уныние от нагромождения формул? Напрасно! Разобраться не так сложно. Внимательно читаем легенду:

YMW 2.png

Вторая же часть формулы представляет поправку на тот случай, если в тексте документа содержатся не все слова запроса. Она оперирует понятием «вес слова». IDF (inverse document frequency) — оценка частоты встречаемости слова во всей базе документов в поисковой системе. Эта величина используется во многих других факторах текстовой релевантности.

Теперь опустим конкретные знаки действий и логарифмы, просто отметим, какие параметры увеличивают итоговую оценку, а какие уменьшают.

  • Минимальный размер «окна» в котором встречаются все слова запроса — находится в знаменателе дроби. Чем он меньше, тем выше значение фактора.
  • Количество слов запроса, встречающиеся в документе — вычитаются из знаменателя. Чем больше, тем выше значение фактора.

Видите? От всей сложной формулы остается всего два параметра, специфичных для рассматриваемого фактора. Чуть ниже будет еще более наглядное объяснение, а пока проясним важный вопрос:

Стоит ли вообще учитывать этот фактор?

Рассматриваемая статья достаточно старая, выпущена еще в 2010 году. Тем не менее я считаю, что по крайней мере общие тенденции, выделенные выше, остаются актуальными. Вот несколько причин:

  • Судя по свежему докладу об устройстве поиска Яндекса, статья описывает вполне актуальные подходы к тестированию новых факторов ранжирования (вторая часть публикации).
  • Фактор упоминается в ТЗ на SEO-текст сравнительно редко. Поэтому поисковым системам не было нужды его отбрасывать под давлением оптимизаторов. Вообще он актуален для длинных запросов, под которые редко продвигают специально.
  • Группировка слов запроса в пределах абзаца-двух характерна для качественного профессионального контента. Очевидно, что слова, связанные с конкретной темой, будут сами по себе тянуться друг к другу: их связывает общая мысль.
  • В той же статье указан фактор «кучности». То есть близость слов — это реально важный фактор, поисковик пытается «зацепить» его разными способами.

Думаю, достаточно. Переходим к самому интересному — практике и выводам.

Как неосторожный оптимизатор может уменьшить релевантность текста

Если мы имеем дело со страницами, которые не претендуют на другие ключи, кроме вставленных в title, то фактор не будет особо значим. Ясно, что в этом случае мы получим очень маленькое «окно» — сам title. А вот если мы хотим сэкономить на создании страниц и одной статьей охватить десяток-другой среднечастотников и сотни их мелких НЧ-расширений — то учитывать YMW необходимо.

Сначала пример как делать НЕ надо (заодно буквально в картинках разберем суть фактора).

Допустим, у нас есть статья, в которой упомянут определенный ключевик:

YMW 3.png

Потом до нее дотянулись шаловливые ручки оптимизатора, и он решил расширить семантику а также напичкать текст модными LSI-словами. Загнал запросы в сервис генерации ТЗ, вытащил уйму расширений и тематичных слов. Отдал копирайтеру. Копирайтер, не заморачиваясь, дописал лишний абзац, куда густо натыкал затребованные термины. На выходе получилось это:

YMW 4.png

Все что надо — упомянуто. Ура?

Не совсем. Давайте прикинем YMW для «запрос из трех слов + расширение 1» до и после доработки. Смотрим сделанный выше вывод из формулы: чем меньше размер «окна» содержащего все слова запроса и чем больше слов из запроса встречается в документе — тем сильнее оценка фактора.

До:

  • размер окна, включающего все слова: 3 (они просто идут вместе).
  • число слов: 3 из 4

После:

Окно резко выросло!

YMW 5.png

То есть мы что-то добавили к итоговой оценке YMW за счет вхождения всех слов запроса и одновременно убавили, сделав окно огромным. Итоговое значение при этом могло упасть. Оцените порядок цифр в знаменателе первой дроби: для первого случая это (3 — 3 + α), а во втором что-то вроде (500 — 4 + α).

Конечно, другие факторы при этом могут сыграть в плюс (вхождение всех слов запроса — сильный сигнал). Но полного эффекта, который могло бы дать расширение семантики, мы не получим.

Заметьте, кстати: негативное влияние бездумного добавления ключей прослеживается на примере даже простого фактора ранжирования, без привлечения факторов антиспама.

Выводы

  • Фактор YMW имеет смысл учитывать в текстовой оптимизации. Особенно с учетом резко негативного отношения поисковых систем к традиционным методикам, опирающимся на число вхождений.
  • При продвижении под кластер ключей необходимо следить за близостью ключевых слов и расширений запроса в пределах страницы. Принцип максимального сокращения межсловных расстояний нужно применять не только к основным ключевым словам. Требуется проектировать страницу так, чтобы ей соответствовал весь набор поисковых фраз, включая микро-НЧ, предусмотреть которые невозможно.
  • Добавление на страницу связанной лексики без учета расположения основных ключей не даст полного эффекта.
  • Для оптимизации под длинный хвост в отношении YMW лучше всего подходят тексты с четкой структурой, разбитые заголовками на небольшие блоки. При этом каждый блок должен быть посвящен раскрытию конкретной под-темы и содержать максимум лексики, которая с ней связана. Нежелательна ситуация, когда запрос используется в одном блоке, а важное расширение в другом.

Источник: http://alexeytrudov.com/web-marketing/seo/faktor-ymw.html

(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Ане Макаровой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Михаил Войнов
    1
    комментарий
    0
    читателей
    Михаил Войнов
    больше года назад
    Как расшифровывается аббревиатура YMW?
    -
    0
    +
    Ответить
  • Andy
    1
    комментарий
    0
    читателей
    Andy
    больше года назад
    >>Заметьте, кстати: негативное влияние бездумного добавления ключей прослеживается на примере даже простого фактора ранжирования, без привлечения факторов антиспама.
    Речь о том, что большое окно не даст достигнуть максимального эффекта? Или к чему тут антиспам упомянут?

    >>...страницу так, чтобы ей соответствовал весь набор поисковых фраз,
    включая микро-НЧ, предусмотреть которые невозможно.
    Непонятный пассаж, поясните.
    -
    0
    +
    Ответить
    • Alexey Trudov
      6
      комментариев
      0
      читателей
      Alexey Trudov
      Andy
      больше года назад
      >>Речь о том, что большое окно не даст достигнуть максимального эффекта?
      Правильно.
      Антиспам упомянут, потому что с подобными текстами по идее как раз он должен бороться. То есть отдельные факторы, нацеленные на выявление неестественных текстов и штрафующие за них. Но как видим, даже обычный фактор может страдать от такой оптимизации.

      >>Непонятный пассаж, поясните.
      Смотрите. Все эти микро-НЧ как раз берутся из текста. Мы естественным образом употребл...
      >>Речь о том, что большое окно не даст достигнуть максимального эффекта?
      Правильно.
      Антиспам упомянут, потому что с подобными текстами по идее как раз он должен бороться. То есть отдельные факторы, нацеленные на выявление неестественных текстов и штрафующие за них. Но как видим, даже обычный фактор может страдать от такой оптимизации.

      >>Непонятный пассаж, поясните.
      Смотрите. Все эти микро-НЧ как раз берутся из текста. Мы естественным образом употребляем синонимы и вариации слов, входящих в запрос.
      Если четко структурировать контент на странице и не использовать «воду», то расстояния между основным запросом (например, в подзаголовке) и его расширениями (в тексте под ним) будут небольшими, что и увеличит YMW.
      Если же страницу вообще никак не проектировать и писать в стиле «что вижу то пою», то слова будут рассеяны по тексту и размер окна для всех бесчисленных комбинаций "основной запрос + слово" будет большим.
      -
      0
      +
      Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Что скрывает «Прогноз бюджета Яндекс.Директ»?
Михаил Мухин
15
комментариев
0
читателей
Полный профиль
Михаил Мухин - Здравствуйте! 1-2. Считает стенд. Ссылка на него дана, но могу повторить: online.p-c-l.ru/competition/task/card/id/106. Нажмите на кнопку "Начать" и заранее приготовьте прогноз бюджета Яндекс. Суть расчета: перебор комбинаций всех ставок на всех фразах, построение бюджетных когорт - бюджетов с одинаковым СРС, отбор в каждой когорте бюджета с максимальным количеством кликов и ..., да упорядочивание этих бюджетов по мере возрастания СРС, причем берем не все, а с фиксированным шагом. 3. Гугл считается через поправочные коэффициенты. Мы перевариваем океан данных и представляем их. На удивление, получается не менее, хотя и не более точно, как и прогноз Яндекс. Конечно, нужно понимать, что это очень примерные прикидки, фактически перевод неточного прогноза Яндекс в удобочитаемую форму, не больше. Самое интересное начинается, когда применяешь метод бюджетных когорт к измерению показателей фраз на реальной рекламной кампании в режиме 48х7. Первые результаты очень хорошие. Если хотите присоединиться к бесплатному тестированию, напишите Эльвире r-support@r-broker.ru. В теме укажите "хочу присоединиться к тестам Умного управления рекламой"
Ссылочное продвижение локальных сайтов: ТОП худших SEO-методов
demimurych
8
комментариев
0
читателей
Полный профиль
demimurych - о господи. это для регионального сайта? в яндексе? где у сайта по региону конкурентов меньше чем выдачи на двух страницах из которых перваш это реклама москвы? потешно ей богу. ктото чего то не понеимает.
Зачем подменять контент на сайте: разбираем инструмент и развенчиваем мифы
Дмитрий Сульман
4
комментария
0
читателей
Полный профиль
Дмитрий Сульман - Все верно, об этом я и говорю. У крупных компаний есть много данных и они имеют доступ к дорогим технологиям и решениям для персонализации контента. Топовые западные сервисы для персонализации, такие как RichRelevance или Dynamic Yield, стоят от нескольких тысяч до десятков тысяч долларов в месяц. Понятно, что малый бизнес не может себе этого позволить. Да даже если бы чисто теоретически и мог, то это вряд ли бы имело хоть какой-то смысл. Во-первых, у малого бизнеса недостаточно данных, чтобы подобные алгоритмы персонализации начали эффективно работать, а во-вторых, тот профит, который МСБ получит от персонализации, никогда не покроет таких расходов. Мы же предлагаем решение, доступное как раз для малого и среднего бизнеса. При этом наше решение комплексное: МультиЧат - это одновременно и инструмент для персонализации, и для коммуникации.
От мечты стать юристом к собственному SMM-агентству. Как найти себя в современном цифровом мире
Виктор Брухис
5
комментариев
0
читателей
Полный профиль
Виктор Брухис - Статья выглядит так, как пожелали редакторы и интервьюер) Вопросы к интервью подбирал не я)) Хотя, в целом я согласен с вашим видением. А за пожелание удачи большое спасибо!
Монетизируйте свой сайт вместе с VIZTROM
VIZTROM
3
комментария
0
читателей
Полный профиль
VIZTROM - Добрый день! Так как мы сейчас работаем в приватном режиме, Вы врятли можете объективно оценить нашу рекламную площадку. У нас будет официальный запуск 3 марта для вебмастеров. Приглашаем Вас присоединиться к нам и лично посмотреть наш функционал.
Digital-разговор: Михаил Шакин про SEO, Google и заработок в интернете
Анна Макарова
368
комментариев
0
читателей
Полный профиль
Анна Макарова - Подготовим ) Пока предлагаю почитать интервью с Денисом Нарижным из той же серии. Там стенограмма =) www.seonews.ru/interviews/digital-razgovor-denis-narizhnyy-pro-ukhod-iz-seo-i-zarabotok-na-partnerkakh/
Как удвоить выручку за счет продвижения в поиске. Кейс coffee-butik.ru
Максим Боровой
3
комментария
0
читателей
Полный профиль
Максим Боровой - Последний вопрос (извиняюсь за количество) - почему на "В корзину" стоит Nofollow. Осознанно для распределение весов?
Автоматические SEO-аудиты: как напугать некорректными выводами
SEOquick
38
комментариев
0
читателей
Полный профиль
SEOquick - Парсинг сайтов – это самый лучший способ автоматизировать процесс сбора и сохранения информации. Конкурентов всегда нужно мониторить, а не сравнивать свой сайт через автоматический аудит анализатора.
Почему вы торгуетесь за показы, даже если платите за клики
Константин Требунских
3
комментария
0
читателей
Полный профиль
Константин Требунских - Дмитрий, спасибо за комментарий, хорошие замечания!) 1. "Какая-то подмена понятий. CPM у “Original Works” взлетает не от того, что у них РАВНАЯ цена клика, а оттого, что вы "с потолка" поставили ему CPC в 2 раза выше, чем был. Логично, что и CPM в 2 раза увеличился (см. формулу выше). Если бы вместо 5 вы всем решили поставить 2 или 1.5, то он бы наоборот уменьшился." Вы правы, что CPM уменьшился бы. В первой и второй табличке берем одинаковое количество показов (именно за них мы платим сначала) и считаем данные, в том числе CPC. Мы поставили рекламодателей в одинаковые условия и посмотрели их эффективность в разрезе цены клика при одинаковом количестве показов. А затем изменился аукцион, и, взяв получившиеся данные по кликам и CTR, мы поставили рекламодателей тоже в одинаковое положение, но уже по цене клика, ведь мы теперь за него платим. Посчитали эффективность в разрезе уже CPM. Тут если и есть подмена понятий, то она точно не моя, а рекламных систем, потому и обозначена, как "ход конем" :) 2. "Ок, смотрим таблички "как оно было" и "как оно стало". Было: система суммарно за 2 000 денег показала рекламу 4 000 раз. Стало: система суммарно за 2 000 денег показала рекламу 13 500 раз. Сомнительный профит для системы." Вы правы, именно поэтому для рекламодателей с низким CTR ставка будет выше, чем для рекламодателей с высоким CTR. Просто чтобы система окупилась. Потому что, системе выгодно продавать показы тем, у кого кликов будет больше (ведь они платят за клик). По факту реальные цены за клик в аукционе будут как в таблице 2. Но ранжирование системы проводят по таблице 5.
Где SEO-специалист может углубить свои навыки в области поискового продвижения
Ирина Полинина
1
комментарий
0
читателей
Полный профиль
Ирина Полинина - Полезно! Спасибо
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
368
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
139
Комментариев
121
Комментариев
108
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
85
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
55

Отправьте отзыв!
Отправьте отзыв!