×
Россия +7 (495) 139-20-33

Optimization 2023: текстовый анализ в 2024 году и методы увеличения релевантности страниц

Россия +7 (495) 139-20-33
Шрифт:
2 7982
Подпишитесь на нас в Telegram

На Optimization 2023 в рамках секции «Hard SEO» независимый SEO-эксперт Андрей Джилавдаров выступил с докладом «Текстовый анализ в 2024 году».

Андрей рассказал:

  • Как нейросети помогают улучшить качество поиска. 
  • Как считывать интент, определенный нейросетью, и как выявить под него маркерные запросы для анализа. 
  • Показал практические методы увеличения релевантности страниц в конкурентных нишах, чтобы быть не «как все».

Все обзоры ищите по тегу Optimization 2023.

Текстовое ранжирование

Задача поиска – оценить и дать ответ. Для этого у него есть инструменты (ML-машинное обучение, факторы ранжирования, нейросети), оценки экспертов и метрики качества поиска, то есть то, что поиск считает хорошим ответом.

История качества поиска

  • Если посмотреть на историю качества поиска, то до 2016 года работали простые вещи (TF-IDF, ВМ-25, BCLM) – все, что связано с вхождениями ключевых слов, количеством вхождений, порядком слов. 
  • С 2016 года были запущены первые нейросети – Палех и Королев (DSSM), а также таргеты на обучение – поведенческие факторы. 
  • В 2019 году произошло первое обучение нейросетей на экспертных оценках. Тогда можно было поставить одно слово в Title и попасть в ТОП. Это были первые обучения нейросетей на экспертной оценке. 
  • В 2020 году появилась новая архитектура для анализа текста – трансформер YATI. 
  • В 2021-2022 году произошло дообучение практически во всех экспертных нишах, которые было важно оценить. Первоначально там была медицина, но потом подтянули и остальные.

Коротко про YATI

YATI – это просто еще один трансформер с улучшениями. 

Схема устройства работы YATI

Схема устройства работы YATI

Эта такая модель или архитектура, которая рассматривает текст как последовательность токенов. Слово – это один токен. И так как эта модель видит текст полностью, она превращает каждое слово в тексте в семантический вектор, который передает смысл слова в этом предложении.

В трансформерах есть механизм self-attention, поэтому он получает информацию и с окружающих слов, то есть со всего текста вообще. Таким образом, получаем контекстозависимый смысл слова во всем большом тексте.

При обучении YATI использовали такую же модель обучения, как в BERT, Masked Language Model, когда половину слов в текстах закрывали и просили модель предсказывать эти слова. Если она их корректно восстанавливала, тогда считали, что они ее обучили. Но параллельно с этим они также просили ее угадать, был ли клик по документу, по данному запросу.

Дальше нейросеть нужно обучить на более сложные таргеты. Здесь используются накопленные данные Яндекса, такие как разметки по качеству хоста, разметки по релевантности страниц и многоаспектные оценки от экспертов.

Как улучшить качество поиска в сложных тематиках?

Сложные тематики – медицина, техника, финансы, юриспруденция, софт, программирование и другие. Суть общая: обычный человек, не эксперт, вряд ли сможет понять, что релевантно в выдаче по запросу, а что нет.

В чем могут быть проблемы?

  1. Проблемы с метриками. Допустим, люди-асессоры не знают сложную тему и могут формально поставить релевантную оценку не тому сайту. 
  2. Проблемы с моделями. Например, когда модели не видят каких-то слов, сленга или какой-то контент части документа. 
  3. Проблемы с количеством релевантных хостов или документов в индексе. Например, когда Google выкатил BERT, то оказалось, что Google показывает в выдаче большой пласт медицинских сайтов региональных клиник, в то время как в Яндексе эти сайты по медицинским запросам не брались даже в первичную обработку.

В 2021-2022 году Яндекс улучшил нейросеть:

  • добавили релевантные предложения; 
  • добавили в документную часть заголовки, начало текста документа (60 символов) и description документа. То есть описание документа, который SEO-шники никогда не заполняли, сейчас тоже идет в нейросеть, в представление документа.

Что такое релевантное предложение?

Когда человек ищет текст, поиск выбирает нужное вхождение на подходящем сайте и забирает релевантный текст вокруг. Этот текст идет в представление расширения документа.

Еще один важный пункт – сейчас, когда пользователь задает запрос, сразу определяется его тематика. Затем из индекса уже выбирается группа сайтов нужной тематики и среди них идет ранжирование.

Качества, которым должен обладать ответ

  1. Релевантность страницы. Ответ должен соответствовать потребности пользователя (содержать нужные вхождения). 
  2. Наполненность страницы. Ответ должен быть полным, учитывать все возможные интенты пользователя. Это означает, что по многим тематикам, например, медицинским, есть эталонные ответы. 
  3. Регион пользователя. Если содержание ответа зависит от региона, хорошей будет только та страница, которая соответствует региону пользователя. 
  4. Актуальность информации. Если содержание ответа меняется со временем, хорошим будет тот сайт, который содержит самую свежую на данный момент информацию. 
  5. Соответствие ОС. Мобильной или десктопной версии для разных пользователей. 
  6. Язык запроса. Ответ на языке пользователя лучше, чем ответ на любом другом языке. 
  7. Доверие к источнику (EAT). Ресурс, предоставляющий ответ, должен быть авторитетным. Нейросеть отлично понимает, что за ресурс перед ней, и какого он качества.

Интенты

На скриншоте представлен список интентов, которые есть в медицине. 

Интенты в запросах на медицинскую тему

Интенты в запросах на медицинскую тему

Но что делать, когда интента в запросе нет?

Смотрим, что подается сейчас в YATI для представления документа: 

Пример представления документа в YATI

Пример представления документа в YATI

Тут есть Title, подзаголовки, начало контента, разбивка URL, то есть, виден хост, ЧПУ и description и релевантные предложения. Поэтому, когда вы анализируете запросы, вы можете взять, например, ТОП-30 выдачи и посмотреть у сайтов все эти зоны и построить частотный словарь. 

Нейросеть выводит те документы наверх, где прописаны четкие интенты.

По словам Андрея, сейчас один из самых продуктивных подходов – это просто взять вашу вершину кластеров, посмотреть, какие в них есть интенты, и составить из них четкое, подробное ТЗ, где будут прописаны все пункты по тексту.

То есть мы идем не от того, что у нас есть какие-то ключевые слова, мы идем от того, что у нас есть интенты, у каждого интента есть своя семантика, нужно просто встраивать ее в статью.

Структура статьи, где каждая часть закрывает свой интент

Структура статьи, где каждая часть закрывает свой интент

Но SEO-специалисты хотят оптимизировать.

Как увеличить релевантность страниц?

Что можно сделать еще:

1.    Длинные вхождения ключевых слов (3 и более слова) используем в Title и подзаголовках. 

2. Вхождения ключей:

  • из семантики делаем частотный словарь по униграммам, биграммам и триграммам;
  • проверяем покрытие текста ключами из словаря.

3. В акварель генераторе just-magic.org. используем одно или несколько частотных ключевых слов:

  • проверяем покрытие текста биграммами из сервиса.

4. Делаем релевантные предложения = тексты для нулевых сниппетов.

Эти простые вещи помогают поднять релевантность текста.

Скоринг запросов по весу Seo-excel

Из ключей с частотностью можно построить скоринг или по-другому «Частотность Климова». 

Скоринг запросов по весу Seo-excel

Скоринг запросов по весу Seo-excel

На скриншоте в самом верху два запроса. Отличие только по окончанию. Смысл в том, что наверху находятся все запросы, которые покрывают правильным порядком слов менее частотные запросы. Поэтому можно сделать похожую разбивку и понять, что возьмете в title, а что возьмете в подзаголовки.

Про семантику. Частотный словарь SemTools.guru

Частотный словарь SemTools.guru

Частотный словарь SemTools.guru

Если у вас есть много запросов, то их не надо все вставлять в текст. Достаточно просто нарезать их на униграммы, биграммы, то есть разбить на мелкие фракции и проверить вхождения. Для разбивки можно использовать любой сервис, например, SemTools.guru.

Тематические слова JustMagic 

Тематические слова в Just-magic.org

Тематические слова в Just-magic.org 

Принцип, похожий на предыдущий пункт. Андрей советует брать биграммы запроса, потому что в Яндексе очень много оценок и таргетов именно по биграммам. И если мы построим частотный словарь, то увидим, что основные интенты с какими-то нашими словами присутствуют рядом. Это означает, что все корректно собралось.

Дальше берем все наши униграммы, биграммы, тематические слова и просто проверяем текст:

Тематические слова в Just-magic.org

Если мы видим примерно такую картину, это означает, что текст условно релевантный. То есть в нем есть все подзаголовки, вхождения запросов и это работает.

Релевантные предложения в Seolemma

В сервисе Seolemma есть функция релевантный пассаж. То есть в нем можно посмотреть вхождение ключа у себя и у конкурентов. Просто сравнить.

Если у вас, допустим, все вхождения ключевых слов с какими-то словами, которые несут смысл «с водой», то сервис покажет, что IDF маленький. А если с какими-то запросами, которые имеют смысл, то IDF большой.

Сервис не от Яндекса, но у него своя база, примерно в 30 миллионов URL, поэтому можно на него ориентироваться.

Как выглядят релевантные предложения: 

релевантные предложения

Можно делать в тексте несколько подобных вкраплений. Мы берем любой запрос, проверяем нулевой сниппет в Яндексе или в Google и стараемся в тексте у себя сделать такое же пояснение. 

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Игорь
    1
    комментарий
    0
    читателей
    Игорь
    4 месяца назад
    это информация максимум уровня middle seo. что такой проходняк делает в секции hard seo когда-то великой ашмановки, еще и в исполнении токсичного инфоцыгана большая загадка)) ходил последние 5 лет на нее, но больше пожалуй не стоит
    -
    1
    +
    Ответить
  • Shimmer
    1
    комментарий
    0
    читателей
    Shimmer
    4 месяца назад
    Работаю в Контентим, мы плотно работаем с SEO-оптимизацией. Но сейчас тексты все чаще отдают в подряд ИИ - с дальнейшей проверкой. Интересно, будут ли преференции или наоборот, игнор одних нейросетей по отношению к другим? И как вообще такие тексты будут оцениваться алгоритмами.
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Накрутка поведенческих факторов: дорого, сложно, но можно. Если очень хочется
Oleg_bobr2012
1
комментарий
0
читателей
Полный профиль
Oleg_bobr2012 - Мда...Может Анне сразу в Яндекс написать кейсы по накрутке ПФ. Я бы такого сотрудника гнал вон.
28 способов повысить конверсию интернет-магазина
Татьяна
1
комментарий
0
читателей
Полный профиль
Татьяна - Очень действенные рекомендации представлены в статье! Всё четко расписано и легко внедряемо в работу интернет-магазинов.Удобство и наглядность+различные бонусы и скидки-именно то, что и цепляет покупателя.
Создали ресурс для металлургов, который позволяет следить за аналитикой рынка и осуществлять продажи
Наталья Сталь
3
комментария
0
читателей
Полный профиль
Наталья Сталь -
Какие сайты лидировали в поиске Яндекса и Google в 2023 году
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Если что по рейтингу вы не правы, есть ядро по которому производиться оценка и вы можете по нему самостоятельно все посмотреть. Единственный объективный рейтинг по SEO. Других не знаю Ну я вам скажу что это не так и в предыдущие года сайт моего клиента попадал в рейтинг, при чем несколько раз. И я прекрасно знал еще до объявления результатов кто лидер - рейтинг прозрачный, есть фразы по которым набираются баллы. В этом году наш сайт не попал в рейтинг например и это было понятно, что не попадет (по статистике позиций)
5 способов увидеть сайт глазами поисковика: анализируем скрытый контент и cloaking
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Сейчас клоаку прячут, так что под нее можно глянуть только с гуггловских ip. Сейчас только гуггл сервисами можно глянуть
Михаил Сливинский (Яндекс): об алгоритмах качества в поиске, сгенерированных текстах и накрутке ПФ
Анна Макарова
388
комментариев
0
читателей
Полный профиль
Анна Макарова - Интересно, из каких именно слов Михаила, вы сделали такой вывод?
Optimization 2023: текстовый анализ в 2024 году и методы увеличения релевантности страниц
Игорь
1
комментарий
0
читателей
Полный профиль
Игорь - это информация максимум уровня middle seo. что такой проходняк делает в секции hard seo когда-то великой ашмановки, еще и в исполнении токсичного инфоцыгана большая загадка)) ходил последние 5 лет на нее, но больше пожалуй не стоит
5 ошибок отдела продаж, из-за которых вы теряете клиентов
Андрей
1
комментарий
0
читателей
Полный профиль
Андрей - Крутая статья! Можно еще указать: Работу без CRM-системы - я считаю, что это основа отдела продаж. Потому что не все компании решаются на внедрение отдельно системы для отдела продаж. Но зато можно что то многофункциональное внедрить аспро.клауд или что то подобное
Контекстная реклама, таргет и SEO вошли в топ-3 каналов продвижения бизнеса в 2023 году
Сергей
1
комментарий
0
читателей
Полный профиль
Сергей - Например, так {censored} - продвижение карточки в органике Google :) Также в Яндекс.Директ есть направление контекста для маркетплейсов.
Как продвигать сайт на Tilda: особенности продвижения и рекомендации специалистов
Konstantin Bulgakov
15
комментариев
0
читателей
Полный профиль
Konstantin Bulgakov - Спасибо за рекомендации, полезно. Но кажется, что тематика в кейсе не самая конкурентная + часть запросов в продвижение брендовые, там и без сео позиции будут в топе.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
388
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
120
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
64
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!