×
Россия +7 (909) 261-97-71

Optimization 2023: текстовый анализ в 2024 году и методы увеличения релевантности страниц

Россия +7 (909) 261-97-71
Шрифт:
2 11253
Подпишитесь на нас в MAX

На Optimization 2023 в рамках секции «Hard SEO» независимый SEO-эксперт Андрей Джилавдаров выступил с докладом «Текстовый анализ в 2024 году».

Андрей рассказал:

  • Как нейросети помогают улучшить качество поиска. 
  • Как считывать интент, определенный нейросетью, и как выявить под него маркерные запросы для анализа. 
  • Показал практические методы увеличения релевантности страниц в конкурентных нишах, чтобы быть не «как все».

Все обзоры ищите по тегу Optimization 2023.

Текстовое ранжирование

Задача поиска – оценить и дать ответ. Для этого у него есть инструменты (ML-машинное обучение, факторы ранжирования, нейросети), оценки экспертов и метрики качества поиска, то есть то, что поиск считает хорошим ответом.

История качества поиска

  • Если посмотреть на историю качества поиска, то до 2016 года работали простые вещи (TF-IDF, ВМ-25, BCLM) – все, что связано с вхождениями ключевых слов, количеством вхождений, порядком слов. 
  • С 2016 года были запущены первые нейросети – Палех и Королев (DSSM), а также таргеты на обучение – поведенческие факторы. 
  • В 2019 году произошло первое обучение нейросетей на экспертных оценках. Тогда можно было поставить одно слово в Title и попасть в ТОП. Это были первые обучения нейросетей на экспертной оценке. 
  • В 2020 году появилась новая архитектура для анализа текста – трансформер YATI. 
  • В 2021-2022 году произошло дообучение практически во всех экспертных нишах, которые было важно оценить. Первоначально там была медицина, но потом подтянули и остальные.

Коротко про YATI

YATI – это просто еще один трансформер с улучшениями. 

Схема устройства работы YATI

Схема устройства работы YATI

Эта такая модель или архитектура, которая рассматривает текст как последовательность токенов. Слово – это один токен. И так как эта модель видит текст полностью, она превращает каждое слово в тексте в семантический вектор, который передает смысл слова в этом предложении.

В трансформерах есть механизм self-attention, поэтому он получает информацию и с окружающих слов, то есть со всего текста вообще. Таким образом, получаем контекстозависимый смысл слова во всем большом тексте.

При обучении YATI использовали такую же модель обучения, как в BERT, Masked Language Model, когда половину слов в текстах закрывали и просили модель предсказывать эти слова. Если она их корректно восстанавливала, тогда считали, что они ее обучили. Но параллельно с этим они также просили ее угадать, был ли клик по документу, по данному запросу.

Дальше нейросеть нужно обучить на более сложные таргеты. Здесь используются накопленные данные Яндекса, такие как разметки по качеству хоста, разметки по релевантности страниц и многоаспектные оценки от экспертов.

Как улучшить качество поиска в сложных тематиках?

Сложные тематики – медицина, техника, финансы, юриспруденция, софт, программирование и другие. Суть общая: обычный человек, не эксперт, вряд ли сможет понять, что релевантно в выдаче по запросу, а что нет.

В чем могут быть проблемы?

  1. Проблемы с метриками. Допустим, люди-асессоры не знают сложную тему и могут формально поставить релевантную оценку не тому сайту. 
  2. Проблемы с моделями. Например, когда модели не видят каких-то слов, сленга или какой-то контент части документа. 
  3. Проблемы с количеством релевантных хостов или документов в индексе. Например, когда Google выкатил BERT, то оказалось, что Google показывает в выдаче большой пласт медицинских сайтов региональных клиник, в то время как в Яндексе эти сайты по медицинским запросам не брались даже в первичную обработку.

В 2021-2022 году Яндекс улучшил нейросеть:

  • добавили релевантные предложения; 
  • добавили в документную часть заголовки, начало текста документа (60 символов) и description документа. То есть описание документа, который SEO-шники никогда не заполняли, сейчас тоже идет в нейросеть, в представление документа.

Что такое релевантное предложение?

Когда человек ищет текст, поиск выбирает нужное вхождение на подходящем сайте и забирает релевантный текст вокруг. Этот текст идет в представление расширения документа.

Еще один важный пункт – сейчас, когда пользователь задает запрос, сразу определяется его тематика. Затем из индекса уже выбирается группа сайтов нужной тематики и среди них идет ранжирование.

Качества, которым должен обладать ответ

  1. Релевантность страницы. Ответ должен соответствовать потребности пользователя (содержать нужные вхождения). 
  2. Наполненность страницы. Ответ должен быть полным, учитывать все возможные интенты пользователя. Это означает, что по многим тематикам, например, медицинским, есть эталонные ответы. 
  3. Регион пользователя. Если содержание ответа зависит от региона, хорошей будет только та страница, которая соответствует региону пользователя. 
  4. Актуальность информации. Если содержание ответа меняется со временем, хорошим будет тот сайт, который содержит самую свежую на данный момент информацию. 
  5. Соответствие ОС. Мобильной или десктопной версии для разных пользователей. 
  6. Язык запроса. Ответ на языке пользователя лучше, чем ответ на любом другом языке. 
  7. Доверие к источнику (EAT). Ресурс, предоставляющий ответ, должен быть авторитетным. Нейросеть отлично понимает, что за ресурс перед ней, и какого он качества.

Интенты

На скриншоте представлен список интентов, которые есть в медицине. 

Интенты в запросах на медицинскую тему

Интенты в запросах на медицинскую тему

Но что делать, когда интента в запросе нет?

Смотрим, что подается сейчас в YATI для представления документа: 

Пример представления документа в YATI

Пример представления документа в YATI

Тут есть Title, подзаголовки, начало контента, разбивка URL, то есть, виден хост, ЧПУ и description и релевантные предложения. Поэтому, когда вы анализируете запросы, вы можете взять, например, ТОП-30 выдачи и посмотреть у сайтов все эти зоны и построить частотный словарь. 

Нейросеть выводит те документы наверх, где прописаны четкие интенты.

По словам Андрея, сейчас один из самых продуктивных подходов – это просто взять вашу вершину кластеров, посмотреть, какие в них есть интенты, и составить из них четкое, подробное ТЗ, где будут прописаны все пункты по тексту.

То есть мы идем не от того, что у нас есть какие-то ключевые слова, мы идем от того, что у нас есть интенты, у каждого интента есть своя семантика, нужно просто встраивать ее в статью.

Структура статьи, где каждая часть закрывает свой интент

Структура статьи, где каждая часть закрывает свой интент

Но SEO-специалисты хотят оптимизировать.

Как увеличить релевантность страниц?

Что можно сделать еще:

1.    Длинные вхождения ключевых слов (3 и более слова) используем в Title и подзаголовках. 

2. Вхождения ключей:

  • из семантики делаем частотный словарь по униграммам, биграммам и триграммам;
  • проверяем покрытие текста ключами из словаря.

3. В акварель генераторе just-magic.org. используем одно или несколько частотных ключевых слов:

  • проверяем покрытие текста биграммами из сервиса.

4. Делаем релевантные предложения = тексты для нулевых сниппетов.

Эти простые вещи помогают поднять релевантность текста.

Скоринг запросов по весу Seo-excel

Из ключей с частотностью можно построить скоринг или по-другому «Частотность Климова». 

Скоринг запросов по весу Seo-excel

Скоринг запросов по весу Seo-excel

На скриншоте в самом верху два запроса. Отличие только по окончанию. Смысл в том, что наверху находятся все запросы, которые покрывают правильным порядком слов менее частотные запросы. Поэтому можно сделать похожую разбивку и понять, что возьмете в title, а что возьмете в подзаголовки.

Про семантику. Частотный словарь SemTools.guru

Частотный словарь SemTools.guru

Частотный словарь SemTools.guru

Если у вас есть много запросов, то их не надо все вставлять в текст. Достаточно просто нарезать их на униграммы, биграммы, то есть разбить на мелкие фракции и проверить вхождения. Для разбивки можно использовать любой сервис, например, SemTools.guru.

Тематические слова JustMagic 

Тематические слова в Just-magic.org

Тематические слова в Just-magic.org 

Принцип, похожий на предыдущий пункт. Андрей советует брать биграммы запроса, потому что в Яндексе очень много оценок и таргетов именно по биграммам. И если мы построим частотный словарь, то увидим, что основные интенты с какими-то нашими словами присутствуют рядом. Это означает, что все корректно собралось.

Дальше берем все наши униграммы, биграммы, тематические слова и просто проверяем текст:

Тематические слова в Just-magic.org

Если мы видим примерно такую картину, это означает, что текст условно релевантный. То есть в нем есть все подзаголовки, вхождения запросов и это работает.

Релевантные предложения в Seolemma

В сервисе Seolemma есть функция релевантный пассаж. То есть в нем можно посмотреть вхождение ключа у себя и у конкурентов. Просто сравнить.

Если у вас, допустим, все вхождения ключевых слов с какими-то словами, которые несут смысл «с водой», то сервис покажет, что IDF маленький. А если с какими-то запросами, которые имеют смысл, то IDF большой.

Сервис не от Яндекса, но у него своя база, примерно в 30 миллионов URL, поэтому можно на него ориентироваться.

Как выглядят релевантные предложения: 

релевантные предложения

Можно делать в тексте несколько подобных вкраплений. Мы берем любой запрос, проверяем нулевой сниппет в Яндексе или в Google и стараемся в тексте у себя сделать такое же пояснение. 

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Игорь
    1
    комментарий
    0
    читателей
    Игорь
    больше года назад
    это информация максимум уровня middle seo. что такой проходняк делает в секции hard seo когда-то великой ашмановки, еще и в исполнении токсичного инфоцыгана большая загадка)) ходил последние 5 лет на нее, но больше пожалуй не стоит
    -
    0
    +
    Ответить
  • Shimmer
    1
    комментарий
    0
    читателей
    Shimmer
    больше года назад
    Работаю в Контентим, мы плотно работаем с SEO-оптимизацией. Но сейчас тексты все чаще отдают в подряд ИИ - с дальнейшей проверкой. Интересно, будут ли преференции или наоборот, игнор одних нейросетей по отношению к другим? И как вообще такие тексты будут оцениваться алгоритмами.
    -
    1
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Как ИИ усиливает маркетинг и помогает общаться с пользователем
Иван
1
комментарий
0
читателей
Полный профиль
Иван - Классная статья, забрал Хотелось бы услышать еще от эксперта мнение про модели в таком случае и дисперсию
Тренды e-commerce 2026: рынок ждет отток с маркетплейсов?
Арина
1
комментарий
0
читателей
Полный профиль
Арина - Мы пробовали разные сервисы, но уже давно используем этот сервис tryon.mall-er.com у них есть и Визуальный поиск и Виртуальная примерка. Мы пользуемся Виртуальной примеркой очков и поиском и внедрили себе на сайт, сейчас порядка 80% нашего трафика с удовольствием пользуются данными функциями.
Накрутка ПФ vs Бизнес: как накрутка поведенческих факторов «убьет» ваш бизнес в интернете
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Вообще бред несут-пункт позиции и там и там суотрудничать,банов нет,риски и остальные пункты просто смешно,пф гораздо эффективнее чем платить в пиксель)))
Что будет с SEO в 2026: эксперты рынка подводят итоги и делают прогнозы на этот год
Марал Гаипова
142
комментария
0
читателей
Полный профиль
Марал Гаипова - Дмитрий, спасибо, эксперты и правда - топ)
Мы сократили рутину SEO-специалиста на 95% – вот архитектура, которая это сделала
Гостьkorayaskin
2
комментария
0
читателей
Полный профиль
Гостьkorayaskin - Можно также посмотреть разбор инструментов типа KeywordKick — помогает быстрее понять, где именно конфликт сигналов.
GEO-продвижение: гайд повышения видимости бренда (сайта) в нейросетях
dayitrix
3
комментария
0
читателей
Полный профиль
dayitrix - Спасибо за разбор. Сейчас как раз в процессе изучения GEO-продвижения, хочется разобраться, как вообще попадать в ответы нейросетей. Ну и смотрю, уже услуги по такому продвижению начали появляться, типа Zenlink Geo. Но пока по большей части информацию собираем, что это и стоит ли в это лезть. Но учитывая то, что люди сейчас в основном через нейронной информацию ищут, было б неплохо, чтоб нейросети нас упоминали)
Яндекс добавил продвинутую ИИ-модель в Алису на всех умных устройствах
Тимофей
1
комментарий
0
читателей
Полный профиль
Тимофей - Какой смысл усовершенствовать если в нашей стране запрещено говорить правду!
Где взять данные о GEO-видимости: 9 инструментов в одной статье
Евгений Молдовану
1
комментарий
0
читателей
Полный профиль
Евгений Молдовану - Хороший список, но используя подобные чекеры помните, что в GEO важен консенсус и если его нет, то на каждый запрос может формироваться свой ответ.
Конференция GEO 2026: как брендам попасть в ответы нейросетей
Дмитрий Севальнев
0
комментариев
0
читателей
Полный профиль
Дмитрий Севальнев - Мощно, мощно!
Что прямо сейчас можно сделать сайту регионального СМИ, чтобы получить мощный приток органического трафика
Дмитрий Севальнев
0
комментариев
0
читателей
Полный профиль
Дмитрий Севальнев - Максим, молодец! Хороший материал
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
393
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
142
Комментариев
130
Комментариев
121
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
66
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!