×
Россия +7 (495) 139-20-33

Что такое алгоритм «Королев» и как он работает

Россия +7 (495) 139-20-33
Шрифт:
1 9754

Партнерский материал

Что такое «Королев» и как он эволюционировал из «Палеха»?

Алгоритм «Королев» – логическое продолжение «Палеха», но с рядом существенных особенностей.

Известно, что поиск определяет тематику. Человек, как правило, не отдает себе отчета о механизмах, которые задействованы в акте определения темы сообщения. Например, заводя речь о предмете в каком-либо контексте, мы можем не называть его прямо, а описывать с помощью признаков.

Так, например, услышав «у него неплохой объектив», «зеркалка лучше, чем беззеркалка», «видоискатель в этой модели не нужен», «хорошее фокусное расстояние», мы понимаем, о чем идет речь, хотя слово «фотоаппарат» произнесено не было.

Мы не понимаем, как это работает в голове человека. Но для организации информативного и полезного поиска, очень важно четко представлять эти процессы. В классическом понимании это работает так. (Рис.1)

Рис 1.jpg

Рис. 1. Пример определения тематики поисковыми системами

Представим трехмерное пространство, в котором существует три вектора, соответствующие словам «мыть», «окно» и «рама». Возьмем простенькое школьное предложение: «Мама мыла раму». Вполне очевидно, что имеется некоторое соответствие между вектором тематики и словами «мама», «мыть» и «рама» в этой фразе.

Это чрезвычайно упрощенное представление, как работает механизм определения тематики. И именно из-за своей простоты оно имеет ряд существенных ограничений, одним из которых является:

Большое количество слов в русском языке – около 1 000 000.

Причем это, если взять только общеупотребительные слова и предварительно лематизировать их – привести к начальной словоформе. Это объясняет невысокую скорость вычислений. Для трехмерного пространства на рис.1 посчитать вектор тематики легко, но для пространства в миллион измерений уже достаточно тяжело произвести сравнение между векторами.

Поэтому возникла необходимость разработки методов сжатия матрицы. На сегодняшний день в SEO основными являются два:

  • LSI,
  • Сжатие нейросетями.

К недостаткам LSI относят:

  • Необходимость заранее знать количество возможных тематик.
  • Невозможность изменять получившееся сжатие, добавлять к нему новые данные, например, о предпочтениях пользователей.
  • Возможность оперировать только группами, а не парами запрос-документ, которые представляют наибольший интерес с точки зрения ранжирования.

Нейросети лишены этих недостатков. Помимо сжатия размерности матрицы, они обладают очень важным преимуществом – возможностью сравнивать разные величины:

  • Запрос-запрос.
  • Запрос-заголовок (как делалось в «Палехе»).
  • Запрос-документ (как делается в «Королеве»).

Важным принципиальным отличием всех самообучающихся алгоритмов, и в том числе нейросетей, является возможность решить задачу в будущем, которую мы не знаем, как решить, на данный момент. Мы даем нейросети не строго определенную программу, мы даем ей область, на которой она должна будет научиться – обучающую выборку.

Нейросети состоят из нейронов – специальных алгоритмов, которые выполняют одно простое действие – берут входные данные и складывают их. «Обучение» нейронов происходит за счет изменения связей между ними.

Архитектура нейросети предполагает наличие:

  • Входного слоя, куда поступают данные.
  • Промежуточного (скрытого) слоя, где происходят вычисления.
  • Выходного слоя, откуда мы данные получаем.

Рис 2.jpg

Рис. 2. Архитектура нейросети

Нейросеть умеет очень хорошо сжимать размерность векторного пространства. Миллион слов она вполне способна сжать без потери качества до ста.

Как работают алгоритмы определения релевантности без ключевых слов?

Возьмем словосочетание «корова гуляет». Оперировать в поиске можно различными вариантами:

  • Буквенными 3-граммами: кор, оро, ров, ова ….
  • Словами: корова, гуляет
  • Биграммами: корова гуляет.

Алгоритм «Королев» оперирует сразу всеми тремя пунктами, учится на пользовательских данных и создает пары векторов, которые потом сравнивает: вектор запрос с вектором документ.

С этого момента начинается SEO-мифология. Если поиск не оперирует таким понятием, как ключевое слово, почему в ТОПе не присутствуют сайты, в которых ключевых слов не содержится?

Все очень просто. В поиске существует иерархия ранжирования. Поиск не применяет одну и ту же формулу ко всем документам. Сначала он применяет просто формулу ко всем документам, потом применяет формулу посложнее, чтобы выбрать 100–150 документов, потом выбирает из, допустим, ста – 10.

Самые первые этапы ранжирования назывались раньше «прохождением кворума», когда отбираются документы, которые в принципе могут ответить на задаваемый вопрос из многих миллионов или даже миллиардов кандидатов. И на данном этапе алгоритм «Королев» НЕ РАБОТАЕТ. То есть он не может отобрать релевантный документ, если в нем не содержится ключевых слов. Поэтому те документы, которые присутствуют в ТОПе, так или иначе будут содержать какие-то ключевики, достаточные для прохождения кворума. Это самое обязательное жесткое условие.

Поэтому, когда вы пытаетесь анализировать выдачу, не надо пытаться искать сайты без ключевых слов. Вы их, скорее всего, не найдете, а если и найдете, то на этот сайт будет вести ссылка с анкором, содержащим ключ.

Как учитываются предпочтения пользователей?

Стандартная рекомендация: «Продолжайте развивать сайт для пользователей в соответствии с нашими рекомендациями, и со временем он сможет быть представлен в поиске на более высоких позициях» – НЕ РАБОТАЕТ, если вы пытаетесь развивать ресурс без ориентации на поисковую оптимизацию.

Сложности, связанные с учетом предпочтений пользователей

  • Нет датасета пользовательских действий.
  • Нет асессорских оценок на релевантность запросов, с помощью которых поиск обучает свою нейросеть.

Но не все так плохо! Есть и пара приятных моментов:

  • Есть выдача Яндекса, из которой можно получить сигналы тематичности.
  • Нет жестких ограничений по времени, вам не нужно укладываться в жесткие временные рамки, как поисковым системам.

Нам нужно из поисковой выдачи взять документы и попробовать опереться на то, как эти документы отранжированы, (но не слишком сильно, потому что сигнал «Королева» на данный момент достаточно слабый) и попытаться представить их в понятном для человека виде.

Людям трудно оперировать буквенными триграммами и отдельно взятыми словами, вырванными из контекста, нужно делать минимум биграммы. Но данный процесс можно автоматизировать, например, с помощью инструмента «Акварель».

Рис 3.2.jpg

Рис. 3. Технические вектора на основе алгоритма «Акварели»

Он разбирает слова документа вниз до сотого, цепляет дополнительные документы из коллекции, которые похожи по своему словарному составу, ведет учет межсловных расстояний. В результате получается достаточно хороший тематический вектор. Использовать можно разные инструменты, важно проводить эту работу, так как с нарастанием влияния «Королева», по моей оценке, это будет схожим по значимости фактором ранжирования вместе с вхождением ключевых слов.

Рис 4.png

Рис. 4. Разметка документа на медианную тематичность слова

На рис. 4 показана разметка документа на так называемую медианную тематичность слова. Для каждого отдельного слова была просчитана тематичность векторов запроса (т.е. для каждого запроса был составлен тематический вектор), посчитана релевантность каждого отдельного слова и представлена в виде графика, то есть насколько этот показатель зависит от позиций. Оказалось, что зависимость есть, и наиболее ярко она выражена в ТОП 10. За пределами «заветной десятки» ее практически нет. Причем наиболее заметно это явление выражено среди информационных запросов.

Что следует запомнить?

  • Про термин LSI можно забыть.
  • Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.
  • LSI тематичные слова тоже нужны. Их влияние по мере совершенствования алгоритма будет увеличиваться.
  • Процесс получения и контроля употребления тематичных слов нужно встроить в процесс наравне с ключами.

Как быть с текстами в условиях «Королева» и «Бадена»

«Баден» интересен тем, что он учитывает сразу несколько показателей и не опирается исключительно на количество вхождений, расчет спамности и т.д. Он работает совокупно. Поэтому анализируя тексты конкурентов, которые обогнали вас в выдаче, нужно учитывать не только ключи и количество их вхождений, но и как минимум – спамность, тематичность и индекс удобочитаемости текста.

Под спамностью подразумевается не количество ключей, которые там используются, а сам характер текста. Индекс удобочитаемости следует использовать в адаптированном виде для русскоязычных текстов. Но «враги» хорошего текста в принципе общие для разных языков – редкие малознакомые слова, длинные предложения.

Не следует делать текст исключительно из тематичных слов без общей лексики. Вопрос в их достаточном количестве. Проверить текста на переизбыток ключей и их синонимов достаточно просто. Нужно удалить их из текста и прочитать результат, если вам по-прежнему понятно, о чем идет речь – текст хороший. Нужно помнить, что оценка тематичности у всех сервисов является субъективной и не копирует поиск, так как не располагает достаточными данными.

Подробно про работу в условиях Королёва и Палеха я буду рассказывать на своем мастер-классе «Продвижение сайта услуг» 7–9 октября в Москве. Основная повестка мероприятия – это продвижение сайтов услуг. Мастер-класс для тех, кто продвигает свои услуги в поисковых системах, например, заказ такси, заказ эвакуаторов, медицинские услуги, стоматология, турагентства и т.д.

(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • филипп лоывлов
    10
    комментариев
    0
    читателей
    филипп лоывлов
    больше года назад
    >>>Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.

    С первой частью согласен. Со второй - не совсем, если, конечно, верить Яндексу.
    В статье на хабре они рассказывали о том, что часть задач Королева выносятся даже за пределы L0 - на этап индексирования. Поэтому в принципе возможен вариант, когда в ТОП попадут документы без ключей вообще. Но это нечастый случай, и уж точно не в тематиках "кредитные карты" и "рег...
    >>>Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.

    С первой частью согласен. Со второй - не совсем, если, конечно, верить Яндексу.
    В статье на хабре они рассказывали о том, что часть задач Королева выносятся даже за пределы L0 - на этап индексирования. Поэтому в принципе возможен вариант, когда в ТОП попадут документы без ключей вообще. Но это нечастый случай, и уж точно не в тематиках "кредитные карты" и "регистрация сро"

    >>>Про термин LSI можно забыть. LSI тематичные слова тоже нужны. Их влияние по мере совершенствования алгоритма будет увеличиваться.

    Так забыть или не забыть? Учитывая, что сами по себе эти слова могут увеличить вектор запрос-документ, то как-то странно звучит предложение от них отказываться. Другой вопрос, что считать их хотелось бы не по принципу "а вот такие слова есть на других документах в ТОПе", а как-то более численно.
    -
    5
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Алгоритм продвижения сайта через Pinterest
Виктор Гаврюков
27
комментариев
1
читатель
Полный профиль
Виктор Гаврюков - В самом вверху есть ссылка на мою группу в ВК, там где автор материала. Через группу и свяжитесь со мной_)
Ссылочный апдейт Google: что изменится для SEO-специалистов в рунете
Тимур
6
комментариев
0
читателей
Полный профиль
Тимур - Понял, спасибо за информацию.
Как забрать 5 мест в выдаче из 10. Кейс-эксперимент
Виктор Гаврюков
27
комментариев
1
читатель
Полный профиль
Виктор Гаврюков - такое можно делать и с ВЧ_)
3 основные ошибки, которые допускают владельцы сайтов при продвижении
Виктор Гаврюков
27
комментариев
1
читатель
Полный профиль
Виктор Гаврюков - Не обращай внимания_) Если у тебя хороший ресурс, то ты будешь первоисточником, и все кто своровал, автоматически начнут на тебя ссылаться, точнее, так гугл будет считать_)
Как продвинуть сайт по коммерческим запросам в ТОП-10 с помощью ресурса Reddit
Denis Zar
2
комментария
0
читателей
Полный профиль
Denis Zar - пользовались услугами по продвижению на реддит от reddit-marketing.pro?
Как мы увеличили трафик из Яндекса более чем в 3 раза за неделю на сайте клиники. Кейс
Андрей
1
комментарий
0
читателей
Полный профиль
Андрей - У большинства сайтов произошел рост в Гугле в декабре и в марте Яндекса. Ваши шаманства тут не причём :)
Как доработка структуры вывела сайт в ТОП-10 Google и увеличила трафик в 2 раза. Кейс Связной Трэвел
Дмитрий
3
комментария
0
читателей
Полный профиль
Дмитрий - Вероятнее всего было обновление Google и позиции были снижены в связи с низкой скоростью загрузки страниц (так как доработке ведутся не только по SEO, но и в целом по функционалу сайта, появляются новые скрипты). В этот период в Google Search Console увеличилось количество страниц с низкой скоростью загрузки. Мы выявили несколько проблем, которые снижают скорость загрузки страниц и выдали рекомендации по их устранению. Пока данные рекомендации находятся в работе. Также был проведен анализ EAT факторов и проверка сайта на соответствие требованиям Google к YMYL сайта, выданы рекомендации по доработке данных факторов (ждем внедрения наших рекомендаций, поделимся потом результатами).
SEO для интернет-магазина зоотоваров: как привести заказы на миллион рублей в месяц. Кейс
Евгений Носенков
1
комментарий
0
читателей
Полный профиль
Евгений Носенков - >>Резюмируя свое мнение: кейс пуст, так как нет связи с конечными целями бизнеса. Если вы внимательно прочтете весь кейс, то увидите, что мы как раз считаем ключевые метрики для бизнеса, такие как CPO из органики, например. И 77 рублей за заказ со средним чеком 2000 рублей, с учетом всей расходной части (себестоимость, хранение, доставка и тд) — это более, чем рентабельно. Плюс весь оффлайн (кто посмотрел на сайте, но пришел ножками в любую из 60-ти точек) не учитывается в данном кейсе. "У меня был проект и не окупался", "В Беларуси кто-то там банкротится" — серьезный фундамент для аналитики по отрасли, ничего не скажешь. >>сейчас тут в ЗОО рентабельны чат боты и воронки А у тоннелей продаж как дела, норм с рентабельностью?)
90% специалистов выделяют бюджет на ссылки. Sape и SEOnews публикуют исследование рынка SEO
Fase Bosty
1
комментарий
0
читателей
Полный профиль
Fase Bosty - Часть рекламного бюджета тоже на ссылки трачу. Благо, что от них есть польза, поведенческие факторы повышаются. Вот только я не на биржах их покупаю, а использую сервис zenlink, ибо у них размещение ручное и на тематических площадках.
Как поступить в ситуации, когда конкурент рекламируется по вашим брендовым запросам. Кейс
Гость
47
комментариев
0
читателей
Полный профиль
Гость - поржал с Тинькофф банк и точка)))
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
385
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
114
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
92
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
62
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!