×
Россия +7 (495) 139-20-33

Что такое алгоритм «Королев» и как он работает

Россия +7 (495) 139-20-33
Шрифт:
1 9308

Партнерский материал

Что такое «Королев» и как он эволюционировал из «Палеха»?

Алгоритм «Королев» – логическое продолжение «Палеха», но с рядом существенных особенностей.

Известно, что поиск определяет тематику. Человек, как правило, не отдает себе отчета о механизмах, которые задействованы в акте определения темы сообщения. Например, заводя речь о предмете в каком-либо контексте, мы можем не называть его прямо, а описывать с помощью признаков.

Так, например, услышав «у него неплохой объектив», «зеркалка лучше, чем беззеркалка», «видоискатель в этой модели не нужен», «хорошее фокусное расстояние», мы понимаем, о чем идет речь, хотя слово «фотоаппарат» произнесено не было.

Мы не понимаем, как это работает в голове человека. Но для организации информативного и полезного поиска, очень важно четко представлять эти процессы. В классическом понимании это работает так. (Рис.1)

Рис 1.jpg

Рис. 1. Пример определения тематики поисковыми системами

Представим трехмерное пространство, в котором существует три вектора, соответствующие словам «мыть», «окно» и «рама». Возьмем простенькое школьное предложение: «Мама мыла раму». Вполне очевидно, что имеется некоторое соответствие между вектором тематики и словами «мама», «мыть» и «рама» в этой фразе.

Это чрезвычайно упрощенное представление, как работает механизм определения тематики. И именно из-за своей простоты оно имеет ряд существенных ограничений, одним из которых является:

Большое количество слов в русском языке – около 1 000 000.

Причем это, если взять только общеупотребительные слова и предварительно лематизировать их – привести к начальной словоформе. Это объясняет невысокую скорость вычислений. Для трехмерного пространства на рис.1 посчитать вектор тематики легко, но для пространства в миллион измерений уже достаточно тяжело произвести сравнение между векторами.

Поэтому возникла необходимость разработки методов сжатия матрицы. На сегодняшний день в SEO основными являются два:

  • LSI,
  • Сжатие нейросетями.

К недостаткам LSI относят:

  • Необходимость заранее знать количество возможных тематик.
  • Невозможность изменять получившееся сжатие, добавлять к нему новые данные, например, о предпочтениях пользователей.
  • Возможность оперировать только группами, а не парами запрос-документ, которые представляют наибольший интерес с точки зрения ранжирования.

Нейросети лишены этих недостатков. Помимо сжатия размерности матрицы, они обладают очень важным преимуществом – возможностью сравнивать разные величины:

  • Запрос-запрос.
  • Запрос-заголовок (как делалось в «Палехе»).
  • Запрос-документ (как делается в «Королеве»).

Важным принципиальным отличием всех самообучающихся алгоритмов, и в том числе нейросетей, является возможность решить задачу в будущем, которую мы не знаем, как решить, на данный момент. Мы даем нейросети не строго определенную программу, мы даем ей область, на которой она должна будет научиться – обучающую выборку.

Нейросети состоят из нейронов – специальных алгоритмов, которые выполняют одно простое действие – берут входные данные и складывают их. «Обучение» нейронов происходит за счет изменения связей между ними.

Архитектура нейросети предполагает наличие:

  • Входного слоя, куда поступают данные.
  • Промежуточного (скрытого) слоя, где происходят вычисления.
  • Выходного слоя, откуда мы данные получаем.

Рис 2.jpg

Рис. 2. Архитектура нейросети

Нейросеть умеет очень хорошо сжимать размерность векторного пространства. Миллион слов она вполне способна сжать без потери качества до ста.

Как работают алгоритмы определения релевантности без ключевых слов?

Возьмем словосочетание «корова гуляет». Оперировать в поиске можно различными вариантами:

  • Буквенными 3-граммами: кор, оро, ров, ова ….
  • Словами: корова, гуляет
  • Биграммами: корова гуляет.

Алгоритм «Королев» оперирует сразу всеми тремя пунктами, учится на пользовательских данных и создает пары векторов, которые потом сравнивает: вектор запрос с вектором документ.

С этого момента начинается SEO-мифология. Если поиск не оперирует таким понятием, как ключевое слово, почему в ТОПе не присутствуют сайты, в которых ключевых слов не содержится?

Все очень просто. В поиске существует иерархия ранжирования. Поиск не применяет одну и ту же формулу ко всем документам. Сначала он применяет просто формулу ко всем документам, потом применяет формулу посложнее, чтобы выбрать 100–150 документов, потом выбирает из, допустим, ста – 10.

Самые первые этапы ранжирования назывались раньше «прохождением кворума», когда отбираются документы, которые в принципе могут ответить на задаваемый вопрос из многих миллионов или даже миллиардов кандидатов. И на данном этапе алгоритм «Королев» НЕ РАБОТАЕТ. То есть он не может отобрать релевантный документ, если в нем не содержится ключевых слов. Поэтому те документы, которые присутствуют в ТОПе, так или иначе будут содержать какие-то ключевики, достаточные для прохождения кворума. Это самое обязательное жесткое условие.

Поэтому, когда вы пытаетесь анализировать выдачу, не надо пытаться искать сайты без ключевых слов. Вы их, скорее всего, не найдете, а если и найдете, то на этот сайт будет вести ссылка с анкором, содержащим ключ.

Как учитываются предпочтения пользователей?

Стандартная рекомендация: «Продолжайте развивать сайт для пользователей в соответствии с нашими рекомендациями, и со временем он сможет быть представлен в поиске на более высоких позициях» – НЕ РАБОТАЕТ, если вы пытаетесь развивать ресурс без ориентации на поисковую оптимизацию.

Сложности, связанные с учетом предпочтений пользователей

  • Нет датасета пользовательских действий.
  • Нет асессорских оценок на релевантность запросов, с помощью которых поиск обучает свою нейросеть.

Но не все так плохо! Есть и пара приятных моментов:

  • Есть выдача Яндекса, из которой можно получить сигналы тематичности.
  • Нет жестких ограничений по времени, вам не нужно укладываться в жесткие временные рамки, как поисковым системам.

Нам нужно из поисковой выдачи взять документы и попробовать опереться на то, как эти документы отранжированы, (но не слишком сильно, потому что сигнал «Королева» на данный момент достаточно слабый) и попытаться представить их в понятном для человека виде.

Людям трудно оперировать буквенными триграммами и отдельно взятыми словами, вырванными из контекста, нужно делать минимум биграммы. Но данный процесс можно автоматизировать, например, с помощью инструмента «Акварель».

Рис 3.2.jpg

Рис. 3. Технические вектора на основе алгоритма «Акварели»

Он разбирает слова документа вниз до сотого, цепляет дополнительные документы из коллекции, которые похожи по своему словарному составу, ведет учет межсловных расстояний. В результате получается достаточно хороший тематический вектор. Использовать можно разные инструменты, важно проводить эту работу, так как с нарастанием влияния «Королева», по моей оценке, это будет схожим по значимости фактором ранжирования вместе с вхождением ключевых слов.

Рис 4.png

Рис. 4. Разметка документа на медианную тематичность слова

На рис. 4 показана разметка документа на так называемую медианную тематичность слова. Для каждого отдельного слова была просчитана тематичность векторов запроса (т.е. для каждого запроса был составлен тематический вектор), посчитана релевантность каждого отдельного слова и представлена в виде графика, то есть насколько этот показатель зависит от позиций. Оказалось, что зависимость есть, и наиболее ярко она выражена в ТОП 10. За пределами «заветной десятки» ее практически нет. Причем наиболее заметно это явление выражено среди информационных запросов.

Что следует запомнить?

  • Про термин LSI можно забыть.
  • Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.
  • LSI тематичные слова тоже нужны. Их влияние по мере совершенствования алгоритма будет увеличиваться.
  • Процесс получения и контроля употребления тематичных слов нужно встроить в процесс наравне с ключами.

Как быть с текстами в условиях «Королева» и «Бадена»

«Баден» интересен тем, что он учитывает сразу несколько показателей и не опирается исключительно на количество вхождений, расчет спамности и т.д. Он работает совокупно. Поэтому анализируя тексты конкурентов, которые обогнали вас в выдаче, нужно учитывать не только ключи и количество их вхождений, но и как минимум – спамность, тематичность и индекс удобочитаемости текста.

Под спамностью подразумевается не количество ключей, которые там используются, а сам характер текста. Индекс удобочитаемости следует использовать в адаптированном виде для русскоязычных текстов. Но «враги» хорошего текста в принципе общие для разных языков – редкие малознакомые слова, длинные предложения.

Не следует делать текст исключительно из тематичных слов без общей лексики. Вопрос в их достаточном количестве. Проверить текста на переизбыток ключей и их синонимов достаточно просто. Нужно удалить их из текста и прочитать результат, если вам по-прежнему понятно, о чем идет речь – текст хороший. Нужно помнить, что оценка тематичности у всех сервисов является субъективной и не копирует поиск, так как не располагает достаточными данными.

Подробно про работу в условиях Королёва и Палеха я буду рассказывать на своем мастер-классе «Продвижение сайта услуг» 7–9 октября в Москве. Основная повестка мероприятия – это продвижение сайтов услуг. Мастер-класс для тех, кто продвигает свои услуги в поисковых системах, например, заказ такси, заказ эвакуаторов, медицинские услуги, стоматология, турагентства и т.д.

(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Ане Макаровой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • филипп лоывлов
    10
    комментариев
    0
    читателей
    филипп лоывлов
    больше года назад
    >>>Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.

    С первой частью согласен. Со второй - не совсем, если, конечно, верить Яндексу.
    В статье на хабре они рассказывали о том, что часть задач Королева выносятся даже за пределы L0 - на этап индексирования. Поэтому в принципе возможен вариант, когда в ТОП попадут документы без ключей вообще. Но это нечастый случай, и уж точно не в тематиках "кредитные карты" и "рег...
    >>>Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.

    С первой частью согласен. Со второй - не совсем, если, конечно, верить Яндексу.
    В статье на хабре они рассказывали о том, что часть задач Королева выносятся даже за пределы L0 - на этап индексирования. Поэтому в принципе возможен вариант, когда в ТОП попадут документы без ключей вообще. Но это нечастый случай, и уж точно не в тематиках "кредитные карты" и "регистрация сро"

    >>>Про термин LSI можно забыть. LSI тематичные слова тоже нужны. Их влияние по мере совершенствования алгоритма будет увеличиваться.

    Так забыть или не забыть? Учитывая, что сами по себе эти слова могут увеличить вектор запрос-документ, то как-то странно звучит предложение от них отказываться. Другой вопрос, что считать их хотелось бы не по принципу "а вот такие слова есть на других документах в ТОПе", а как-то более численно.
    -
    5
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Кейс: как за 30 дней вывести новый сайт в ТОП выдачи Google
Сергей
2
комментария
0
читателей
Полный профиль
Сергей - Прошёл у Паши курс год назад, пытался продвигать свой сайт portativ.org.ua, но особых продвижений нет. Наверное сео уже умерло??
Как стандартизировать данные семантики с помощью логарифмов
Юлий
1
комментарий
0
читателей
Полный профиль
Юлий - Чем снималась коммерцелизация?
Облако тегов в интернет-магазине: прикладная инструкция по увеличению трафика
Юлия Дмитриева
2
комментария
0
читателей
Полный профиль
Юлия Дмитриева - Согласна с вами, что в любом деле важен индивидуальный подход:)
Специалисты в Рунете заметили глобальную накрутку поведенческих факторов
Дмитрий Кулаевский
1
комментарий
0
читателей
Полный профиль
Дмитрий Кулаевский - кто-нибудь знает как с этим бороться? очень много такого трафа идёт с июля, сайт сильно просел
Яндекс возобновил «показательные порки» за накрутку поведенческих факторов
Антон
1
комментарий
0
читателей
Полный профиль
Антон - Никакой не выпал. Кроме клиентского сайта, который проседал из-за скрутки, о чем Я.Поиску сообщали и клиенту тоже. Ноль реакции от поисковика (продолжайте развивать сайт, никаких проблем нет ...). Клиенту надоело и он заказал накрутку у подрядчиков. Мы искренне ждали бана, сообщали об этом клиенту, т.к. мы все таки делаем все остальное для развития. Как итог: с лета полет нормальный. Сайт растет, никаких проблем. Случайно даже стажер палил тех поддержке факт использования накрутки. И ничего. Сайт растет дальше. Если они не могут ничего принять даже после признания факта накрутки, что они могут сделать с жалобами на накрутку конкурентов?! Никогда не одобряли данные методы, но ... похоже ... все работает :)
Михаил Ляшенко (PostMarket): о рынке инфлюенс-маркетинга и рекламе у блогеров
Григорий Романченко
1
комментарий
0
читателей
Полный профиль
Григорий Романченко - Неудивительно, что все хвалят PostMarket, это действительно достойный сервис, недавно стали через них продвигать свой продукт, результаты есть, продажи выросли на 40% и это только начало.
«Нет в наличии»: что делать с карточками отсутствующего товара
freyr energy
1
комментарий
0
читателей
Полный профиль
freyr energy - Thank you so much @ admin for share your valuable thoughts and ideas We always enjoy your articles its inspired a lot by reading your articles day by day. So please accept my thanks and congrats for success of your latest series. We hope, you should published more better articles like ever before solar rooftop
15 языков программирования, за знание которых платят выше среднего
Любомир
2
комментария
0
читателей
Полный профиль
Любомир - Ну и ЗП: ни слова о том что она варируеться от 0 до 100 000$ в год!!! Что до высокой зп надо несколько лет етим заниматся! Что 100 000$ в год на западе заробатывают, а где нибудь в азиатских страннах 100$ в год. В СНГ первые годы в разработчика ЗП как в грузчика на складе - это где то 4-5 тыс. долларов в год, и уже имея несколько лет опыта возможно дойти до 10-20 тыс. долларов в год! Почему нет конкретики? Меня лично нервирует то что людям внушают великие ЗП в АйТи, а люди тупые и ведутся!!!!
Сколько стоит SEO на фрилансе. Кейсы
Людмила
1
комментарий
0
читателей
Полный профиль
Людмила - Очень спорная статья. Особенно оценка. К примеру, за 1500 руб. 200 вечных ссылок с быстрой индексацией. Это про какой год? Про 2020? Точно? Собственно, в текущих реалиях при хорошем раскладе за эти деньги можно получить 3-4 качественные ссылки. А никак не 200. Если 200, то такие ссылки, по 7,5 руб. за штуку выбьют сайт за ТОП-100. А заказчик будет в шоке, он же все правильно делал, по инструкции из статьи в уважаемом издании.
Яндекс тестирует оценки сайта в сниппете
Сергей Демин
8
комментариев
0
читателей
Полный профиль
Сергей Демин - вопрос такой: где получить оценку о сайте? а не об организации
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
384
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
113
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
92
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
60
Комментариев
59
Комментариев
57

Отправьте отзыв!
Отправьте отзыв!