Россия+7 (495) 960-65-87

Что такое алгоритм «Королев» и как он работает

Россия+7 (495) 960-65-87
Шрифт:
1 7573

Партнерский материал

Что такое «Королев» и как он эволюционировал из «Палеха»?

Алгоритм «Королев» – логическое продолжение «Палеха», но с рядом существенных особенностей.

Известно, что поиск определяет тематику. Человек, как правило, не отдает себе отчета о механизмах, которые задействованы в акте определения темы сообщения. Например, заводя речь о предмете в каком-либо контексте, мы можем не называть его прямо, а описывать с помощью признаков.

Так, например, услышав «у него неплохой объектив», «зеркалка лучше, чем беззеркалка», «видоискатель в этой модели не нужен», «хорошее фокусное расстояние», мы понимаем, о чем идет речь, хотя слово «фотоаппарат» произнесено не было.

Мы не понимаем, как это работает в голове человека. Но для организации информативного и полезного поиска, очень важно четко представлять эти процессы. В классическом понимании это работает так. (Рис.1)

Рис 1.jpg

Рис. 1. Пример определения тематики поисковыми системами

Представим трехмерное пространство, в котором существует три вектора, соответствующие словам «мыть», «окно» и «рама». Возьмем простенькое школьное предложение: «Мама мыла раму». Вполне очевидно, что имеется некоторое соответствие между вектором тематики и словами «мама», «мыть» и «рама» в этой фразе.

Это чрезвычайно упрощенное представление, как работает механизм определения тематики. И именно из-за своей простоты оно имеет ряд существенных ограничений, одним из которых является:

Большое количество слов в русском языке – около 1 000 000.

Причем это, если взять только общеупотребительные слова и предварительно лематизировать их – привести к начальной словоформе. Это объясняет невысокую скорость вычислений. Для трехмерного пространства на рис.1 посчитать вектор тематики легко, но для пространства в миллион измерений уже достаточно тяжело произвести сравнение между векторами.

Поэтому возникла необходимость разработки методов сжатия матрицы. На сегодняшний день в SEO основными являются два:

  • LSI,
  • Сжатие нейросетями.

К недостаткам LSI относят:

  • Необходимость заранее знать количество возможных тематик.
  • Невозможность изменять получившееся сжатие, добавлять к нему новые данные, например, о предпочтениях пользователей.
  • Возможность оперировать только группами, а не парами запрос-документ, которые представляют наибольший интерес с точки зрения ранжирования.

Нейросети лишены этих недостатков. Помимо сжатия размерности матрицы, они обладают очень важным преимуществом – возможностью сравнивать разные величины:

  • Запрос-запрос.
  • Запрос-заголовок (как делалось в «Палехе»).
  • Запрос-документ (как делается в «Королеве»).

Важным принципиальным отличием всех самообучающихся алгоритмов, и в том числе нейросетей, является возможность решить задачу в будущем, которую мы не знаем, как решить, на данный момент. Мы даем нейросети не строго определенную программу, мы даем ей область, на которой она должна будет научиться – обучающую выборку.

Нейросети состоят из нейронов – специальных алгоритмов, которые выполняют одно простое действие – берут входные данные и складывают их. «Обучение» нейронов происходит за счет изменения связей между ними.

Архитектура нейросети предполагает наличие:

  • Входного слоя, куда поступают данные.
  • Промежуточного (скрытого) слоя, где происходят вычисления.
  • Выходного слоя, откуда мы данные получаем.

Рис 2.jpg

Рис. 2. Архитектура нейросети

Нейросеть умеет очень хорошо сжимать размерность векторного пространства. Миллион слов она вполне способна сжать без потери качества до ста.

Как работают алгоритмы определения релевантности без ключевых слов?

Возьмем словосочетание «корова гуляет». Оперировать в поиске можно различными вариантами:

  • Буквенными 3-граммами: кор, оро, ров, ова ….
  • Словами: корова, гуляет
  • Биграммами: корова гуляет.

Алгоритм «Королев» оперирует сразу всеми тремя пунктами, учится на пользовательских данных и создает пары векторов, которые потом сравнивает: вектор запрос с вектором документ.

С этого момента начинается SEO-мифология. Если поиск не оперирует таким понятием, как ключевое слово, почему в ТОПе не присутствуют сайты, в которых ключевых слов не содержится?

Все очень просто. В поиске существует иерархия ранжирования. Поиск не применяет одну и ту же формулу ко всем документам. Сначала он применяет просто формулу ко всем документам, потом применяет формулу посложнее, чтобы выбрать 100–150 документов, потом выбирает из, допустим, ста – 10.

Самые первые этапы ранжирования назывались раньше «прохождением кворума», когда отбираются документы, которые в принципе могут ответить на задаваемый вопрос из многих миллионов или даже миллиардов кандидатов. И на данном этапе алгоритм «Королев» НЕ РАБОТАЕТ. То есть он не может отобрать релевантный документ, если в нем не содержится ключевых слов. Поэтому те документы, которые присутствуют в ТОПе, так или иначе будут содержать какие-то ключевики, достаточные для прохождения кворума. Это самое обязательное жесткое условие.

Поэтому, когда вы пытаетесь анализировать выдачу, не надо пытаться искать сайты без ключевых слов. Вы их, скорее всего, не найдете, а если и найдете, то на этот сайт будет вести ссылка с анкором, содержащим ключ.

Как учитываются предпочтения пользователей?

Стандартная рекомендация: «Продолжайте развивать сайт для пользователей в соответствии с нашими рекомендациями, и со временем он сможет быть представлен в поиске на более высоких позициях» – НЕ РАБОТАЕТ, если вы пытаетесь развивать ресурс без ориентации на поисковую оптимизацию.

Сложности, связанные с учетом предпочтений пользователей

  • Нет датасета пользовательских действий.
  • Нет асессорских оценок на релевантность запросов, с помощью которых поиск обучает свою нейросеть.

Но не все так плохо! Есть и пара приятных моментов:

  • Есть выдача Яндекса, из которой можно получить сигналы тематичности.
  • Нет жестких ограничений по времени, вам не нужно укладываться в жесткие временные рамки, как поисковым системам.

Нам нужно из поисковой выдачи взять документы и попробовать опереться на то, как эти документы отранжированы, (но не слишком сильно, потому что сигнал «Королева» на данный момент достаточно слабый) и попытаться представить их в понятном для человека виде.

Людям трудно оперировать буквенными триграммами и отдельно взятыми словами, вырванными из контекста, нужно делать минимум биграммы. Но данный процесс можно автоматизировать, например, с помощью инструмента «Акварель».

Рис 3.2.jpg

Рис. 3. Технические вектора на основе алгоритма «Акварели»

Он разбирает слова документа вниз до сотого, цепляет дополнительные документы из коллекции, которые похожи по своему словарному составу, ведет учет межсловных расстояний. В результате получается достаточно хороший тематический вектор. Использовать можно разные инструменты, важно проводить эту работу, так как с нарастанием влияния «Королева», по моей оценке, это будет схожим по значимости фактором ранжирования вместе с вхождением ключевых слов.

Рис 4.png

Рис. 4. Разметка документа на медианную тематичность слова

На рис. 4 показана разметка документа на так называемую медианную тематичность слова. Для каждого отдельного слова была просчитана тематичность векторов запроса (т.е. для каждого запроса был составлен тематический вектор), посчитана релевантность каждого отдельного слова и представлена в виде графика, то есть насколько этот показатель зависит от позиций. Оказалось, что зависимость есть, и наиболее ярко она выражена в ТОП 10. За пределами «заветной десятки» ее практически нет. Причем наиболее заметно это явление выражено среди информационных запросов.

Что следует запомнить?

  • Про термин LSI можно забыть.
  • Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.
  • LSI тематичные слова тоже нужны. Их влияние по мере совершенствования алгоритма будет увеличиваться.
  • Процесс получения и контроля употребления тематичных слов нужно встроить в процесс наравне с ключами.

Как быть с текстами в условиях «Королева» и «Бадена»

«Баден» интересен тем, что он учитывает сразу несколько показателей и не опирается исключительно на количество вхождений, расчет спамности и т.д. Он работает совокупно. Поэтому анализируя тексты конкурентов, которые обогнали вас в выдаче, нужно учитывать не только ключи и количество их вхождений, но и как минимум – спамность, тематичность и индекс удобочитаемости текста.

Под спамностью подразумевается не количество ключей, которые там используются, а сам характер текста. Индекс удобочитаемости следует использовать в адаптированном виде для русскоязычных текстов. Но «враги» хорошего текста в принципе общие для разных языков – редкие малознакомые слова, длинные предложения.

Не следует делать текст исключительно из тематичных слов без общей лексики. Вопрос в их достаточном количестве. Проверить текста на переизбыток ключей и их синонимов достаточно просто. Нужно удалить их из текста и прочитать результат, если вам по-прежнему понятно, о чем идет речь – текст хороший. Нужно помнить, что оценка тематичности у всех сервисов является субъективной и не копирует поиск, так как не располагает достаточными данными.

Подробно про работу в условиях Королёва и Палеха я буду рассказывать на своем мастер-классе «Продвижение сайта услуг» 7–9 октября в Москве. Основная повестка мероприятия – это продвижение сайтов услуг. Мастер-класс для тех, кто продвигает свои услуги в поисковых системах, например, заказ такси, заказ эвакуаторов, медицинские услуги, стоматология, турагентства и т.д.

(Нет голосов)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • филипп лоывлов
    9
    комментариев
    0
    читателей
    филипп лоывлов
    больше года назад
    >>>Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.

    С первой частью согласен. Со второй - не совсем, если, конечно, верить Яндексу.
    В статье на хабре они рассказывали о том, что часть задач Королева выносятся даже за пределы L0 - на этап индексирования. Поэтому в принципе возможен вариант, когда в ТОП попадут документы без ключей вообще. Но это нечастый случай, и уж точно не в тематиках "кредитные карты" и "рег...
    >>>Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.

    С первой частью согласен. Со второй - не совсем, если, конечно, верить Яндексу.
    В статье на хабре они рассказывали о том, что часть задач Королева выносятся даже за пределы L0 - на этап индексирования. Поэтому в принципе возможен вариант, когда в ТОП попадут документы без ключей вообще. Но это нечастый случай, и уж точно не в тематиках "кредитные карты" и "регистрация сро"

    >>>Про термин LSI можно забыть. LSI тематичные слова тоже нужны. Их влияние по мере совершенствования алгоритма будет увеличиваться.

    Так забыть или не забыть? Учитывая, что сами по себе эти слова могут увеличить вектор запрос-документ, то как-то странно звучит предложение от них отказываться. Другой вопрос, что считать их хотелось бы не по принципу "а вот такие слова есть на других документах в ТОПе", а как-то более численно.
    -
    5
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Сколько ссылок помогут продвинуть молодой сайт
Павел Андрейчук
37
комментариев
0
читателей
Полный профиль
Павел Андрейчук - Дело в том, что вряд ли в ваших платных "качественных" кейсах найдётся хоть пару % действительно новой и полезной информации которой бы не было на общедоступных источниках.
Сайт на WordPress: за и против
Мира Смурков
1
комментарий
0
читателей
Полный профиль
Мира Смурков - Людмила, я согласен с большинством комментаторов. Вы хоть один полноценный магазин сделали на этих движках? Woocommerce это система с супер возможностями. И к ней есть дополнительные модули, с функционалом, который вряд ли появиться на Битрикс. А самому это программировать - сотни тысяч рублей на разработку. А приведя в пример сложности с robots.txt и Sitemap вы ставите под вопрос вашу компетенцию в понимании Интернет-бизнеса и веб-разработки в целом. Во-первых это такие мелочи, а во-вторых это все делается на вордпресса за 2 минуты, и опять же с возможностями многократно превышающими Битрикс.
Обзор популярных CMS: плюсы и минусы
Андрей Литвиненко
2
комментария
0
читателей
Полный профиль
Андрей Литвиненко - + там где нужно прописать каноникал, там где нужно поставить мета тег ноиндекс (т.к. Гугл не всегда следует правилам robots.txt) ну и то что выше, к техническим сео возможнлстям можно еще отнести легкое и хотя бы полуавтоматическое добавление микроразметки по сайту, увы "из коробки" такого функционала нет ни в одной cms, все на допиливаниях
Google обошел Яндекс по популярности в России в 2018 году: исследование SEO Auditor
Рамблер
1
комментарий
0
читателей
Полный профиль
Рамблер - Вот вроде отечественный - это сказано верно.. «Я́ндекс» — российская транснациональная компания, зарегистрированная в Нидерландах. Так говорится в Википедии. И с хрена ли ОТЕЧЕСТВЕННЫЙ поисковик зарегистрирован в Европе? И где платится основная часть налогов? Ну-ууу, точно не в России. И если запахнет жаренным, то был Яндекс и нет Яндекса!
8 методик в SEO, от которых давно пора отказаться
Евгений Сметанин
12
комментариев
0
читателей
Полный профиль
Евгений Сметанин - Факторов вообще очень много, согласитесь, вы будете использовать максимальное их количество, особенно, если в ТОПе засели агрегаторы с сумасшедшими ПФ. В таких случаях, вхождение ключа в домен для маленького профильного сайта, сыграет свою положительную роль. Конечно же, если контент на страницах хорошего качества. У меня есть несколько успешных кейсов на эту тему. На сайте продают несколько видов товаров, а выстреливает в ТОП тот, название которого присутствует в доменном имени. Как корабль назовешь, так он и поплывет, верно?))
Инструкция: настраиваем цели Яндекс.Метрики через Google Tag Manager
Roman Gorkunenko
1
комментарий
0
читателей
Полный профиль
Roman Gorkunenko - Здравствуйте. Подскажите, пожалуйста, можно с айпи метрики вытащить среднюю стоимость клика по утм меткам? В метрике есть такой шаблон tags_u_t_m, но он не совместим с меткой директа, у них разные префиксы.
Google Data Studio: делаем красивые отчеты по контекстной рекламе для клиентов
Сергей
1
комментарий
0
читателей
Полный профиль
Сергей - Добрый день! Спасибо за статью, полезный материал! Могли бы подробнее расписать, как настроить вывод Гугл Таблиц с привязкой к отчетному периоду? Заранее спасибо!
Аудит структуры интернет-магазина мебели от «Ашманов и партнеры»
Дмитрий
11
комментариев
0
читателей
Полный профиль
Дмитрий - Сергей, а вы допускаете, что вся ваша жизнь - seo-миф?
Как выбрать подрядчика для продвижения сайта: 7 уровней воронки поиска
aashutosh
1
комментарий
0
читателей
Полный профиль
aashutosh - data science training institute in noida- Webtrackker Technology (8802820025) providing Data Science Training in Noida. Get ✓ 40 Hours Learning training✓ 70 Hrs Projects ✓ 24 X 7 Support ✓ Job Assistance. WEBTRACKKER TECHNOLOGY (P) LTD. C - 67, sector- 63, Noida, India. E-47 Sector 3, Noida, India. +91 - 8802820025 0120-433-0760 +91 - 8810252423 012 - 04204716 EMAIL:info@webtrackker.com webtrackker.com/Best-Data-Science-Training-Institute-in-Noida.php
Как построить качественный ссылочный профиль на основе конкурентов
Ирина
2
комментария
0
читателей
Полный профиль
Ирина - Давно сотрудничаю с megaindex.com и считаю данный сервис одним из лучших в сео сегменте рунета да и не только рунета. Пользуюсь их инструментами для аналитики своих работ и выявлению своих и чужих ошибок. Да и ссылочный профиль, как и говорится в данной статье сделать гораздо проще и правильней при помощи как раз мегаиндекса. Добавлю еще что инструмент для поиска конкурентов у мегаиндекса очень удобный и простой в применении.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
345
Комментариев
262
Комментариев
247
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
101
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
59
Комментариев
57
Комментариев
55

Отправьте отзыв!
Отправьте отзыв!