Россия+7 (495) 960-65-87

Что такое алгоритм «Королев» и как он работает

Россия+7 (495) 960-65-87
Шрифт:
1 7706

Партнерский материал

Что такое «Королев» и как он эволюционировал из «Палеха»?

Алгоритм «Королев» – логическое продолжение «Палеха», но с рядом существенных особенностей.

Известно, что поиск определяет тематику. Человек, как правило, не отдает себе отчета о механизмах, которые задействованы в акте определения темы сообщения. Например, заводя речь о предмете в каком-либо контексте, мы можем не называть его прямо, а описывать с помощью признаков.

Так, например, услышав «у него неплохой объектив», «зеркалка лучше, чем беззеркалка», «видоискатель в этой модели не нужен», «хорошее фокусное расстояние», мы понимаем, о чем идет речь, хотя слово «фотоаппарат» произнесено не было.

Мы не понимаем, как это работает в голове человека. Но для организации информативного и полезного поиска, очень важно четко представлять эти процессы. В классическом понимании это работает так. (Рис.1)

Рис 1.jpg

Рис. 1. Пример определения тематики поисковыми системами

Представим трехмерное пространство, в котором существует три вектора, соответствующие словам «мыть», «окно» и «рама». Возьмем простенькое школьное предложение: «Мама мыла раму». Вполне очевидно, что имеется некоторое соответствие между вектором тематики и словами «мама», «мыть» и «рама» в этой фразе.

Это чрезвычайно упрощенное представление, как работает механизм определения тематики. И именно из-за своей простоты оно имеет ряд существенных ограничений, одним из которых является:

Большое количество слов в русском языке – около 1 000 000.

Причем это, если взять только общеупотребительные слова и предварительно лематизировать их – привести к начальной словоформе. Это объясняет невысокую скорость вычислений. Для трехмерного пространства на рис.1 посчитать вектор тематики легко, но для пространства в миллион измерений уже достаточно тяжело произвести сравнение между векторами.

Поэтому возникла необходимость разработки методов сжатия матрицы. На сегодняшний день в SEO основными являются два:

  • LSI,
  • Сжатие нейросетями.

К недостаткам LSI относят:

  • Необходимость заранее знать количество возможных тематик.
  • Невозможность изменять получившееся сжатие, добавлять к нему новые данные, например, о предпочтениях пользователей.
  • Возможность оперировать только группами, а не парами запрос-документ, которые представляют наибольший интерес с точки зрения ранжирования.

Нейросети лишены этих недостатков. Помимо сжатия размерности матрицы, они обладают очень важным преимуществом – возможностью сравнивать разные величины:

  • Запрос-запрос.
  • Запрос-заголовок (как делалось в «Палехе»).
  • Запрос-документ (как делается в «Королеве»).

Важным принципиальным отличием всех самообучающихся алгоритмов, и в том числе нейросетей, является возможность решить задачу в будущем, которую мы не знаем, как решить, на данный момент. Мы даем нейросети не строго определенную программу, мы даем ей область, на которой она должна будет научиться – обучающую выборку.

Нейросети состоят из нейронов – специальных алгоритмов, которые выполняют одно простое действие – берут входные данные и складывают их. «Обучение» нейронов происходит за счет изменения связей между ними.

Архитектура нейросети предполагает наличие:

  • Входного слоя, куда поступают данные.
  • Промежуточного (скрытого) слоя, где происходят вычисления.
  • Выходного слоя, откуда мы данные получаем.

Рис 2.jpg

Рис. 2. Архитектура нейросети

Нейросеть умеет очень хорошо сжимать размерность векторного пространства. Миллион слов она вполне способна сжать без потери качества до ста.

Как работают алгоритмы определения релевантности без ключевых слов?

Возьмем словосочетание «корова гуляет». Оперировать в поиске можно различными вариантами:

  • Буквенными 3-граммами: кор, оро, ров, ова ….
  • Словами: корова, гуляет
  • Биграммами: корова гуляет.

Алгоритм «Королев» оперирует сразу всеми тремя пунктами, учится на пользовательских данных и создает пары векторов, которые потом сравнивает: вектор запрос с вектором документ.

С этого момента начинается SEO-мифология. Если поиск не оперирует таким понятием, как ключевое слово, почему в ТОПе не присутствуют сайты, в которых ключевых слов не содержится?

Все очень просто. В поиске существует иерархия ранжирования. Поиск не применяет одну и ту же формулу ко всем документам. Сначала он применяет просто формулу ко всем документам, потом применяет формулу посложнее, чтобы выбрать 100–150 документов, потом выбирает из, допустим, ста – 10.

Самые первые этапы ранжирования назывались раньше «прохождением кворума», когда отбираются документы, которые в принципе могут ответить на задаваемый вопрос из многих миллионов или даже миллиардов кандидатов. И на данном этапе алгоритм «Королев» НЕ РАБОТАЕТ. То есть он не может отобрать релевантный документ, если в нем не содержится ключевых слов. Поэтому те документы, которые присутствуют в ТОПе, так или иначе будут содержать какие-то ключевики, достаточные для прохождения кворума. Это самое обязательное жесткое условие.

Поэтому, когда вы пытаетесь анализировать выдачу, не надо пытаться искать сайты без ключевых слов. Вы их, скорее всего, не найдете, а если и найдете, то на этот сайт будет вести ссылка с анкором, содержащим ключ.

Как учитываются предпочтения пользователей?

Стандартная рекомендация: «Продолжайте развивать сайт для пользователей в соответствии с нашими рекомендациями, и со временем он сможет быть представлен в поиске на более высоких позициях» – НЕ РАБОТАЕТ, если вы пытаетесь развивать ресурс без ориентации на поисковую оптимизацию.

Сложности, связанные с учетом предпочтений пользователей

  • Нет датасета пользовательских действий.
  • Нет асессорских оценок на релевантность запросов, с помощью которых поиск обучает свою нейросеть.

Но не все так плохо! Есть и пара приятных моментов:

  • Есть выдача Яндекса, из которой можно получить сигналы тематичности.
  • Нет жестких ограничений по времени, вам не нужно укладываться в жесткие временные рамки, как поисковым системам.

Нам нужно из поисковой выдачи взять документы и попробовать опереться на то, как эти документы отранжированы, (но не слишком сильно, потому что сигнал «Королева» на данный момент достаточно слабый) и попытаться представить их в понятном для человека виде.

Людям трудно оперировать буквенными триграммами и отдельно взятыми словами, вырванными из контекста, нужно делать минимум биграммы. Но данный процесс можно автоматизировать, например, с помощью инструмента «Акварель».

Рис 3.2.jpg

Рис. 3. Технические вектора на основе алгоритма «Акварели»

Он разбирает слова документа вниз до сотого, цепляет дополнительные документы из коллекции, которые похожи по своему словарному составу, ведет учет межсловных расстояний. В результате получается достаточно хороший тематический вектор. Использовать можно разные инструменты, важно проводить эту работу, так как с нарастанием влияния «Королева», по моей оценке, это будет схожим по значимости фактором ранжирования вместе с вхождением ключевых слов.

Рис 4.png

Рис. 4. Разметка документа на медианную тематичность слова

На рис. 4 показана разметка документа на так называемую медианную тематичность слова. Для каждого отдельного слова была просчитана тематичность векторов запроса (т.е. для каждого запроса был составлен тематический вектор), посчитана релевантность каждого отдельного слова и представлена в виде графика, то есть насколько этот показатель зависит от позиций. Оказалось, что зависимость есть, и наиболее ярко она выражена в ТОП 10. За пределами «заветной десятки» ее практически нет. Причем наиболее заметно это явление выражено среди информационных запросов.

Что следует запомнить?

  • Про термин LSI можно забыть.
  • Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.
  • LSI тематичные слова тоже нужны. Их влияние по мере совершенствования алгоритма будет увеличиваться.
  • Процесс получения и контроля употребления тематичных слов нужно встроить в процесс наравне с ключами.

Как быть с текстами в условиях «Королева» и «Бадена»

«Баден» интересен тем, что он учитывает сразу несколько показателей и не опирается исключительно на количество вхождений, расчет спамности и т.д. Он работает совокупно. Поэтому анализируя тексты конкурентов, которые обогнали вас в выдаче, нужно учитывать не только ключи и количество их вхождений, но и как минимум – спамность, тематичность и индекс удобочитаемости текста.

Под спамностью подразумевается не количество ключей, которые там используются, а сам характер текста. Индекс удобочитаемости следует использовать в адаптированном виде для русскоязычных текстов. Но «враги» хорошего текста в принципе общие для разных языков – редкие малознакомые слова, длинные предложения.

Не следует делать текст исключительно из тематичных слов без общей лексики. Вопрос в их достаточном количестве. Проверить текста на переизбыток ключей и их синонимов достаточно просто. Нужно удалить их из текста и прочитать результат, если вам по-прежнему понятно, о чем идет речь – текст хороший. Нужно помнить, что оценка тематичности у всех сервисов является субъективной и не копирует поиск, так как не располагает достаточными данными.

Подробно про работу в условиях Королёва и Палеха я буду рассказывать на своем мастер-классе «Продвижение сайта услуг» 7–9 октября в Москве. Основная повестка мероприятия – это продвижение сайтов услуг. Мастер-класс для тех, кто продвигает свои услуги в поисковых системах, например, заказ такси, заказ эвакуаторов, медицинские услуги, стоматология, турагентства и т.д.

(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • филипп лоывлов
    9
    комментариев
    0
    читателей
    филипп лоывлов
    больше года назад
    >>>Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.

    С первой частью согласен. Со второй - не совсем, если, конечно, верить Яндексу.
    В статье на хабре они рассказывали о том, что часть задач Королева выносятся даже за пределы L0 - на этап индексирования. Поэтому в принципе возможен вариант, когда в ТОП попадут документы без ключей вообще. Но это нечастый случай, и уж точно не в тематиках "кредитные карты" и "рег...
    >>>Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.

    С первой частью согласен. Со второй - не совсем, если, конечно, верить Яндексу.
    В статье на хабре они рассказывали о том, что часть задач Королева выносятся даже за пределы L0 - на этап индексирования. Поэтому в принципе возможен вариант, когда в ТОП попадут документы без ключей вообще. Но это нечастый случай, и уж точно не в тематиках "кредитные карты" и "регистрация сро"

    >>>Про термин LSI можно забыть. LSI тематичные слова тоже нужны. Их влияние по мере совершенствования алгоритма будет увеличиваться.

    Так забыть или не забыть? Учитывая, что сами по себе эти слова могут увеличить вектор запрос-документ, то как-то странно звучит предложение от них отказываться. Другой вопрос, что считать их хотелось бы не по принципу "а вот такие слова есть на других документах в ТОПе", а как-то более численно.
    -
    5
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Google Data Studio: делаем красивые отчеты по контекстной рекламе для клиентов
Askar Seitov
1
комментарий
0
читателей
Полный профиль
Askar Seitov - помогите! не могу понять почему по инструкции в вашей статье добавляю вычистяемые поля просто копирую ваш код, но датастудио выдает ошибку на этот код: Синтаксическая ошибка: Недопустимый входной символ. Убедитесь, что в формуле нет кавычек-лапок.. как это исправить? я все варианты кавычек уже попробовал
#SEOnews14: мы празднуем – вы получаете подарки!
Rizat Sundetov
1
комментарий
0
читателей
Полный профиль
Rizat Sundetov - 14
Сайт на WordPress: за и против
Мира Смурков
1
комментарий
0
читателей
Полный профиль
Мира Смурков - Людмила, я согласен с большинством комментаторов. Вы хоть один полноценный магазин сделали на этих движках? Woocommerce это система с супер возможностями. И к ней есть дополнительные модули, с функционалом, который вряд ли появиться на Битрикс. А самому это программировать - сотни тысяч рублей на разработку. А приведя в пример сложности с robots.txt и Sitemap вы ставите под вопрос вашу компетенцию в понимании Интернет-бизнеса и веб-разработки в целом. Во-первых это такие мелочи, а во-вторых это все делается на вордпресса за 2 минуты, и опять же с возможностями многократно превышающими Битрикс.
Война с дубликатами. Как нужно и как не нужно канонизировать URL
Дмитрий
1
комментарий
0
читателей
Полный профиль
Дмитрий - Здравствуйте, на сайте возможно несколькими путями дойти до почти одинаковой страницы, те отличаться будет только незначительная часть H1, а контент будет одинаковым, дело в применимости автозапчастей к разным автомобилям. Что из этого будет каноничной ссылкой и какие есть пути для решения подобных ситуаций? 1 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-sedan-2011-2014/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/ 2 - bpauto.ru/catalog/audi/audi-a6/a6-iv-c7-rest-sedan-2014-n-v-/kuzov-naruzhnaya-chast/dveri-i-komplektuyushchie/dver-perednyaya-levaya/
Как ускорить сайт на WordPress, чтобы получить 100/100 в Google PageSpeed Insights
1qa
1
комментарий
0
читателей
Полный профиль
1qa - 87 Performance 95 Accessibility 79 Best Practices 95 SEO аудит точнее будет
Как выбрать подрядчика для продвижения сайта: 7 уровней воронки поиска
aashutosh
1
комментарий
0
читателей
Полный профиль
aashutosh - data science training institute in noida- Webtrackker Technology (8802820025) providing Data Science Training in Noida. Get ✓ 40 Hours Learning training✓ 70 Hrs Projects ✓ 24 X 7 Support ✓ Job Assistance. WEBTRACKKER TECHNOLOGY (P) LTD. C - 67, sector- 63, Noida, India. E-47 Sector 3, Noida, India. +91 - 8802820025 0120-433-0760 +91 - 8810252423 012 - 04204716 EMAIL:info@webtrackker.com webtrackker.com/Best-Data-Science-Training-Institute-in-Noida.php
Как построить качественный ссылочный профиль на основе конкурентов
Ирина
5
комментариев
0
читателей
Полный профиль
Ирина - Давно сотрудничаю с megaindex.com и считаю данный сервис одним из лучших в сео сегменте рунета да и не только рунета. Пользуюсь их инструментами для аналитики своих работ и выявлению своих и чужих ошибок. Да и ссылочный профиль, как и говорится в данной статье сделать гораздо проще и правильней при помощи как раз мегаиндекса. Добавлю еще что инструмент для поиска конкурентов у мегаиндекса очень удобный и простой в применении.
Как я пытался купить CRM-систему, но мне ее поленились продать
Ай Ти Веб
6
комментариев
0
читателей
Полный профиль
Ай Ти Веб - Берите CRM Битрикс24, будете отбиваться от звонков с предложениями - партнерская сеть ОГРОМНАЯ
6 причин, почему нет позиций и трафика
Артур Латыпов
0
комментариев
0
читателей
Полный профиль
Артур Латыпов - Леонид, да 3 пункта повторяется, согласен. Но сильно актуальны и сейчас, смотрим на сайты, приходящие на SEO, которые ранее продвигались, практически на всех можно что из 6 пунктов найти, исправить и ситуация улучшиться оперативно.
Google назвал три главных SEO-фактора
Павел Андрейчук
44
комментария
0
читателей
Полный профиль
Павел Андрейчук - Я бы не стал утверждать что это так. У меня есть ресурс где ссылок.. ну я не знаю, полтинник может быть, вручную проставленные года за 2 и позиции хорошие по могим запросам именно в гугле, в то время как в Яндексе позиции ниже. Хотя конечно с ссылками позиции были бы лучше, наверное, но владелец увы не выделяет бюджет на ссылки.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
352
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
105
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
69
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
55

Отправьте отзыв!
Отправьте отзыв!