Хочешь повысить отдачу от Директа?
Включи «Автопилот»

Что такое алгоритм «Королев» и как он работает

Россия+7 (495) 960-65-87
Шрифт:
1 4110

Партнерский материал

Что такое «Королев» и как он эволюционировал из «Палеха»?

Алгоритм «Королев» – логическое продолжение «Палеха», но с рядом существенных особенностей.

Известно, что поиск определяет тематику. Человек, как правило, не отдает себе отчета о механизмах, которые задействованы в акте определения темы сообщения. Например, заводя речь о предмете в каком-либо контексте, мы можем не называть его прямо, а описывать с помощью признаков.

Так, например, услышав «у него неплохой объектив», «зеркалка лучше, чем беззеркалка», «видоискатель в этой модели не нужен», «хорошее фокусное расстояние», мы понимаем, о чем идет речь, хотя слово «фотоаппарат» произнесено не было.

Мы не понимаем, как это работает в голове человека. Но для организации информативного и полезного поиска, очень важно четко представлять эти процессы. В классическом понимании это работает так. (Рис.1)

Рис 1.jpg

Рис. 1. Пример определения тематики поисковыми системами

Представим трехмерное пространство, в котором существует три вектора, соответствующие словам «мыть», «окно» и «рама». Возьмем простенькое школьное предложение: «Мама мыла раму». Вполне очевидно, что имеется некоторое соответствие между вектором тематики и словами «мама», «мыть» и «рама» в этой фразе.

Это чрезвычайно упрощенное представление, как работает механизм определения тематики. И именно из-за своей простоты оно имеет ряд существенных ограничений, одним из которых является:

Большое количество слов в русском языке – около 1 000 000.

Причем это, если взять только общеупотребительные слова и предварительно лематизировать их – привести к начальной словоформе. Это объясняет невысокую скорость вычислений. Для трехмерного пространства на рис.1 посчитать вектор тематики легко, но для пространства в миллион измерений уже достаточно тяжело произвести сравнение между векторами.

Поэтому возникла необходимость разработки методов сжатия матрицы. На сегодняшний день в SEO основными являются два:

  • LSI,
  • Сжатие нейросетями.

К недостаткам LSI относят:

  • Необходимость заранее знать количество возможных тематик.
  • Невозможность изменять получившееся сжатие, добавлять к нему новые данные, например, о предпочтениях пользователей.
  • Возможность оперировать только группами, а не парами запрос-документ, которые представляют наибольший интерес с точки зрения ранжирования.

Нейросети лишены этих недостатков. Помимо сжатия размерности матрицы, они обладают очень важным преимуществом – возможностью сравнивать разные величины:

  • Запрос-запрос.
  • Запрос-заголовок (как делалось в «Палехе»).
  • Запрос-документ (как делается в «Королеве»).

Важным принципиальным отличием всех самообучающихся алгоритмов, и в том числе нейросетей, является возможность решить задачу в будущем, которую мы не знаем, как решить, на данный момент. Мы даем нейросети не строго определенную программу, мы даем ей область, на которой она должна будет научиться – обучающую выборку.

Нейросети состоят из нейронов – специальных алгоритмов, которые выполняют одно простое действие – берут входные данные и складывают их. «Обучение» нейронов происходит за счет изменения связей между ними.

Архитектура нейросети предполагает наличие:

  • Входного слоя, куда поступают данные.
  • Промежуточного (скрытого) слоя, где происходят вычисления.
  • Выходного слоя, откуда мы данные получаем.

Рис 2.jpg

Рис. 2. Архитектура нейросети

Нейросеть умеет очень хорошо сжимать размерность векторного пространства. Миллион слов она вполне способна сжать без потери качества до ста.

Как работают алгоритмы определения релевантности без ключевых слов?

Возьмем словосочетание «корова гуляет». Оперировать в поиске можно различными вариантами:

  • Буквенными 3-граммами: кор, оро, ров, ова ….
  • Словами: корова, гуляет
  • Биграммами: корова гуляет.

Алгоритм «Королев» оперирует сразу всеми тремя пунктами, учится на пользовательских данных и создает пары векторов, которые потом сравнивает: вектор запрос с вектором документ.

С этого момента начинается SEO-мифология. Если поиск не оперирует таким понятием, как ключевое слово, почему в ТОПе не присутствуют сайты, в которых ключевых слов не содержится?

Все очень просто. В поиске существует иерархия ранжирования. Поиск не применяет одну и ту же формулу ко всем документам. Сначала он применяет просто формулу ко всем документам, потом применяет формулу посложнее, чтобы выбрать 100–150 документов, потом выбирает из, допустим, ста – 10.

Самые первые этапы ранжирования назывались раньше «прохождением кворума», когда отбираются документы, которые в принципе могут ответить на задаваемый вопрос из многих миллионов или даже миллиардов кандидатов. И на данном этапе алгоритм «Королев» НЕ РАБОТАЕТ. То есть он не может отобрать релевантный документ, если в нем не содержится ключевых слов. Поэтому те документы, которые присутствуют в ТОПе, так или иначе будут содержать какие-то ключевики, достаточные для прохождения кворума. Это самое обязательное жесткое условие.

Поэтому, когда вы пытаетесь анализировать выдачу, не надо пытаться искать сайты без ключевых слов. Вы их, скорее всего, не найдете, а если и найдете, то на этот сайт будет вести ссылка с анкором, содержащим ключ.

Как учитываются предпочтения пользователей?

Стандартная рекомендация: «Продолжайте развивать сайт для пользователей в соответствии с нашими рекомендациями, и со временем он сможет быть представлен в поиске на более высоких позициях» – НЕ РАБОТАЕТ, если вы пытаетесь развивать ресурс без ориентации на поисковую оптимизацию.

Сложности, связанные с учетом предпочтений пользователей

  • Нет датасета пользовательских действий.
  • Нет асессорских оценок на релевантность запросов, с помощью которых поиск обучает свою нейросеть.

Но не все так плохо! Есть и пара приятных моментов:

  • Есть выдача Яндекса, из которой можно получить сигналы тематичности.
  • Нет жестких ограничений по времени, вам не нужно укладываться в жесткие временные рамки, как поисковым системам.

Нам нужно из поисковой выдачи взять документы и попробовать опереться на то, как эти документы отранжированы, (но не слишком сильно, потому что сигнал «Королева» на данный момент достаточно слабый) и попытаться представить их в понятном для человека виде.

Людям трудно оперировать буквенными триграммами и отдельно взятыми словами, вырванными из контекста, нужно делать минимум биграммы. Но данный процесс можно автоматизировать, например, с помощью инструмента «Акварель».

Рис 3.2.jpg

Рис. 3. Технические вектора на основе алгоритма «Акварели»

Он разбирает слова документа вниз до сотого, цепляет дополнительные документы из коллекции, которые похожи по своему словарному составу, ведет учет межсловных расстояний. В результате получается достаточно хороший тематический вектор. Использовать можно разные инструменты, важно проводить эту работу, так как с нарастанием влияния «Королева», по моей оценке, это будет схожим по значимости фактором ранжирования вместе с вхождением ключевых слов.

Рис 4.png

Рис. 4. Разметка документа на медианную тематичность слова

На рис. 4 показана разметка документа на так называемую медианную тематичность слова. Для каждого отдельного слова была просчитана тематичность векторов запроса (т.е. для каждого запроса был составлен тематический вектор), посчитана релевантность каждого отдельного слова и представлена в виде графика, то есть насколько этот показатель зависит от позиций. Оказалось, что зависимость есть, и наиболее ярко она выражена в ТОП 10. За пределами «заветной десятки» ее практически нет. Причем наиболее заметно это явление выражено среди информационных запросов.

Что следует запомнить?

  • Про термин LSI можно забыть.
  • Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.
  • LSI тематичные слова тоже нужны. Их влияние по мере совершенствования алгоритма будет увеличиваться.
  • Процесс получения и контроля употребления тематичных слов нужно встроить в процесс наравне с ключами.

Как быть с текстами в условиях «Королева» и «Бадена»

«Баден» интересен тем, что он учитывает сразу несколько показателей и не опирается исключительно на количество вхождений, расчет спамности и т.д. Он работает совокупно. Поэтому анализируя тексты конкурентов, которые обогнали вас в выдаче, нужно учитывать не только ключи и количество их вхождений, но и как минимум – спамность, тематичность и индекс удобочитаемости текста.

Под спамностью подразумевается не количество ключей, которые там используются, а сам характер текста. Индекс удобочитаемости следует использовать в адаптированном виде для русскоязычных текстов. Но «враги» хорошего текста в принципе общие для разных языков – редкие малознакомые слова, длинные предложения.

Не следует делать текст исключительно из тематичных слов без общей лексики. Вопрос в их достаточном количестве. Проверить текста на переизбыток ключей и их синонимов достаточно просто. Нужно удалить их из текста и прочитать результат, если вам по-прежнему понятно, о чем идет речь – текст хороший. Нужно помнить, что оценка тематичности у всех сервисов является субъективной и не копирует поиск, так как не располагает достаточными данными.

Подробно про работу в условиях Королёва и Палеха я буду рассказывать на своем мастер-классе «Продвижение сайта услуг» 7–9 октября в Москве. Основная повестка мероприятия – это продвижение сайтов услуг. Мастер-класс для тех, кто продвигает свои услуги в поисковых системах, например, заказ такси, заказ эвакуаторов, медицинские услуги, стоматология, турагентства и т.д.

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • филипп лоывлов
    9
    комментариев
    0
    читателей
    филипп лоывлов
    2 недели назад
    >>>Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.

    С первой частью согласен. Со второй - не совсем, если, конечно, верить Яндексу.
    В статье на хабре они рассказывали о том, что часть задач Королева выносятся даже за пределы L0 - на этап индексирования. Поэтому в принципе возможен вариант, когда в ТОП попадут документы без ключей вообще. Но это нечастый случай, и уж точно не в тематиках "кредитные карты" и "рег...
    >>>Ключевики все равно нужны. Без них текст банально не пройдет базовые этапы ранжирования.

    С первой частью согласен. Со второй - не совсем, если, конечно, верить Яндексу.
    В статье на хабре они рассказывали о том, что часть задач Королева выносятся даже за пределы L0 - на этап индексирования. Поэтому в принципе возможен вариант, когда в ТОП попадут документы без ключей вообще. Но это нечастый случай, и уж точно не в тематиках "кредитные карты" и "регистрация сро"

    >>>Про термин LSI можно забыть. LSI тематичные слова тоже нужны. Их влияние по мере совершенствования алгоритма будет увеличиваться.

    Так забыть или не забыть? Учитывая, что сами по себе эти слова могут увеличить вектор запрос-документ, то как-то странно звучит предложение от них отказываться. Другой вопрос, что считать их хотелось бы не по принципу "а вот такие слова есть на других документах в ТОПе", а как-то более численно.
    -
    5
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
SEOnews и Serpstat запускают конкурс для интернет-маркетологов
Marina Lagutina
1
комментарий
0
читателей
Полный профиль
Marina Lagutina - Добрый день! Видимо я из тех, кто пытается последней вскочить в уходящий поезд. Ночью написала статью на тему "обзор инструментов контент-маркетинга". Своего блога нет. Отправила вам не мейл. Я еще могу у вас разместиться или искать, кто возьмет статью к себе в блог?
Влияние HTTPS на ранжирование региональных поддоменов в Яндексе
NiK Malefictum
3
комментария
0
читателей
Полный профиль
NiK Malefictum - Стакивался лишь с тем, что выдачу немного лихорадит первые 2-3 недели, и если у сайта была низкая скорость загрузки - ее нужно поправить. Региональным сайтам НУЖНО ставить HTTPS немного внутряк поправить / микроразметку и прочее прописать мета и пересмотреть контент зарегать компанию в каталогах предприятий и картографии и уже делать просто сделать статейные ссылки бесплатные. и все
Мир глазами поисковых систем
Александр Рунов
18
комментариев
0
читателей
Полный профиль
Александр Рунов - Какой регион, если не секрет? В Мск, в ряде ВК тематик (в тех же "окнах" или "колесах"), без работы с внешними факторами по ВЧ запросам в ТОП не выплывешь. Хотя в большинстве направлений вполне реально.
Инфографика: самые распространенные SEO-ошибки Рунета
Dmitro Grunt
2
комментария
0
читателей
Полный профиль
Dmitro Grunt - Кстати, у проектов которые продвигает Нетпик все тайтлы не более 65 символов? Или вы надеетесь что кто то послушает советов и отдаст вам часть трафика? :-)
Google.ru внесли в реестр запрещенных сайтов
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Гон, все работает и будет работать. Да и пусть банят, будет как с рутрекером.
День рождения SEOnews: 12 лет в эфире!
Анна Макарова
0
комментариев
0
читателей
Полный профиль
Анна Макарова - Ура )
7 причин не работать на биржах копирайтинга
Dasha Shkaruba
6
комментариев
0
читателей
Полный профиль
Dasha Shkaruba - Спасибо за мнение! Кстати, на бирже главреда прием анкет закрыт
Конкурс: угадайте пятерку лидеров рейтинга «SEO глазами клиентов 2017»
Оля
1
комментарий
0
читателей
Полный профиль
Оля - 1 Ingate 2 Wezom 3 Bynjg vtlbf 4 seo energy 5 директ лайн
SEMrush: факторы ранжирования в Google в 2017 году
Анна Макарова
0
комментариев
0
читателей
Полный профиль
Анна Макарова - Уважаемый S1, я тоже понимаю, что есть такие люди, которые заметив допущенную неточность несутся на всех парусах продемонстрировать "силу" своего ума. Спасибо вам за пристальное внимание. Это поможет нам быть лучше.
Сердитый маркетолог: как вы сами хороните свой сайт, или 16 принципов, которые нужно усвоить заказчикам SEO
Руслан Латыпов
2
комментария
0
читателей
Полный профиль
Руслан Латыпов - Можно совершенно бесплатно заказать SEO-аудит своего сайта и получить все рекомендации по его продвижению a-erp.com/
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
310
Комментариев
262
Комментариев
226
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
97
Комментариев
97
Комментариев
95
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
55
Комментариев
53
Комментариев
52
Комментариев
48

Отправьте отзыв!
Отправьте отзыв!