Россия+7 (495) 960-65-87

Основы текстового ранжирования в Яндексе. Теория. (Часть 1. Принцип поиска в Яндексе)

Россия+7 (495) 960-65-87
Шрифт:
0 9036

1. Введение
2. Принцип поиска в Яндексе
3. Выводы

1. Введение

Данный мастер-класс, посвящен одной из составляющей процесса продвижения сайтов – текстовой оптимизации. Однако сразу оговоримся – это будет не руководство к действию, а больше руководство к размышлению и экспериментаторству. Вы не узнаете из прочитанного, сколько нужно раз употребить ключевое слово в тексте из 500 символов, но зато вы узнаете, как Яндекс учитывает эти самые ключевые слова, их частоту и форматирование.

Материал сделан на основе теоретических сведений, почерпнутых из различных источников, в том числе и иностранных публикаций. Также эти сведения проверялись экспериментальным путем.

2. Принцип поиска в Яндексе

Прежде всего, стоит разобраться, как работает Яндекс на этапе обработки запроса пользователя. Об этом лучше всего рассказано у Миныча.

"Поиск" документов Яндексом происходит поэтапно:

-Сначала запрос анализируется, и на него накладываются контекстные ограничения по умолчанию ("переколдовка" запроса)
-Далее происходит отбор документов с найденными словами и с частично найденными словами (фильтрация по кворуму)
-Далее происходит ранжирование отобранных документов.

Итак, рассмотрим эти этапы, так как для понимания принципов текстового ранжирования это обязательно знать.

Переколдовка запроса

Слова, заданные в поисковом запросе преобразуются – на них накладываются контекстные ограничения. Преобразованная фраза в общем случае выглядит следующим образом:

(слово1: вес слова1 расстояние1 слово2: вес слова2 … и т.д.) // мягкость

-слово1, слово2 и т.д. это слова из поискового запроса
-вес слова1 – все слова, вычисляется исходя из частоты вхождений слова в коллекцию документов Яндекса. Для редких слов вес "обрезается" на большом значении и одинаков для всех редких слов. На сегодняшний момент (07.06.2007) эта величина составляет 1 819 103 916.
-расстояние1 – расстояние, в пределах которого должны встречаться слово1 и слово2.

  • & означает, что слова должны встречаться в одном пассаже (что такое пассаж – чуть позже);
  • &/(-x y) означает, что слово2 должно находить в пределах х слов считая налево от слова1 или y слов направо от слова1;
  • Двойное && между словами означает, что эти два слова могут находиться в любом месте документа;
  • Конструкция &&/(-7+7) говорит, что слово2 должны быть в тексте не далее чем на плюс-минус семь пассажей от слова1.

Например, для запроса «сравнение профилей алюминий» получим:

(сравнение::12268 & профилей::2421 &&/(-7 7) алюминий::86362)//6

Да, кстати, чтобы узнать переколдовку для фразы требуется скопировать из результатов выдачи по этому запросу адрес ссылки «сохраненная копия» и затем декодировать ее. Искомая переколдовка будет идти после параметра reqtext.

Иногда исходный запрос так переколдовывается, что некоторые слова вообще выпадают из поиска, а некоторые слова добавляются к запросу. Например, запрос «что такое seo» -

reqtext=%(!+что::204 &/(1 1) !+такое::4876) &/(1 1) seo::410666 &/(1 1) !%это::370 &/(-2 4) %означает::23971 &/(-2 4) %аббревиатура::465115 &/(-2 4) %расшифровывается::253049

Здесь мы видим, что наравне с фразой «что такое seo» будут искаться фразы «seo это», «seo означает» «seo аббревиатура расшифровывается».

Теперь необходимо сделать пояснения относительно слова «пассаж».

Пассаж – это часть текста, разделение которого происходит с помощью разделителей пассажей, которыми могут являться различные теги и знаки препинания. Принято считать, что максимальная длина пассажа равна 64 словам. Проверить максимальную длину пассажа довольно легко: нужно последовательно задавать ряд запросов в виде слово1 &/(60 100) слово2, увеличивая каждый раз значение левой границы ограничений, т.е. &/(60 100) --> &/(61 100) --> &/(62 100). Например, для запроса mp3 &/(62 100) mp3 получим:



Для запроса mp3 &/(63 100) mp3 в выдаче не будет ни одного сайта. Из этого можно сделать вывод, что максимальная длина пассажа – 64 слова. Проверка для других запросов показывает аналогичные результаты.



Какие теги являются разделителями пассажей, также легко проверить с помощью простых запросов. Сначала нужно найти подходящую страничку для проверки. На странице есть следующий код:


  • «Сайт» - адрес экспериментально сайта
  • «стоп-слова» - количество самого часто встречаемого стоп-слова в документе

    Проверим, является ли тег
  • разделителем. Введем запрос:

    «экспериментально & количество»

    Как видно, ничего не найдено. Т.е. слова «экспериментально» и «количество» находятся в разных пассажах.



    Введем запрос «экспериментально &&/(0 2) количество». Мы увидим, что страничка будет найдена. При этом в сниппете отчетливо видны 3 пассажа. То что пассаж заканчивается видно по отсутствию “…”.



    Сразу скажем, что знаки препинания: «точка», «многоточие», «двоеточие», восклицательный знак», «вопросительный знак» являются разделителями пассажей только если после них находится слово с большой буквы.

    Фильтрация по кворуму

    Наверное, вы обращали внимание, что при поиске по запросу из 4-5 слов и более найденные документы содержат не все искомые слова. Это объясняется существованием кворума - такой комбинации слов из запроса, при котором заданная комбинация считается достаточной, для того чтобы документ считался "найденным" при наличии в нем этой комбинации слов из запроса (с учетом контекстных ограничений). Например, вы искали «как выглядит птенец кукушки фото». Кворумом здесь скорее всего будет комбинация слов «как выглядит птенец кукушки», так как слово «фото» не присутствует на сайтах в выдаче.

    Получается, если бы не существовало кворума, по таким вот длинным запросам пользователю вообще бы ничего не выдавалось.

    Кворум для фразы, на самом деле, считается строго по формуле.

    Формула была озвучена еще в статье Сегаловича и Маслова http://company.yandex.ru/articles/romip2004.xml и уже далее автором проверена для двухсловных и трехсловных запросов. Точность формулы +/- 100 IDF.



    Поясним формулу на примере трехсловного запроса. «Переколдованный» он выглядит следующим образом:

    (знамение::637883 & бессилие::593625 & ртуть::29800)//6

    Данные три слова в одном предложении не встретятся, поэтому логично предположить, что Яндекс выведет в результатах поиска 0 документов. Однако как уже упоминалось, специально для таких случаев у Яндекса существует понятие кворума.

    На мой взгляд, логика ввода кворума следующая. Предполагая, что некоторые слова запроса достаточно часто встречаются в Интернете и не несут полезной информации для пользователя, Яндекс при поиске не учитывает эти слова из запроса при условии, что оставшиеся слова пройдут кворум (т.е. окажутся достаточно весомыми и контрастными на фоне «неинформативных» слов).

    В нашем примере слово «ртуть» может оказаться «неинформативным» словом, т.к. имеет значительно меньший вес по сравнению с другими словами. Посмотрим, пройдет ли кворум вхождение, содержащее только слова «знамение» и «бессилие», чтобы документ, содержащий такое вхождение, попал в результаты выдачи. Посчитаем по формуле:



    Получим: (316,0681752070) > (316,0309236502) - т.е. кворум пройден. См. рисунок 1.



    Если мы увеличим вес слова «ртуть», подняв таким образом его информативность, то получим:



    Видим, что пассажу, содержащему только слова «знамение» и «бессилие», не удается пройти кворум. Соответственно, в выдаче нет документов.



    Ранжирование отобранных (прошедших кворум) документов

    Далее происходит ранжирование прошедших кворум документов. Об этом мы поговорим в следующем мастер-классе.

    3. Выводы

    Итак, мы познакомились с основами текстового ранжирования, а точнее с той частью, которая происходит непосредственно перед оценкой текстового веса документа. Далее мы рассмотрим основные факторы, влияющие на вес.

    Попробуем также прокомментировать статью «Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового поиска и ранжирования в Яндекс». Рассмотрим в совокупности уже проведенные и опубликованные на www.seonews.ru эксперименты по текстовому ранжированию, а также озвучим планы новых экспериментов.

  • (Нет голосов)
    Читайте нас в Telegram - digital_bar

    Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


    Новые 
    Новые
    Лучшие
    Старые
    Сообщество
    Подписаться 
    Подписаться на дискуссию:
    E-mail:
    ОК
    Вы подписаны на комментарии
    Ошибка. Пожалуйста, попробуйте ещё раз.
    Отправить отзыв
      ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
      Сколько ссылок помогут продвинуть молодой сайт
      Павел Андрейчук
      33
      комментария
      0
      читателей
      Полный профиль
      Павел Андрейчук - Дело в том, что вряд ли в ваших платных "качественных" кейсах найдётся хоть пару % действительно новой и полезной информации которой бы не было на общедоступных источниках.
      Сайт на WordPress: за и против
      Мира Смурков
      1
      комментарий
      0
      читателей
      Полный профиль
      Мира Смурков - Людмила, я согласен с большинством комментаторов. Вы хоть один полноценный магазин сделали на этих движках? Woocommerce это система с супер возможностями. И к ней есть дополнительные модули, с функционалом, который вряд ли появиться на Битрикс. А самому это программировать - сотни тысяч рублей на разработку. А приведя в пример сложности с robots.txt и Sitemap вы ставите под вопрос вашу компетенцию в понимании Интернет-бизнеса и веб-разработки в целом. Во-первых это такие мелочи, а во-вторых это все делается на вордпресса за 2 минуты, и опять же с возможностями многократно превышающими Битрикс.
      Обзор популярных CMS: плюсы и минусы
      Гость
      1
      комментарий
      0
      читателей
      Полный профиль
      Гость - как по мне joomla! самая удобная и гибкая система из всех современных (я про wp раньше так думал, пока меня в Extrit не убедили в обратном). Раньше всегда оставался на техподдержке, потому что сам заполнять не мог, а теперь делаю это сам, потому что админка простая как палка. + на других цмсках при просьбе что-то добавить мне либо цену загибали овер 100500 либо говорили - нереально, делай новый сайт. А на joomla норм
      Google обошел Яндекс по популярности в России в 2018 году: исследование SEO Auditor
      Рамблер
      1
      комментарий
      0
      читателей
      Полный профиль
      Рамблер - Вот вроде отечественный - это сказано верно.. «Я́ндекс» — российская транснациональная компания, зарегистрированная в Нидерландах. Так говорится в Википедии. И с хрена ли ОТЕЧЕСТВЕННЫЙ поисковик зарегистрирован в Европе? И где платится основная часть налогов? Ну-ууу, точно не в России. И если запахнет жаренным, то был Яндекс и нет Яндекса!
      8 методик в SEO, от которых давно пора отказаться
      Евгений Сметанин
      11
      комментариев
      0
      читателей
      Полный профиль
      Евгений Сметанин - Факторов вообще очень много, согласитесь, вы будете использовать максимальное их количество, особенно, если в ТОПе засели агрегаторы с сумасшедшими ПФ. В таких случаях, вхождение ключа в домен для маленького профильного сайта, сыграет свою положительную роль. Конечно же, если контент на страницах хорошего качества. У меня есть несколько успешных кейсов на эту тему. На сайте продают несколько видов товаров, а выстреливает в ТОП тот, название которого присутствует в доменном имени. Как корабль назовешь, так он и поплывет, верно?))
      Инструкция: настраиваем цели Яндекс.Метрики через Google Tag Manager
      Roman Gorkunenko
      1
      комментарий
      0
      читателей
      Полный профиль
      Roman Gorkunenko - Здравствуйте. Подскажите, пожалуйста, можно с айпи метрики вытащить среднюю стоимость клика по утм меткам? В метрике есть такой шаблон tags_u_t_m, но он не совместим с меткой директа, у них разные префиксы.
      Аудит структуры интернет-магазина мебели от «Ашманов и партнеры»
      Дмитрий
      11
      комментариев
      0
      читателей
      Полный профиль
      Дмитрий - Сергей, а вы допускаете, что вся ваша жизнь - seo-миф?
      Идеальный каталог для продвижения сайта: структура и функционал
      Татьяна Ягутьева
      6
      комментариев
      0
      читателей
      Полный профиль
      Татьяна Ягутьева - Уважаемый Денис, сделайте сами напишите свою статью. Посоветуйте другую универсальную CMS, желательно идеальную по всем параметрам. Битрикс очень сильно зависит от разработчика. Если у него прямые руки - бардака не будет. А вообще, конечно, холивар на тему CMS/конструкторов/фреймворков - наверное, вечный. Давайте не будем начинать :)
      Как выбрать подрядчика для продвижения сайта: 7 уровней воронки поиска
      aashutosh
      1
      комментарий
      0
      читателей
      Полный профиль
      aashutosh - data science training institute in noida- Webtrackker Technology (8802820025) providing Data Science Training in Noida. Get ✓ 40 Hours Learning training✓ 70 Hrs Projects ✓ 24 X 7 Support ✓ Job Assistance. WEBTRACKKER TECHNOLOGY (P) LTD. C - 67, sector- 63, Noida, India. E-47 Sector 3, Noida, India. +91 - 8802820025 0120-433-0760 +91 - 8810252423 012 - 04204716 EMAIL:info@webtrackker.com webtrackker.com/Best-Data-Science-Training-Institute-in-Noida.php
      Какой сюрприз! 8 историй про новогодние подарки от digital-компаний
      Мистер Гость
      1
      комментарий
      0
      читателей
      Полный профиль
      Мистер Гость - У нас был более универсальный digital-подход - дарили электронные подарочные карты)
      ТОП КОММЕНТАТОРОВ
      Комментариев
      910
      Комментариев
      834
      Комментариев
      554
      Комментариев
      540
      Комментариев
      483
      Комментариев
      373
      Комментариев
      345
      Комментариев
      262
      Комментариев
      246
      Комментариев
      171
      Комментариев
      156
      Комментариев
      137
      Комментариев
      121
      Комментариев
      100
      Комментариев
      97
      Комментариев
      97
      Комментариев
      96
      Комментариев
      80
      Комментариев
      74
      Комментариев
      67
      Комментариев
      60
      Комментариев
      59
      Комментариев
      57
      Комментариев
      56
      Комментариев
      55

      Отправьте отзыв!
      Отправьте отзыв!