Россия+7 (495) 960-65-87

Теоретические основы текстового ранжирования в Яндексе (Часть 2. Текстовое ранжирование)

Россия+7 (495) 960-65-87
Шрифт:
0 9023

1. Введение
2. Основная часть
3. Рекомендации по оптимизации текста
4. Заключение

1. Введение

В предыдущей части мастер-класса мы познакомились с основами текстового ранжирования, а точнее с той частью, которая происходит непосредственно перед оценкой текстового веса документа.

Теперь рассмотрим основные текстовые факторы, влияющие на релевантность документа.

2. Основная часть

Итак, начнем с основ информационного поиска – формулы TF*IDF.

TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова ti в пределах отдельного документа:



где ni есть число рассматриваемых употреблений слова, а в знаменателе общее число словоупотреблений.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Таким образом, понижается вес широкоиспользуемых слов.



где D — количество документов в корпусе;

- количество документов, в которых встречается ti, когда



Конечно же, Яндекс для оценки релевантности документа использует видоизмененную формулу. Сделаем сразу оговорку, что у нас речь пойдет об относительной релевантности, т.е. релевантности нескольких документов одному запросу, таким образом, величина IDF просто-напросто сократится при расчетах.

В общем виде формула имеет вид:



т.е. текстовая релевантность (W) рассчитывается как отношение количества найденных ключевых слов к «тошноте». «Тошнота» рассчитывается как квадратный корень из частоты самого часто встречаемого слова в документе.



Если ЧСЧВС меньше семи, то тогда:



Если «тошнота» превышает некий порог (для различных слов он различен, но примерно это интервал от 20 до 25), то Яндекс начинает искусственно занижать вес документа.

Почему «тошнота»? Это определение ввел в речевой обиход оптимизаторов Миныч, после этого определение так и прижилось.

Итак, из формулы мы видим, что в Яндексе нет такого понятия как «плотность ключевого слова», т.е. объем всего текста не учитывается. Это подтверждает эксперимент «Зависимость релевантности страницы от количества нерелевантных пассажей».

При расчете «тошноты» документа учитываются и стоп-слова. (См. эксперимент «Учет стоп-слов при расчете тошноты»).

Уточним далее формулу.

Не все ключевые слова вносят свой вклад в релевантность документа, а только те, которые попали в релевантные пассажи. Если запрос однословный, т.е. ключевой слово одно, то тогда любой пассаж, содержащий это слово, будет релевантным. Если у нас - ключевая фраза из нескольких слов, то при расчете релевантности будут учитываться только те пассажи, которые прошли кворум.

При этом если в одном пассаже ключевое слово будет повторять несколько раз (более 4), то это негативно отразиться на релевантности документа.

Углубляемся дальше. Пассаж пассажу рознь. Во-первых, пассаж может принадлежать различным зонам документа:

otitle
odescription
okeywords
obody

Во-вторых, пассаж, относящийся к body, может иметь различное форматирование – например, пассаж может быть заголовком < h1>. Также пассаж может быть включен в теги < script>, < noindex> - в этом случае пассаж проиндексирован не будет.

На seonews.ru уже публиковалось несколько экспериментов, посвященных изучению влияния принадлежности пассажа к определенной зоне документа. В результате были сделаны следующие выводы:

1.Description и keywords сайта не влияют на релевантность. При этом keywords вообще не индексируется.
2.Заголовки < h1>…< h6> немного повышают релевантность документа.
3.Title влияет на релевантность (Однако надо помнить, что из title индексируется только 15 первых слов!).

Кроме учета принадлежности пассажа, также учитывается е еще несколько факторов.

Расхожее мнение о том, что на релевантность влияет форматирование ключевых словом при помощи тегов , , и т.д. сейчас уже неактуально. Все это осталось в прошлом.

Гораздо важнее точность вхождения ключевой фразы в документ – точность с точки зрения морфологии и точность с точки зрения словопозиций.

В подтверждении несколько примеров.

Сделаем запрос «Ухта». Получим следующую выдачу:



Теперь изменим окончание и зададим запрос «Ухту». Мы видим и изменение в выдаче. На первом месте появился сайт, который имеет точное совпадение с запросом.



Аналогично можно поэкспериментировать со словопозициями.

Например, для запросов «Майкл Джаггер» и «Майкл &/(-1 5) Джаггер» выдача будет отличаться. Напомним, что конструкция «Майкл &/(-1 5) Джаггер» означает, что слово Джаггер должно находиться в районе 1 слова слева или 5 слов справа от слова «Майкл».

Оптимальной позицией слова «Джаггер» относительно слова «Майкл» будет позиция через одно слов справа, т.к. (5+(-1))/2=2. Эта формула для расчета оптимальной позиции в свое время тоже была предложена Минычем.

3. Рекомендации по оптимизации текста

Конечно, количественный расчет текстовой релевантности дело интересное и нужное, но для практических целей вполне подойдет ряд рекомендаций, соблюдая которые, вы напишете хороший (с т.зр. Яндекса) контент для сайта.

Главный принцип, которому нужно следовать – естественность текста. Не надо перегружать содержимое сайта ключевыми словами, тегами форматирования и прочим. Все должно быть в меру.

1.Прежде всего, уменьшите «тошноту» продвигаемой страницы.
2.Пишите релевантный title, не употребляя ни одного слова более одного раза.
3.Пишите description таким образом, чтобы если вдруг это описание попало в сниппет, оно привлекло пользователя, а не наоборот, оттолкнуло набором ключевых фраз.
4.Используйте заголовки ради удобства пользователя, а не для поисковой системы, которая на них не обращает внимания.
5.Используйте хотя бы одно точное вхождение (и с точки зрения морфологии и с точки зрения словопозиций) ключевой фразы.

4. Заключение

Итак, мы рассмотрели основные факторы, влияющие на текстовую релевантность.

Все факторы были проверены путем экспериментов. На настоящий момент информация является актуальной, но периодически Яндекс вносит изменения в алгоритм, так что нужно постоянно перепроверять действие выше озвученных факторов.

Конечно, сейчас основное значение придается ссылочному ранжированию, основные усилия направлены на покупку ссылок, оценку площадок, изучение правил составления текстов ссылок… Но про текст тоже не нужно забывать, т.к. сайт с правильно написанным контентом легче и, главное, дешевле продвинуть в топ.

(Нет голосов)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Рейтинг Известности 2018: старт народного голосования
    Михаил Р
    1
    комментарий
    LANG_NO
    читателей
    Полный профиль
    Михаил Р - 1. Demis 2. кокс 3. Ашманов 4. Скобеев 5. Digital Strategy
    Рейтинг Известности 2018: второй этап народного голосования
    Константин Сокол
    3
    комментария
    LANG_NO
    читателей
    Полный профиль
    Константин Сокол - Кто был ответственный за дизайн таблицы голосования? Копирайтер?
    Сколько ссылок помогут продвинуть молодой сайт
    Павел Андрейчук
    29
    комментариев
    LANG_NO
    читателей
    Полный профиль
    Павел Андрейчук - Дело в том, что вряд ли в ваших платных "качественных" кейсах найдётся хоть пару % действительно новой и полезной информации которой бы не было на общедоступных источниках.
    Сайт на WordPress: за и против
    Мира Смурков
    1
    комментарий
    LANG_NO
    читателей
    Полный профиль
    Мира Смурков - Людмила, я согласен с большинством комментаторов. Вы хоть один полноценный магазин сделали на этих движках? Woocommerce это система с супер возможностями. И к ней есть дополнительные модули, с функционалом, который вряд ли появиться на Битрикс. А самому это программировать - сотни тысяч рублей на разработку. А приведя в пример сложности с robots.txt и Sitemap вы ставите под вопрос вашу компетенцию в понимании Интернет-бизнеса и веб-разработки в целом. Во-первых это такие мелочи, а во-вторых это все делается на вордпресса за 2 минуты, и опять же с возможностями многократно превышающими Битрикс.
    Кейс: вывод лендинга по изготовлению флагов на заказ в ТОП 1 по Санкт-Петербургу
    utka21
    5
    комментариев
    LANG_NO
    читателей
    Полный профиль
    utka21 - Кейс как кейс. Для некоторых станет вполне возможно полезным. ( Для конкурентов точно) . А вот с комментариями , что то пошло не так )
    Google обошел Яндекс по популярности в России в 2018 году: исследование SEO Auditor
    Рамблер
    1
    комментарий
    LANG_NO
    читателей
    Полный профиль
    Рамблер - Вот вроде отечественный - это сказано верно.. «Я́ндекс» — российская транснациональная компания, зарегистрированная в Нидерландах. Так говорится в Википедии. И с хрена ли ОТЕЧЕСТВЕННЫЙ поисковик зарегистрирован в Европе? И где платится основная часть налогов? Ну-ууу, точно не в России. И если запахнет жаренным, то был Яндекс и нет Яндекса!
    Обзор популярных CMS: плюсы и минусы
    Гость
    1
    комментарий
    LANG_NO
    читателей
    Полный профиль
    Гость - У Битрикса техническое seo сильно страдает, чтоб оно там было нормальным придется все переделать. Безопасность у Битрикса тоже низкая, особено если надо дорабатывать функционал, как только правиться функционал у Битрикс , то уровень ее безопасности определяет тот разработчик , который этим занимается. Самые безопасные движки те, что нет в общем доступе и где нельзя ничего редактировать в коде. =)
    8 методик в SEO, от которых давно пора отказаться
    Евгений Сметанин
    11
    комментариев
    LANG_NO
    читателей
    Полный профиль
    Евгений Сметанин - Факторов вообще очень много, согласитесь, вы будете использовать максимальное их количество, особенно, если в ТОПе засели агрегаторы с сумасшедшими ПФ. В таких случаях, вхождение ключа в домен для маленького профильного сайта, сыграет свою положительную роль. Конечно же, если контент на страницах хорошего качества. У меня есть несколько успешных кейсов на эту тему. На сайте продают несколько видов товаров, а выстреливает в ТОП тот, название которого присутствует в доменном имени. Как корабль назовешь, так он и поплывет, верно?))
    Инструкция: настраиваем цели Яндекс.Метрики через Google Tag Manager
    Roman Gorkunenko
    1
    комментарий
    LANG_NO
    читателей
    Полный профиль
    Roman Gorkunenko - Здравствуйте. Подскажите, пожалуйста, можно с айпи метрики вытащить среднюю стоимость клика по утм меткам? В метрике есть такой шаблон tags_u_t_m, но он не совместим с меткой директа, у них разные префиксы.
    Аудит структуры интернет-магазина мебели от «Ашманов и партнеры»
    Дмитрий
    8
    комментариев
    LANG_NO
    читателей
    Полный профиль
    Дмитрий - Сергей, а вы допускаете, что вся ваша жизнь - seo-миф?
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    343
    Комментариев
    262
    Комментариев
    244
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    100
    Комментариев
    97
    Комментариев
    97
    Комментариев
    96
    Комментариев
    80
    Комментариев
    71
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    57
    Комментариев
    56
    Комментариев
    55

    Отправьте отзыв!
    Отправьте отзыв!