Rookee
Россия+7 (495) 960-65-87

О словоформах Яндекса

Россия+7 (495) 960-65-87
Шрифт:
14 27733

Русский язык, конечно, велик и могуч, однако, он еще и неимоверно сложен, и часто наше интуитивное представление идет вразрез с формальным. Например, формально, «лучший» — это словоформа слова «хороший», поскольку является его превосходной степенью. А «красивый» и «красиво», в большинстве случаев, разные слова, поскольку, «красивый» — прилагательное, а «красиво» — наречие.

Еще больше отличаются от нашего интуитивного представления результаты машинного разбора. В этой статье я покажу, что представление Яндекса о словоформах отличается от человеческого и то, что это влияет на выдачу.

Машинные словоформы

С сайта 1september.ruВ русском языке несколько сотен тысяч слов, каждое из которых имеет по несколько десятков словоформ, причем каждая из них имеет полдюжины свойств (род, число, падеж, форма и т.д). Например, любое прилагательное может находиться в семи падежах, в краткой форме, в трех родах, двух числах, в сравнительной и превосходной степени, быть одушевленным или нет. В итоге, прилагательное может иметь аж 8×4 x 2×2 + 1 = 129 cловоформ, причем, больше половины из них будут иметь разные окончания.

В некоторых бумажных морфологических словарях, чтобы сэкономить место группируют слова по окончаниям в так называемые морфологические группы. Например, слова «великий» и «могучий» имеют в одинаковых словоформах одинаковые окончания. Эти группы нумеруют и для слова указывается только его начало общее для всех словоформ и его морфологическая группа: «Могучий. могуч*, группа 21».

В большинстве электронных баз поступают также. На вариант с сохранением всех словоформ отдельно нужно около 500 МБ памяти, на второй (с группами) — около 10ти. В принципе, 500 МБ для сервера не так уж много, однако морфология Яндекса писалась где-то лет десять назад. А в это время для нескольких сотен серверов покупка такого объема памяти могла обойтись в копеечку.

С тех пор правила русского языка не изменялись, а следовательно, не было особой нужды полностью переписывать морфологию. Ведь системное изменение в морфологии привело бы к необходимости целого каскада изменений в других частях кода.

Словоформы и синонимы

Хотя зачем гадать? Словоформы одного слова выделяются в результатах поиска жирным. Однако вместе с ними выделяются еще и синонимы. Поэтому мы не можем сказать определил ли поисковик слова в снипете и запросе как словоформы или попросту счел их синонимами. В Яндексе оператор плюс отключает подсветку синонимов, оставляя только подстветку словоформ. Убедиться в этом можно набрав запросы «гостиницы Одессы» (слово «отель» будет подсвечено) и «+гостиницы Одессы» (слово «отель» не будет подсвечено).

Большинство современных морфологических баз ведут свое начало из морфологического словаря Зализняка, в котором для экономии места были введены морфологические группы. Однако группировка в нем, обладает некоторыми «артефактами», например, глаголы и их причастия и деепричастия (купить/купивший) — это словоформы, а глаголы совершенного и несовершенного (делать/сделать) вида — нет.

Так или иначе, я проверил Яндекс на все известные мне «артефакты» базы АОТ.ru, с которой я работал, и все из них Яндекс содержал. Правда, Яндекс использует базу «синонимов», в том числе и для того чтобы исправить разницу в человеческом и машинном восприятии словоформ. Например, при запросе «делать дымовую шашку» подсвечивается и слово «сделать», однако стоит добавить плюс перед словом «делать», и подсветка «сделать» исчезает, а «делать» остается.

Словоформы Google

Английская морфология не так могуча и велика: у слов всего несколько словоформ. Поэтому оптимизация памяти не оправдывает группировку слов. И, вполне возможно, что для общности кода с английской версией русская морфология Google написана без использования морфологических групп и поэтому была лишена «артефактов» Яндекса.

Google в отличие от Яндекса по запросу «сделанный» не ищет слово «сделать». Например, наберите «как правильно сделанный клизму» в Google и Яндекс. Другой пример: отключить подсветку слова «сделать» по запросу «делать» в Google у меня никак не получилось, хотя почти всегда Google подсвечивает только словоформы. Следовательно, для Google «делать» и «сделать» — это словоформы, а не что-то вроде синонимов как у Яндекса.

Как бы парадоксально это бы ни звучало, русская морфология Google реализована правильнее чем у Яндекса. И вся ирония в том, что это следствие английского происхождения Google. Морфология Google именно «правильнее», но не факт, что «лучше». У кого выдача релевантнее — спорный вопрос. Ровно как и то, что должно выдаваться по запросу «как правильно сделанный клизму».

Разница в ранжировании

Подсветка и неподсветка с помощью плюса словоформ говорит лишь о разнице в восприятии их Яндексом: часть словоформ определяется морфологией сразу, часть из связей по типу синонимов. Вполне вероятно, что Яндекс учитывает морфологические и синонимиальные словоформы одинаково и разницы в ранжировании может не существовать.

Сейчас нет метода общепринятой оценки разницы выдачи и программных средств для его расчета, а вручную оценить выдачу по нескольким сотням запросов — проблематично. Этим способом доказать, что существует разница в ранжировании разных типов словоформ, нет. Можно найти этому только косвенные подтверждения.

Число найденных страниц, если запрашивать машинные словоформы, отличается не больше чем на 1%, а если запрашивать словоформы-синонимы, обычно, разница в 10-30%.

  • «сделать яндекс стартовой страницей» — 5 млн.
  • «сделал яндекс стартовой страницей» — 5 млн.
  • «делать яндекс стартовой страницей» — 7 млн.
  • «делал яндекс стартовой страницей» — 7 млн.

Также сравнить изменения в выдаче в Яндексе и Google. Разницы в выдаче по запросам «как правильно сделать клизму» и «как правильно делать клизму» в Google почти нет, а в Яндексе только 2 страницы остались в первой десятке и то значительно поменяли свои позиции.

Существуют некоторые слова, которые подсвечиваются странным образом. Например, для слова купить словоформы его несовершенного вида (покупать) подсвечиваются и при наличии плюса. Другими словами, Яндекс ввел для этого слова исключение в поиске, хотя для Яндекс WordStat это два разных слова. Если же выдача по синонимам и словоформам была бы аналогичной, не было никакого смысла делать исключение для этого слова.

Слово «купить» довольно часто встречается в запросах (40 млн. показов в месяц по Вордстат), и дополнительные действия для улучшения его ранжирования вполне вероятны. Однако непонятно каким образом улучшается выдача от введения прямой связи слов «купить» и «покупать», допустим, разработчикам или асессорам виднее. Нам нужно найти еще одно исключение, в котором улучшение выдачи очевидно.

И это исключение «варить» и «варка». По Вордстату у «варить» миллион показов, а у «варки» не более 100 тысяч. Однако, если к статье не приложит руку сеошник, то она будут называться «варка кофе», а не «как варить кофе?». Здесь польза для ранжирования очевидна.

Исключения подтверждают правила и с большой степенью уверенности можно сказать, что морфологические словоформы ранжируются выше, чем словоформы-синонимы.

ВЧ запросы

Подсветка синонимов отключается не только при использовании плюса. Если мы наберем «гостиницы Москвы», то подсветки отелей не будет, а если «гостиницы Москвы центр» или «гостиницы Одессы» — то она включится. Следовательно, существует определенный порог, после которого синонимы в выдачу не включаются, чтобы ее не ухудшить. Этот порог, скорее всего, зависит от числа страниц в индексе либо релевантности первых страниц выдачи, а не от частотности запроса.

Правила

Глаголы совершенного и несовершенного вида не словоформы

  • Актуально только для Яндекса.
  • Сделать≠делать
  • Исключения: купить и покупать, выщипывать и выщипать, отправлять и отправить

Глаголы, причастия и деепричастия — словоформы друг друга

  • Актуально только для Яндекса.
  • Сделать=сделаю=сделал=сделавший=сделанный=...
  • Поскольку причастия склоняются по роду, числу и падежу, а также залогу, то у глаголов получается больше 100 словоформ по Яндексу. А например, у слова купить (из-за исключений) — их еще больше. Причастия можно успешно использовать, чтобы улучшить ранжирования глаголов. Например, «купленный», «купившие» — словоформы слова купить.

Разные части речи не могут быть слоформами друг-друга

  • Актуально для Яндекса и Google
  • Покупать≠покупка≠покупатель
  • Красавец≠красивый
  • Сильный удар≠сильно ударить
  • Исключения для Яндекса: варить и варка, а также причастия, деепричастия и глаголы

Все словоформы существительных одного рода.

  • Актуально для Яндекса и Google
  • Красавец≠красавица
  • Повар≠повариха

Превосходная степень прилагательных — одна из словоформ

  • Актуально только для Яндекса
  • Красивый=Красивейший=Красивейшая=Красивейшую=...
  • Хороший=лучший
  • Надежный=Надежнейший=...
  • Однако, прекрасный≠красивый (это просто синонимы)

Сравнительная степень прилагательных — одна из словоформ

  • Актуально для Яндекса и Google
  • Красивый=красивее
  • Надежный=надежнее
  • Исключение для Google: хороший≠лучше. Эту словоформу Google относит к превосходной степени (лучший).

У Google группировка слов происходит чисто по интуитивному сходству слов, а не по формальным правилам русского языка. Это хорошо видно по «хороший» и «лучше», для всех остальных прилагательных сравнительная степень отнесена к обычной, а не превосходной форме.

Как было уже сказано, почти наверняка релевантность словоформ-синонимов ниже, чем морфологических словоформ. Поэтому, оптимизируя посадочную страницу, старайтесь использовать словоформы именно в машинном представлении, а не в человеческом. Особенно это актуально, когда вы вставляете популярное уточнение в шаблон сайта, ведь таким образом вы изменяете несколько сотен или даже тысяч страниц.

P.S.

Указывая на сходство структуры морфологической базы Яндекса и словаря Зализняка, я никоим образом не намекал на плагиат. По принципу Анны Карениной способы правильной реализации чего-либо похожи. Более того, принцип структурирования чего-либо не может быть объектом авторского права.

(Нет голосов)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Гость
    больше года назад
    lred.ru/index.php/optimizacia/12406-%D0%BE-%D1%81%D0%BB%D0%BE%D0%B2%D0%BE%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%85-%D1%8F%D0%BD%D0%B4%D0%B5%D0%BA%D1%81%D0%B0
    думаю вам будет это интересно
    -
    0
    +
    Ответить
  • Иван
    больше года назад
    А есть парсер для поиска синонимов по списку запросов?
    -
    -1
    +
    Ответить
  • andrey
    6
    комментариев
    LANG_NO
    читателей
    andrey
    больше года назад
    Синонимы учитываются слабее
    -
    0
    +
    Ответить
  • hkey
    больше года назад
    купить и продажа синонимы, а не словоформы. проверяется плюсом
    -
    -3
    +
    Ответить
  • hkey
    больше года назад
    Оператор + это не уточнение. Он значит придать больший вес слову.
    -
    0
    +
    Ответить
  • hkey
    больше года назад

    Я оцениваю не разницу в выдаче по запросу с плюсом и без него. Просто те словоформы у которых отключается подсветка называю словоформами-синонимами у которых не отключается - машинными словоформами. И дальше доказываю, что разница в выдаче по машинной словоформе ниже чем по словоформе-синониму.


    Тогда как объяснить отключения подсветки части словоформ при плюсе или при ВЧ и то что артефакты такого поведения совпадают с поведением базы АОТ.


    Синони...

    Я оцениваю не разницу в выдаче по запросу с плюсом и без него. Просто те словоформы у которых отключается подсветка называю словоформами-синонимами у которых не отключается - машинными словоформами. И дальше доказываю, что разница в выдаче по машинной словоформе ниже чем по словоформе-синониму.


    Тогда как объяснить отключения подсветки части словоформ при плюсе или при ВЧ и то что артефакты такого поведения совпадают с поведением базы АОТ.


    Синонимы учитываются, но слабее чем словоформы.
    -
    1
    +
    Ответить
  • Гость 12321
    больше года назад

    странно, введите "купить шины" и "продажа шин"
    получается, купить=продажа
    Или я что-то недопонял?
    -
    -1
    +
    Ответить
  • Saveljev
    2
    комментария
    LANG_NO
    читателей
    Saveljev
    больше года назад
    Андрей Белоусов, спасибо за материал.
    -
    0
    +
    Ответить
  • Boniface
    больше года назад
    Соглашусь - он хорошь ...)
    -
    -1
    +
    Ответить
  • Николай
    больше года назад


    Оператор + это уточнение, дополнение к основному запросу. Например, пластиковые онка + купить, установить, ремонтировать, монтаж, в Москве, рехау и т.д. А при использовании оператора в начале запрос непонятно дополнением к чему он является!
    -
    0
    +
    Ответить
  • yanus
    больше года назад
    Весьма спорная статья. Попытка через оператор "+" и подсветку сниппетов оценить подход яндекса к морфологии имеет ряд проблем.
    Во-первых, сам оператор "+" не просто модифицирует запрос, а меняет его. Выдача совсем другая, поэтому сравнивать результаты некорректно.
    Во-вторых, работа алгоритма аннотации сайтов в выдаче весьма самостоятельна и не всегда жестко завязана на алгоритмах ранжирования.

    Непосредственно по морфологическим словоформам ...
    Весьма спорная статья. Попытка через оператор "+" и подсветку сниппетов оценить подход яндекса к морфологии имеет ряд проблем.
    Во-первых, сам оператор "+" не просто модифицирует запрос, а меняет его. Выдача совсем другая, поэтому сравнивать результаты некорректно.
    Во-вторых, работа алгоритма аннотации сайтов в выдаче весьма самостоятельна и не всегда жестко завязана на алгоритмах ранжирования.

    Непосредственно по морфологическим словоформам ситуация вполне понятна - они учитываются.

    По синонимам ситуация сложнее. Учет или не учет можно проверить только опытным путем. Для экономии времени, могу сказать, что были прецеденты, когда в региональной выдаче по среднеконкурентным запросам в топ3 были сайты, на страницах и входящих анкорах которых отсутствовал изначальный запрос, но была высокая плотность "синонима".
    -
    0
    +
    Ответить
  • pavko
    больше года назад
    Интересная инфа, спасибо.
    Побольше бы таких
    -
    -1
    +
    Ответить
  • Сергей
    больше года назад
    Спасибо за полезную информацию
    -
    0
    +
    Ответить
  • действительно
    больше года назад
    редко попадается интересное чтиво
    В последнее время все чаще статьи от К.О. и со скрытой рекламой
    Спасибо!
    -
    -1
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Рейтинг Известности 2018: старт народного голосования
Михаил Р
1
комментарий
LANG_NO
читателей
Полный профиль
Михаил Р - 1. Demis 2. кокс 3. Ашманов 4. Скобеев 5. Digital Strategy
Рейтинг Известности 2018: второй этап народного голосования
Константин Сокол
3
комментария
LANG_NO
читателей
Полный профиль
Константин Сокол - Кто был ответственный за дизайн таблицы голосования? Копирайтер?
Сколько ссылок помогут продвинуть молодой сайт
Павел Андрейчук
30
комментариев
LANG_NO
читателей
Полный профиль
Павел Андрейчук - Дело в том, что вряд ли в ваших платных "качественных" кейсах найдётся хоть пару % действительно новой и полезной информации которой бы не было на общедоступных источниках.
Сайт на WordPress: за и против
Мира Смурков
1
комментарий
LANG_NO
читателей
Полный профиль
Мира Смурков - Людмила, я согласен с большинством комментаторов. Вы хоть один полноценный магазин сделали на этих движках? Woocommerce это система с супер возможностями. И к ней есть дополнительные модули, с функционалом, который вряд ли появиться на Битрикс. А самому это программировать - сотни тысяч рублей на разработку. А приведя в пример сложности с robots.txt и Sitemap вы ставите под вопрос вашу компетенцию в понимании Интернет-бизнеса и веб-разработки в целом. Во-первых это такие мелочи, а во-вторых это все делается на вордпресса за 2 минуты, и опять же с возможностями многократно превышающими Битрикс.
Кейс: вывод лендинга по изготовлению флагов на заказ в ТОП 1 по Санкт-Петербургу
utka21
5
комментариев
LANG_NO
читателей
Полный профиль
utka21 - Кейс как кейс. Для некоторых станет вполне возможно полезным. ( Для конкурентов точно) . А вот с комментариями , что то пошло не так )
Обзор популярных CMS: плюсы и минусы
Гость
1
комментарий
LANG_NO
читателей
Полный профиль
Гость - У Битрикса техническое seo сильно страдает, чтоб оно там было нормальным придется все переделать. Безопасность у Битрикса тоже низкая, особено если надо дорабатывать функционал, как только правиться функционал у Битрикс , то уровень ее безопасности определяет тот разработчик , который этим занимается. Самые безопасные движки те, что нет в общем доступе и где нельзя ничего редактировать в коде. =)
Google обошел Яндекс по популярности в России в 2018 году: исследование SEO Auditor
Рамблер
1
комментарий
LANG_NO
читателей
Полный профиль
Рамблер - Вот вроде отечественный - это сказано верно.. «Я́ндекс» — российская транснациональная компания, зарегистрированная в Нидерландах. Так говорится в Википедии. И с хрена ли ОТЕЧЕСТВЕННЫЙ поисковик зарегистрирован в Европе? И где платится основная часть налогов? Ну-ууу, точно не в России. И если запахнет жаренным, то был Яндекс и нет Яндекса!
8 методик в SEO, от которых давно пора отказаться
Евгений Сметанин
11
комментариев
LANG_NO
читателей
Полный профиль
Евгений Сметанин - Факторов вообще очень много, согласитесь, вы будете использовать максимальное их количество, особенно, если в ТОПе засели агрегаторы с сумасшедшими ПФ. В таких случаях, вхождение ключа в домен для маленького профильного сайта, сыграет свою положительную роль. Конечно же, если контент на страницах хорошего качества. У меня есть несколько успешных кейсов на эту тему. На сайте продают несколько видов товаров, а выстреливает в ТОП тот, название которого присутствует в доменном имени. Как корабль назовешь, так он и поплывет, верно?))
Инструкция: настраиваем цели Яндекс.Метрики через Google Tag Manager
Roman Gorkunenko
1
комментарий
LANG_NO
читателей
Полный профиль
Roman Gorkunenko - Здравствуйте. Подскажите, пожалуйста, можно с айпи метрики вытащить среднюю стоимость клика по утм меткам? В метрике есть такой шаблон tags_u_t_m, но он не совместим с меткой директа, у них разные префиксы.
Аудит структуры интернет-магазина мебели от «Ашманов и партнеры»
Дмитрий
9
комментариев
LANG_NO
читателей
Полный профиль
Дмитрий - Сергей, а вы допускаете, что вся ваша жизнь - seo-миф?
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
344
Комментариев
262
Комментариев
246
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
73
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
56
Комментариев
55

Отправьте отзыв!
Отправьте отзыв!