Россия+7 (495) 960-65-87

О словоформах Яндекса

Россия+7 (495) 960-65-87
Шрифт:
14 27912

Русский язык, конечно, велик и могуч, однако, он еще и неимоверно сложен, и часто наше интуитивное представление идет вразрез с формальным. Например, формально, «лучший» — это словоформа слова «хороший», поскольку является его превосходной степенью. А «красивый» и «красиво», в большинстве случаев, разные слова, поскольку, «красивый» — прилагательное, а «красиво» — наречие.

Еще больше отличаются от нашего интуитивного представления результаты машинного разбора. В этой статье я покажу, что представление Яндекса о словоформах отличается от человеческого и то, что это влияет на выдачу.

Машинные словоформы

С сайта 1september.ruВ русском языке несколько сотен тысяч слов, каждое из которых имеет по несколько десятков словоформ, причем каждая из них имеет полдюжины свойств (род, число, падеж, форма и т.д). Например, любое прилагательное может находиться в семи падежах, в краткой форме, в трех родах, двух числах, в сравнительной и превосходной степени, быть одушевленным или нет. В итоге, прилагательное может иметь аж 8×4 x 2×2 + 1 = 129 cловоформ, причем, больше половины из них будут иметь разные окончания.

В некоторых бумажных морфологических словарях, чтобы сэкономить место группируют слова по окончаниям в так называемые морфологические группы. Например, слова «великий» и «могучий» имеют в одинаковых словоформах одинаковые окончания. Эти группы нумеруют и для слова указывается только его начало общее для всех словоформ и его морфологическая группа: «Могучий. могуч*, группа 21».

В большинстве электронных баз поступают также. На вариант с сохранением всех словоформ отдельно нужно около 500 МБ памяти, на второй (с группами) — около 10ти. В принципе, 500 МБ для сервера не так уж много, однако морфология Яндекса писалась где-то лет десять назад. А в это время для нескольких сотен серверов покупка такого объема памяти могла обойтись в копеечку.

С тех пор правила русского языка не изменялись, а следовательно, не было особой нужды полностью переписывать морфологию. Ведь системное изменение в морфологии привело бы к необходимости целого каскада изменений в других частях кода.

Словоформы и синонимы

Хотя зачем гадать? Словоформы одного слова выделяются в результатах поиска жирным. Однако вместе с ними выделяются еще и синонимы. Поэтому мы не можем сказать определил ли поисковик слова в снипете и запросе как словоформы или попросту счел их синонимами. В Яндексе оператор плюс отключает подсветку синонимов, оставляя только подстветку словоформ. Убедиться в этом можно набрав запросы «гостиницы Одессы» (слово «отель» будет подсвечено) и «+гостиницы Одессы» (слово «отель» не будет подсвечено).

Большинство современных морфологических баз ведут свое начало из морфологического словаря Зализняка, в котором для экономии места были введены морфологические группы. Однако группировка в нем, обладает некоторыми «артефактами», например, глаголы и их причастия и деепричастия (купить/купивший) — это словоформы, а глаголы совершенного и несовершенного (делать/сделать) вида — нет.

Так или иначе, я проверил Яндекс на все известные мне «артефакты» базы АОТ.ru, с которой я работал, и все из них Яндекс содержал. Правда, Яндекс использует базу «синонимов», в том числе и для того чтобы исправить разницу в человеческом и машинном восприятии словоформ. Например, при запросе «делать дымовую шашку» подсвечивается и слово «сделать», однако стоит добавить плюс перед словом «делать», и подсветка «сделать» исчезает, а «делать» остается.

Словоформы Google

Английская морфология не так могуча и велика: у слов всего несколько словоформ. Поэтому оптимизация памяти не оправдывает группировку слов. И, вполне возможно, что для общности кода с английской версией русская морфология Google написана без использования морфологических групп и поэтому была лишена «артефактов» Яндекса.

Google в отличие от Яндекса по запросу «сделанный» не ищет слово «сделать». Например, наберите «как правильно сделанный клизму» в Google и Яндекс. Другой пример: отключить подсветку слова «сделать» по запросу «делать» в Google у меня никак не получилось, хотя почти всегда Google подсвечивает только словоформы. Следовательно, для Google «делать» и «сделать» — это словоформы, а не что-то вроде синонимов как у Яндекса.

Как бы парадоксально это бы ни звучало, русская морфология Google реализована правильнее чем у Яндекса. И вся ирония в том, что это следствие английского происхождения Google. Морфология Google именно «правильнее», но не факт, что «лучше». У кого выдача релевантнее — спорный вопрос. Ровно как и то, что должно выдаваться по запросу «как правильно сделанный клизму».

Разница в ранжировании

Подсветка и неподсветка с помощью плюса словоформ говорит лишь о разнице в восприятии их Яндексом: часть словоформ определяется морфологией сразу, часть из связей по типу синонимов. Вполне вероятно, что Яндекс учитывает морфологические и синонимиальные словоформы одинаково и разницы в ранжировании может не существовать.

Сейчас нет метода общепринятой оценки разницы выдачи и программных средств для его расчета, а вручную оценить выдачу по нескольким сотням запросов — проблематично. Этим способом доказать, что существует разница в ранжировании разных типов словоформ, нет. Можно найти этому только косвенные подтверждения.

Число найденных страниц, если запрашивать машинные словоформы, отличается не больше чем на 1%, а если запрашивать словоформы-синонимы, обычно, разница в 10-30%.

  • «сделать яндекс стартовой страницей» — 5 млн.
  • «сделал яндекс стартовой страницей» — 5 млн.
  • «делать яндекс стартовой страницей» — 7 млн.
  • «делал яндекс стартовой страницей» — 7 млн.

Также сравнить изменения в выдаче в Яндексе и Google. Разницы в выдаче по запросам «как правильно сделать клизму» и «как правильно делать клизму» в Google почти нет, а в Яндексе только 2 страницы остались в первой десятке и то значительно поменяли свои позиции.

Существуют некоторые слова, которые подсвечиваются странным образом. Например, для слова купить словоформы его несовершенного вида (покупать) подсвечиваются и при наличии плюса. Другими словами, Яндекс ввел для этого слова исключение в поиске, хотя для Яндекс WordStat это два разных слова. Если же выдача по синонимам и словоформам была бы аналогичной, не было никакого смысла делать исключение для этого слова.

Слово «купить» довольно часто встречается в запросах (40 млн. показов в месяц по Вордстат), и дополнительные действия для улучшения его ранжирования вполне вероятны. Однако непонятно каким образом улучшается выдача от введения прямой связи слов «купить» и «покупать», допустим, разработчикам или асессорам виднее. Нам нужно найти еще одно исключение, в котором улучшение выдачи очевидно.

И это исключение «варить» и «варка». По Вордстату у «варить» миллион показов, а у «варки» не более 100 тысяч. Однако, если к статье не приложит руку сеошник, то она будут называться «варка кофе», а не «как варить кофе?». Здесь польза для ранжирования очевидна.

Исключения подтверждают правила и с большой степенью уверенности можно сказать, что морфологические словоформы ранжируются выше, чем словоформы-синонимы.

ВЧ запросы

Подсветка синонимов отключается не только при использовании плюса. Если мы наберем «гостиницы Москвы», то подсветки отелей не будет, а если «гостиницы Москвы центр» или «гостиницы Одессы» — то она включится. Следовательно, существует определенный порог, после которого синонимы в выдачу не включаются, чтобы ее не ухудшить. Этот порог, скорее всего, зависит от числа страниц в индексе либо релевантности первых страниц выдачи, а не от частотности запроса.

Правила

Глаголы совершенного и несовершенного вида не словоформы

  • Актуально только для Яндекса.
  • Сделать≠делать
  • Исключения: купить и покупать, выщипывать и выщипать, отправлять и отправить

Глаголы, причастия и деепричастия — словоформы друг друга

  • Актуально только для Яндекса.
  • Сделать=сделаю=сделал=сделавший=сделанный=...
  • Поскольку причастия склоняются по роду, числу и падежу, а также залогу, то у глаголов получается больше 100 словоформ по Яндексу. А например, у слова купить (из-за исключений) — их еще больше. Причастия можно успешно использовать, чтобы улучшить ранжирования глаголов. Например, «купленный», «купившие» — словоформы слова купить.

Разные части речи не могут быть слоформами друг-друга

  • Актуально для Яндекса и Google
  • Покупать≠покупка≠покупатель
  • Красавец≠красивый
  • Сильный удар≠сильно ударить
  • Исключения для Яндекса: варить и варка, а также причастия, деепричастия и глаголы

Все словоформы существительных одного рода.

  • Актуально для Яндекса и Google
  • Красавец≠красавица
  • Повар≠повариха

Превосходная степень прилагательных — одна из словоформ

  • Актуально только для Яндекса
  • Красивый=Красивейший=Красивейшая=Красивейшую=...
  • Хороший=лучший
  • Надежный=Надежнейший=...
  • Однако, прекрасный≠красивый (это просто синонимы)

Сравнительная степень прилагательных — одна из словоформ

  • Актуально для Яндекса и Google
  • Красивый=красивее
  • Надежный=надежнее
  • Исключение для Google: хороший≠лучше. Эту словоформу Google относит к превосходной степени (лучший).

У Google группировка слов происходит чисто по интуитивному сходству слов, а не по формальным правилам русского языка. Это хорошо видно по «хороший» и «лучше», для всех остальных прилагательных сравнительная степень отнесена к обычной, а не превосходной форме.

Как было уже сказано, почти наверняка релевантность словоформ-синонимов ниже, чем морфологических словоформ. Поэтому, оптимизируя посадочную страницу, старайтесь использовать словоформы именно в машинном представлении, а не в человеческом. Особенно это актуально, когда вы вставляете популярное уточнение в шаблон сайта, ведь таким образом вы изменяете несколько сотен или даже тысяч страниц.

P.S.

Указывая на сходство структуры морфологической базы Яндекса и словаря Зализняка, я никоим образом не намекал на плагиат. По принципу Анны Карениной способы правильной реализации чего-либо похожи. Более того, принцип структурирования чего-либо не может быть объектом авторского права.

(Нет голосов)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Гость
    больше года назад
    lred.ru/index.php/optimizacia/12406-%D0%BE-%D1%81%D0%BB%D0%BE%D0%B2%D0%BE%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%85-%D1%8F%D0%BD%D0%B4%D0%B5%D0%BA%D1%81%D0%B0
    думаю вам будет это интересно
    -
    0
    +
    Ответить
  • Иван
    больше года назад
    А есть парсер для поиска синонимов по списку запросов?
    -
    -1
    +
    Ответить
  • andrey
    6
    комментариев
    0
    читателей
    andrey
    больше года назад
    Синонимы учитываются слабее
    -
    0
    +
    Ответить
  • hkey
    больше года назад
    купить и продажа синонимы, а не словоформы. проверяется плюсом
    -
    -3
    +
    Ответить
  • hkey
    больше года назад
    Оператор + это не уточнение. Он значит придать больший вес слову.
    -
    0
    +
    Ответить
  • hkey
    больше года назад

    Я оцениваю не разницу в выдаче по запросу с плюсом и без него. Просто те словоформы у которых отключается подсветка называю словоформами-синонимами у которых не отключается - машинными словоформами. И дальше доказываю, что разница в выдаче по машинной словоформе ниже чем по словоформе-синониму.


    Тогда как объяснить отключения подсветки части словоформ при плюсе или при ВЧ и то что артефакты такого поведения совпадают с поведением базы АОТ.


    Синони...

    Я оцениваю не разницу в выдаче по запросу с плюсом и без него. Просто те словоформы у которых отключается подсветка называю словоформами-синонимами у которых не отключается - машинными словоформами. И дальше доказываю, что разница в выдаче по машинной словоформе ниже чем по словоформе-синониму.


    Тогда как объяснить отключения подсветки части словоформ при плюсе или при ВЧ и то что артефакты такого поведения совпадают с поведением базы АОТ.


    Синонимы учитываются, но слабее чем словоформы.
    -
    1
    +
    Ответить
  • Гость 12321
    больше года назад

    странно, введите "купить шины" и "продажа шин"
    получается, купить=продажа
    Или я что-то недопонял?
    -
    -1
    +
    Ответить
  • Saveljev
    2
    комментария
    0
    читателей
    Saveljev
    больше года назад
    Андрей Белоусов, спасибо за материал.
    -
    0
    +
    Ответить
  • Boniface
    больше года назад
    Соглашусь - он хорошь ...)
    -
    -1
    +
    Ответить
  • Николай
    больше года назад


    Оператор + это уточнение, дополнение к основному запросу. Например, пластиковые онка + купить, установить, ремонтировать, монтаж, в Москве, рехау и т.д. А при использовании оператора в начале запрос непонятно дополнением к чему он является!
    -
    0
    +
    Ответить
  • yanus
    больше года назад
    Весьма спорная статья. Попытка через оператор "+" и подсветку сниппетов оценить подход яндекса к морфологии имеет ряд проблем.
    Во-первых, сам оператор "+" не просто модифицирует запрос, а меняет его. Выдача совсем другая, поэтому сравнивать результаты некорректно.
    Во-вторых, работа алгоритма аннотации сайтов в выдаче весьма самостоятельна и не всегда жестко завязана на алгоритмах ранжирования.

    Непосредственно по морфологическим словоформам ...
    Весьма спорная статья. Попытка через оператор "+" и подсветку сниппетов оценить подход яндекса к морфологии имеет ряд проблем.
    Во-первых, сам оператор "+" не просто модифицирует запрос, а меняет его. Выдача совсем другая, поэтому сравнивать результаты некорректно.
    Во-вторых, работа алгоритма аннотации сайтов в выдаче весьма самостоятельна и не всегда жестко завязана на алгоритмах ранжирования.

    Непосредственно по морфологическим словоформам ситуация вполне понятна - они учитываются.

    По синонимам ситуация сложнее. Учет или не учет можно проверить только опытным путем. Для экономии времени, могу сказать, что были прецеденты, когда в региональной выдаче по среднеконкурентным запросам в топ3 были сайты, на страницах и входящих анкорах которых отсутствовал изначальный запрос, но была высокая плотность "синонима".
    -
    0
    +
    Ответить
  • pavko
    больше года назад
    Интересная инфа, спасибо.
    Побольше бы таких
    -
    -1
    +
    Ответить
  • Сергей
    больше года назад
    Спасибо за полезную информацию
    -
    0
    +
    Ответить
  • действительно
    больше года назад
    редко попадается интересное чтиво
    В последнее время все чаще статьи от К.О. и со скрытой рекламой
    Спасибо!
    -
    -1
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Сколько ссылок помогут продвинуть молодой сайт
Павел Андрейчук
38
комментариев
0
читателей
Полный профиль
Павел Андрейчук - Дело в том, что вряд ли в ваших платных "качественных" кейсах найдётся хоть пару % действительно новой и полезной информации которой бы не было на общедоступных источниках.
Сайт на WordPress: за и против
Мира Смурков
1
комментарий
0
читателей
Полный профиль
Мира Смурков - Людмила, я согласен с большинством комментаторов. Вы хоть один полноценный магазин сделали на этих движках? Woocommerce это система с супер возможностями. И к ней есть дополнительные модули, с функционалом, который вряд ли появиться на Битрикс. А самому это программировать - сотни тысяч рублей на разработку. А приведя в пример сложности с robots.txt и Sitemap вы ставите под вопрос вашу компетенцию в понимании Интернет-бизнеса и веб-разработки в целом. Во-первых это такие мелочи, а во-вторых это все делается на вордпресса за 2 минуты, и опять же с возможностями многократно превышающими Битрикс.
Обзор популярных CMS: плюсы и минусы
Андрей Литвиненко
2
комментария
0
читателей
Полный профиль
Андрей Литвиненко - + там где нужно прописать каноникал, там где нужно поставить мета тег ноиндекс (т.к. Гугл не всегда следует правилам robots.txt) ну и то что выше, к техническим сео возможнлстям можно еще отнести легкое и хотя бы полуавтоматическое добавление микроразметки по сайту, увы "из коробки" такого функционала нет ни в одной cms, все на допиливаниях
Google обошел Яндекс по популярности в России в 2018 году: исследование SEO Auditor
Рамблер
1
комментарий
0
читателей
Полный профиль
Рамблер - Вот вроде отечественный - это сказано верно.. «Я́ндекс» — российская транснациональная компания, зарегистрированная в Нидерландах. Так говорится в Википедии. И с хрена ли ОТЕЧЕСТВЕННЫЙ поисковик зарегистрирован в Европе? И где платится основная часть налогов? Ну-ууу, точно не в России. И если запахнет жаренным, то был Яндекс и нет Яндекса!
8 методик в SEO, от которых давно пора отказаться
Евгений Сметанин
12
комментариев
0
читателей
Полный профиль
Евгений Сметанин - Факторов вообще очень много, согласитесь, вы будете использовать максимальное их количество, особенно, если в ТОПе засели агрегаторы с сумасшедшими ПФ. В таких случаях, вхождение ключа в домен для маленького профильного сайта, сыграет свою положительную роль. Конечно же, если контент на страницах хорошего качества. У меня есть несколько успешных кейсов на эту тему. На сайте продают несколько видов товаров, а выстреливает в ТОП тот, название которого присутствует в доменном имени. Как корабль назовешь, так он и поплывет, верно?))
Google Data Studio: делаем красивые отчеты по контекстной рекламе для клиентов
Сергей Провоженко
7
комментариев
0
читателей
Полный профиль
Сергей Провоженко - Добрый день, Сергей. Рад, что статья оказалась полезной. Алгоритм следующий: 1) В Гугл таблице формируем нужную структуру для выводы комментариев, в нашем отчете это следующие столбцы - i.imgur.com/mEnt7Hv.png Можно оставить один из столбцов страница или название страницы, они нужны чтоб фильтровать вывод нужно комментария на нужной странице отчета. Столбец дата нужен для выводы комментария в нужны период. 2) Подключаем эту таблицу как еще один источник данных - i.imgur.com/GrmNAgp.png Вот так выглядят поля из этого источника данных - i.imgur.com/BHqEiv7.png 3) Добавляем элемент "Таблица" в отчет Дата Студио, в качестве источника указываем нашу Гугл таблицу со следующими параметрами - i.imgur.com/tovqiqE.png 4) Создаем и добавляем фильтр для вывода нужно комментария на нужной странице отчета - i.imgur.com/4m141kF.png 5) Если дата комментария попадает в выбранный период в отчете он будет отображен. Если в период попадает несколько дат, будет выведено несколько комментариев - i.imgur.com/1jWu0X6.png Если остались вопросы - пишите, постараюсь помочь.
Инструкция: настраиваем цели Яндекс.Метрики через Google Tag Manager
Roman Gorkunenko
1
комментарий
0
читателей
Полный профиль
Roman Gorkunenko - Здравствуйте. Подскажите, пожалуйста, можно с айпи метрики вытащить среднюю стоимость клика по утм меткам? В метрике есть такой шаблон tags_u_t_m, но он не совместим с меткой директа, у них разные префиксы.
Аудит структуры интернет-магазина мебели от «Ашманов и партнеры»
Дмитрий
11
комментариев
0
читателей
Полный профиль
Дмитрий - Сергей, а вы допускаете, что вся ваша жизнь - seo-миф?
Как выбрать подрядчика для продвижения сайта: 7 уровней воронки поиска
aashutosh
1
комментарий
0
читателей
Полный профиль
aashutosh - data science training institute in noida- Webtrackker Technology (8802820025) providing Data Science Training in Noida. Get ✓ 40 Hours Learning training✓ 70 Hrs Projects ✓ 24 X 7 Support ✓ Job Assistance. WEBTRACKKER TECHNOLOGY (P) LTD. C - 67, sector- 63, Noida, India. E-47 Sector 3, Noida, India. +91 - 8802820025 0120-433-0760 +91 - 8810252423 012 - 04204716 EMAIL:info@webtrackker.com webtrackker.com/Best-Data-Science-Training-Institute-in-Noida.php
Как построить качественный ссылочный профиль на основе конкурентов
Ирина
2
комментария
0
читателей
Полный профиль
Ирина - Давно сотрудничаю с megaindex.com и считаю данный сервис одним из лучших в сео сегменте рунета да и не только рунета. Пользуюсь их инструментами для аналитики своих работ и выявлению своих и чужих ошибок. Да и ссылочный профиль, как и говорится в данной статье сделать гораздо проще и правильней при помощи как раз мегаиндекса. Добавлю еще что инструмент для поиска конкурентов у мегаиндекса очень удобный и простой в применении.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
345
Комментариев
262
Комментариев
247
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
101
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
59
Комментариев
57
Комментариев
55

Отправьте отзыв!
Отправьте отзыв!