Многофункциональная SEO-платформа
для профессионалов
Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:

О словоформах Яндекса

Россия +7 (495) 960-65-87
Шрифт:
14 24859

Русский язык, конечно, велик и могуч, однако, он еще и неимоверно сложен, и часто наше интуитивное представление идет вразрез с формальным. Например, формально, «лучший» — это словоформа слова «хороший», поскольку является его превосходной степенью. А «красивый» и «красиво», в большинстве случаев, разные слова, поскольку, «красивый» — прилагательное, а «красиво» — наречие.

Еще больше отличаются от нашего интуитивного представления результаты машинного разбора. В этой статье я покажу, что представление Яндекса о словоформах отличается от человеческого и то, что это влияет на выдачу.

Машинные словоформы

С сайта 1september.ruВ русском языке несколько сотен тысяч слов, каждое из которых имеет по несколько десятков словоформ, причем каждая из них имеет полдюжины свойств (род, число, падеж, форма и т.д). Например, любое прилагательное может находиться в семи падежах, в краткой форме, в трех родах, двух числах, в сравнительной и превосходной степени, быть одушевленным или нет. В итоге, прилагательное может иметь аж 8×4 x 2×2 + 1 = 129 cловоформ, причем, больше половины из них будут иметь разные окончания.

В некоторых бумажных морфологических словарях, чтобы сэкономить место группируют слова по окончаниям в так называемые морфологические группы. Например, слова «великий» и «могучий» имеют в одинаковых словоформах одинаковые окончания. Эти группы нумеруют и для слова указывается только его начало общее для всех словоформ и его морфологическая группа: «Могучий. могуч*, группа 21».

В большинстве электронных баз поступают также. На вариант с сохранением всех словоформ отдельно нужно около 500 МБ памяти, на второй (с группами) — около 10ти. В принципе, 500 МБ для сервера не так уж много, однако морфология Яндекса писалась где-то лет десять назад. А в это время для нескольких сотен серверов покупка такого объема памяти могла обойтись в копеечку.

С тех пор правила русского языка не изменялись, а следовательно, не было особой нужды полностью переписывать морфологию. Ведь системное изменение в морфологии привело бы к необходимости целого каскада изменений в других частях кода.

Словоформы и синонимы

Хотя зачем гадать? Словоформы одного слова выделяются в результатах поиска жирным. Однако вместе с ними выделяются еще и синонимы. Поэтому мы не можем сказать определил ли поисковик слова в снипете и запросе как словоформы или попросту счел их синонимами. В Яндексе оператор плюс отключает подсветку синонимов, оставляя только подстветку словоформ. Убедиться в этом можно набрав запросы «гостиницы Одессы» (слово «отель» будет подсвечено) и «+гостиницы Одессы» (слово «отель» не будет подсвечено).

Большинство современных морфологических баз ведут свое начало из морфологического словаря Зализняка, в котором для экономии места были введены морфологические группы. Однако группировка в нем, обладает некоторыми «артефактами», например, глаголы и их причастия и деепричастия (купить/купивший) — это словоформы, а глаголы совершенного и несовершенного (делать/сделать) вида — нет.

Так или иначе, я проверил Яндекс на все известные мне «артефакты» базы АОТ.ru, с которой я работал, и все из них Яндекс содержал. Правда, Яндекс использует базу «синонимов», в том числе и для того чтобы исправить разницу в человеческом и машинном восприятии словоформ. Например, при запросе «делать дымовую шашку» подсвечивается и слово «сделать», однако стоит добавить плюс перед словом «делать», и подсветка «сделать» исчезает, а «делать» остается.

Словоформы Google

Английская морфология не так могуча и велика: у слов всего несколько словоформ. Поэтому оптимизация памяти не оправдывает группировку слов. И, вполне возможно, что для общности кода с английской версией русская морфология Google написана без использования морфологических групп и поэтому была лишена «артефактов» Яндекса.

Google в отличие от Яндекса по запросу «сделанный» не ищет слово «сделать». Например, наберите «как правильно сделанный клизму» в Google и Яндекс. Другой пример: отключить подсветку слова «сделать» по запросу «делать» в Google у меня никак не получилось, хотя почти всегда Google подсвечивает только словоформы. Следовательно, для Google «делать» и «сделать» — это словоформы, а не что-то вроде синонимов как у Яндекса.

Как бы парадоксально это бы ни звучало, русская морфология Google реализована правильнее чем у Яндекса. И вся ирония в том, что это следствие английского происхождения Google. Морфология Google именно «правильнее», но не факт, что «лучше». У кого выдача релевантнее — спорный вопрос. Ровно как и то, что должно выдаваться по запросу «как правильно сделанный клизму».

Разница в ранжировании

Подсветка и неподсветка с помощью плюса словоформ говорит лишь о разнице в восприятии их Яндексом: часть словоформ определяется морфологией сразу, часть из связей по типу синонимов. Вполне вероятно, что Яндекс учитывает морфологические и синонимиальные словоформы одинаково и разницы в ранжировании может не существовать.

Сейчас нет метода общепринятой оценки разницы выдачи и программных средств для его расчета, а вручную оценить выдачу по нескольким сотням запросов — проблематично. Этим способом доказать, что существует разница в ранжировании разных типов словоформ, нет. Можно найти этому только косвенные подтверждения.

Число найденных страниц, если запрашивать машинные словоформы, отличается не больше чем на 1%, а если запрашивать словоформы-синонимы, обычно, разница в 10-30%.

  • «сделать яндекс стартовой страницей» — 5 млн.
  • «сделал яндекс стартовой страницей» — 5 млн.
  • «делать яндекс стартовой страницей» — 7 млн.
  • «делал яндекс стартовой страницей» — 7 млн.

Также сравнить изменения в выдаче в Яндексе и Google. Разницы в выдаче по запросам «как правильно сделать клизму» и «как правильно делать клизму» в Google почти нет, а в Яндексе только 2 страницы остались в первой десятке и то значительно поменяли свои позиции.

Существуют некоторые слова, которые подсвечиваются странным образом. Например, для слова купить словоформы его несовершенного вида (покупать) подсвечиваются и при наличии плюса. Другими словами, Яндекс ввел для этого слова исключение в поиске, хотя для Яндекс WordStat это два разных слова. Если же выдача по синонимам и словоформам была бы аналогичной, не было никакого смысла делать исключение для этого слова.

Слово «купить» довольно часто встречается в запросах (40 млн. показов в месяц по Вордстат), и дополнительные действия для улучшения его ранжирования вполне вероятны. Однако непонятно каким образом улучшается выдача от введения прямой связи слов «купить» и «покупать», допустим, разработчикам или асессорам виднее. Нам нужно найти еще одно исключение, в котором улучшение выдачи очевидно.

И это исключение «варить» и «варка». По Вордстату у «варить» миллион показов, а у «варки» не более 100 тысяч. Однако, если к статье не приложит руку сеошник, то она будут называться «варка кофе», а не «как варить кофе?». Здесь польза для ранжирования очевидна.

Исключения подтверждают правила и с большой степенью уверенности можно сказать, что морфологические словоформы ранжируются выше, чем словоформы-синонимы.

ВЧ запросы

Подсветка синонимов отключается не только при использовании плюса. Если мы наберем «гостиницы Москвы», то подсветки отелей не будет, а если «гостиницы Москвы центр» или «гостиницы Одессы» — то она включится. Следовательно, существует определенный порог, после которого синонимы в выдачу не включаются, чтобы ее не ухудшить. Этот порог, скорее всего, зависит от числа страниц в индексе либо релевантности первых страниц выдачи, а не от частотности запроса.

Правила

Глаголы совершенного и несовершенного вида не словоформы

  • Актуально только для Яндекса.
  • Сделать≠делать
  • Исключения: купить и покупать, выщипывать и выщипать, отправлять и отправить

Глаголы, причастия и деепричастия — словоформы друг друга

  • Актуально только для Яндекса.
  • Сделать=сделаю=сделал=сделавший=сделанный=...
  • Поскольку причастия склоняются по роду, числу и падежу, а также залогу, то у глаголов получается больше 100 словоформ по Яндексу. А например, у слова купить (из-за исключений) — их еще больше. Причастия можно успешно использовать, чтобы улучшить ранжирования глаголов. Например, «купленный», «купившие» — словоформы слова купить.

Разные части речи не могут быть слоформами друг-друга

  • Актуально для Яндекса и Google
  • Покупать≠покупка≠покупатель
  • Красавец≠красивый
  • Сильный удар≠сильно ударить
  • Исключения для Яндекса: варить и варка, а также причастия, деепричастия и глаголы

Все словоформы существительных одного рода.

  • Актуально для Яндекса и Google
  • Красавец≠красавица
  • Повар≠повариха

Превосходная степень прилагательных — одна из словоформ

  • Актуально только для Яндекса
  • Красивый=Красивейший=Красивейшая=Красивейшую=...
  • Хороший=лучший
  • Надежный=Надежнейший=...
  • Однако, прекрасный≠красивый (это просто синонимы)

Сравнительная степень прилагательных — одна из словоформ

  • Актуально для Яндекса и Google
  • Красивый=красивее
  • Надежный=надежнее
  • Исключение для Google: хороший≠лучше. Эту словоформу Google относит к превосходной степени (лучший).

У Google группировка слов происходит чисто по интуитивному сходству слов, а не по формальным правилам русского языка. Это хорошо видно по «хороший» и «лучше», для всех остальных прилагательных сравнительная степень отнесена к обычной, а не превосходной форме.

Как было уже сказано, почти наверняка релевантность словоформ-синонимов ниже, чем морфологических словоформ. Поэтому, оптимизируя посадочную страницу, старайтесь использовать словоформы именно в машинном представлении, а не в человеческом. Особенно это актуально, когда вы вставляете популярное уточнение в шаблон сайта, ведь таким образом вы изменяете несколько сотен или даже тысяч страниц.

P.S.

Указывая на сходство структуры морфологической базы Яндекса и словаря Зализняка, я никоим образом не намекал на плагиат. По принципу Анны Карениной способы правильной реализации чего-либо похожи. Более того, принцип структурирования чего-либо не может быть объектом авторского права.

Есть о чем рассказать? Тогда присылайте свои материалы в редакцию.


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Поделиться 
Поделиться дискуссией:
Отправить отзыв
  • Гость
    6 месяцев назад
    lred.ru/index.php/optimizacia/12406-%D0%BE-%D1%81%D0%BB%D0%BE%D0%B2%D0%BE%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%85-%D1%8F%D0%BD%D0%B4%D0%B5%D0%BA%D1%81%D0%B0
    думаю вам будет это интересно
    -
    0
    +
    Ответить
    Поделиться
  • Иван
    больше года назад
    А есть парсер для поиска синонимов по списку запросов?
    -
    -1
    +
    Ответить
    Поделиться
  • andrey
    6
    комментариев
    0
    читателей
    andrey
    больше года назад
    Синонимы учитываются слабее
    -
    0
    +
    Ответить
    Поделиться
  • hkey
    больше года назад
    купить и продажа синонимы, а не словоформы. проверяется плюсом
    -
    -3
    +
    Ответить
    Поделиться
  • hkey
    больше года назад
    Оператор + это не уточнение. Он значит придать больший вес слову.
    -
    0
    +
    Ответить
    Поделиться
  • hkey
    больше года назад

    Я оцениваю не разницу в выдаче по запросу с плюсом и без него. Просто те словоформы у которых отключается подсветка называю словоформами-синонимами у которых не отключается - машинными словоформами. И дальше доказываю, что разница в выдаче по машинной словоформе ниже чем по словоформе-синониму.


    Тогда как объяснить отключения подсветки части словоформ при плюсе или при ВЧ и то что артефакты такого поведения совпадают с поведением базы АОТ.


    Синони...

    Я оцениваю не разницу в выдаче по запросу с плюсом и без него. Просто те словоформы у которых отключается подсветка называю словоформами-синонимами у которых не отключается - машинными словоформами. И дальше доказываю, что разница в выдаче по машинной словоформе ниже чем по словоформе-синониму.


    Тогда как объяснить отключения подсветки части словоформ при плюсе или при ВЧ и то что артефакты такого поведения совпадают с поведением базы АОТ.


    Синонимы учитываются, но слабее чем словоформы.
    -
    1
    +
    Ответить
    Поделиться
  • Гость 12321
    больше года назад

    странно, введите "купить шины" и "продажа шин"
    получается, купить=продажа
    Или я что-то недопонял?
    -
    -1
    +
    Ответить
    Поделиться
  • Saveljev
    2
    комментария
    0
    читателей
    Saveljev
    больше года назад
    Андрей Белоусов, спасибо за материал.
    -
    0
    +
    Ответить
    Поделиться
  • Boniface
    больше года назад
    Соглашусь - он хорошь ...)
    -
    -1
    +
    Ответить
    Поделиться
  • Николай
    больше года назад


    Оператор + это уточнение, дополнение к основному запросу. Например, пластиковые онка + купить, установить, ремонтировать, монтаж, в Москве, рехау и т.д. А при использовании оператора в начале запрос непонятно дополнением к чему он является!
    -
    0
    +
    Ответить
    Поделиться
  • yanus
    больше года назад
    Весьма спорная статья. Попытка через оператор "+" и подсветку сниппетов оценить подход яндекса к морфологии имеет ряд проблем.
    Во-первых, сам оператор "+" не просто модифицирует запрос, а меняет его. Выдача совсем другая, поэтому сравнивать результаты некорректно.
    Во-вторых, работа алгоритма аннотации сайтов в выдаче весьма самостоятельна и не всегда жестко завязана на алгоритмах ранжирования.

    Непосредственно по морфологическим словоформам ...
    Весьма спорная статья. Попытка через оператор "+" и подсветку сниппетов оценить подход яндекса к морфологии имеет ряд проблем.
    Во-первых, сам оператор "+" не просто модифицирует запрос, а меняет его. Выдача совсем другая, поэтому сравнивать результаты некорректно.
    Во-вторых, работа алгоритма аннотации сайтов в выдаче весьма самостоятельна и не всегда жестко завязана на алгоритмах ранжирования.

    Непосредственно по морфологическим словоформам ситуация вполне понятна - они учитываются.

    По синонимам ситуация сложнее. Учет или не учет можно проверить только опытным путем. Для экономии времени, могу сказать, что были прецеденты, когда в региональной выдаче по среднеконкурентным запросам в топ3 были сайты, на страницах и входящих анкорах которых отсутствовал изначальный запрос, но была высокая плотность "синонима".
    -
    0
    +
    Ответить
    Поделиться
  • pavko
    больше года назад
    Интересная инфа, спасибо.
    Побольше бы таких
    -
    -1
    +
    Ответить
    Поделиться
  • Сергей
    больше года назад
    Спасибо за полезную информацию
    -
    0
    +
    Ответить
    Поделиться
  • действительно
    больше года назад
    редко попадается интересное чтиво
    В последнее время все чаще статьи от К.О. и со скрытой рекламой
    Спасибо!
    -
    -1
    +
    Ответить
    Поделиться
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
23 действительно эффективных совета по продвижению интернет-магазина
Гость - Троль Гуру паНгинации - Что такое паНгинация?))))
Как построить качественную ссылочную массу сайта
Анна Фра
1
комментарий
0
читателей
Полный профиль
Анна Фра - www.youtube.com/watch?v=jtINdDyNdFU полезное видео
Анализ ссылок: сравнение многофункциональных платформ по размеру их баз
Андрей Ольшевский - Очень неточная статистика, объясню почему. Довольно часто делаю анализ сайтов на качество и объём ссылочной массы. Всегда делаю выгрузку из трех источников – Вебмастера Яндекса, сервиса Мегаиндекс, сервиса Линкпад. Потом с помощи алгоритмов и функции Excel отсеиваются много дублей, битых ссылок, несуществующих урл и тп. Как показала практика, вебмастера Яндекса вполне достаточно, там вся информация и она самая актуальная, в других сервисах куча мусора, а нового, чтоб было найдено и проиндексировано ПС - очень мало. Поэтому мирятся количеством в данном анализе не профессионально.
Как создать интернет-магазин: сколько стоит открытие?
Гость - да у битрикса что ни обновление - то сплошные баги. недавно знакомый обновился на лицензии интернет-магазина, про***лись заказы за последнюю неделю, слетели все связи по складам. одним словом, жопа. при этом обновился на сразу, а спустя месяц после выкатывания, надеялся, успеют все поправить
ТОП-10 автоматизированных сервисов контекстной рекламы
Гость - Не доверяйте свои данные системам от агентств, если рекламу у них вы не ведете. Юзал алитикс и к50. Пробуйте эти две системы как мин. А лучше всего автоматизировать с помощью эксель, pbi и подобных сервисов. Но пока это сложно для большинства
Как упростить продвижение вечными ссылками?
Coursh - Зарегестрировался. Накинули 1100 рубликов за пополнение на 10к. Очень неплохо!
Кому и зачем нужен маркетплейс от Яндекса
Дарья Калинская
209
комментариев
0
читателей
Полный профиль
Дарья Калинская - Максим, спасибо, рада, что статья оказалась полезной )
Конкурс: угадай победителя рейтинга «Известность бренда SEO-компаний»
Андрей
1
комментарий
0
читателей
Полный профиль
Андрей - Оптимизм Дэмис Кокос Ашманов и Партнеры Раш эдженси
Кейс: как молодому сайту увеличить органический трафик с 0 до 10 000 посетителей за 6 месяцев
Олег Буряк
38
комментариев
0
читателей
Полный профиль
Олег Буряк - Никаких санкций!!!! на сайт за резкий скачок уникальных естественных ссылок !!!не было наложено!!!. Все дальше читать не буду! УДАЧИ Вам! кошмар!
Инструкция по применению: обзор сервиса обратного звонка Callbackhunter
Ирина - Ну вообще колбэкхантер самый дорогой сервис из всех, есть более дешевые аналоги
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
285
Комментариев
262
Комментариев
209
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
123
Комментариев
97
Комментариев
97
Комментариев
95
Комментариев
80
Комментариев
71
Комментариев
67
Комментариев
60
Комментариев
55
Комментариев
52
Комментариев
50
Комментариев
45
Комментариев
44

Отправьте отзыв!
Отправьте отзыв!