О словоформах Яндекса

Россия+7 (495) 960-65-87
Шрифт:
14 26796

Русский язык, конечно, велик и могуч, однако, он еще и неимоверно сложен, и часто наше интуитивное представление идет вразрез с формальным. Например, формально, «лучший» — это словоформа слова «хороший», поскольку является его превосходной степенью. А «красивый» и «красиво», в большинстве случаев, разные слова, поскольку, «красивый» — прилагательное, а «красиво» — наречие.

Еще больше отличаются от нашего интуитивного представления результаты машинного разбора. В этой статье я покажу, что представление Яндекса о словоформах отличается от человеческого и то, что это влияет на выдачу.

Машинные словоформы

С сайта 1september.ruВ русском языке несколько сотен тысяч слов, каждое из которых имеет по несколько десятков словоформ, причем каждая из них имеет полдюжины свойств (род, число, падеж, форма и т.д). Например, любое прилагательное может находиться в семи падежах, в краткой форме, в трех родах, двух числах, в сравнительной и превосходной степени, быть одушевленным или нет. В итоге, прилагательное может иметь аж 8×4 x 2×2 + 1 = 129 cловоформ, причем, больше половины из них будут иметь разные окончания.

В некоторых бумажных морфологических словарях, чтобы сэкономить место группируют слова по окончаниям в так называемые морфологические группы. Например, слова «великий» и «могучий» имеют в одинаковых словоформах одинаковые окончания. Эти группы нумеруют и для слова указывается только его начало общее для всех словоформ и его морфологическая группа: «Могучий. могуч*, группа 21».

В большинстве электронных баз поступают также. На вариант с сохранением всех словоформ отдельно нужно около 500 МБ памяти, на второй (с группами) — около 10ти. В принципе, 500 МБ для сервера не так уж много, однако морфология Яндекса писалась где-то лет десять назад. А в это время для нескольких сотен серверов покупка такого объема памяти могла обойтись в копеечку.

С тех пор правила русского языка не изменялись, а следовательно, не было особой нужды полностью переписывать морфологию. Ведь системное изменение в морфологии привело бы к необходимости целого каскада изменений в других частях кода.

Словоформы и синонимы

Хотя зачем гадать? Словоформы одного слова выделяются в результатах поиска жирным. Однако вместе с ними выделяются еще и синонимы. Поэтому мы не можем сказать определил ли поисковик слова в снипете и запросе как словоформы или попросту счел их синонимами. В Яндексе оператор плюс отключает подсветку синонимов, оставляя только подстветку словоформ. Убедиться в этом можно набрав запросы «гостиницы Одессы» (слово «отель» будет подсвечено) и «+гостиницы Одессы» (слово «отель» не будет подсвечено).

Большинство современных морфологических баз ведут свое начало из морфологического словаря Зализняка, в котором для экономии места были введены морфологические группы. Однако группировка в нем, обладает некоторыми «артефактами», например, глаголы и их причастия и деепричастия (купить/купивший) — это словоформы, а глаголы совершенного и несовершенного (делать/сделать) вида — нет.

Так или иначе, я проверил Яндекс на все известные мне «артефакты» базы АОТ.ru, с которой я работал, и все из них Яндекс содержал. Правда, Яндекс использует базу «синонимов», в том числе и для того чтобы исправить разницу в человеческом и машинном восприятии словоформ. Например, при запросе «делать дымовую шашку» подсвечивается и слово «сделать», однако стоит добавить плюс перед словом «делать», и подсветка «сделать» исчезает, а «делать» остается.

Словоформы Google

Английская морфология не так могуча и велика: у слов всего несколько словоформ. Поэтому оптимизация памяти не оправдывает группировку слов. И, вполне возможно, что для общности кода с английской версией русская морфология Google написана без использования морфологических групп и поэтому была лишена «артефактов» Яндекса.

Google в отличие от Яндекса по запросу «сделанный» не ищет слово «сделать». Например, наберите «как правильно сделанный клизму» в Google и Яндекс. Другой пример: отключить подсветку слова «сделать» по запросу «делать» в Google у меня никак не получилось, хотя почти всегда Google подсвечивает только словоформы. Следовательно, для Google «делать» и «сделать» — это словоформы, а не что-то вроде синонимов как у Яндекса.

Как бы парадоксально это бы ни звучало, русская морфология Google реализована правильнее чем у Яндекса. И вся ирония в том, что это следствие английского происхождения Google. Морфология Google именно «правильнее», но не факт, что «лучше». У кого выдача релевантнее — спорный вопрос. Ровно как и то, что должно выдаваться по запросу «как правильно сделанный клизму».

Разница в ранжировании

Подсветка и неподсветка с помощью плюса словоформ говорит лишь о разнице в восприятии их Яндексом: часть словоформ определяется морфологией сразу, часть из связей по типу синонимов. Вполне вероятно, что Яндекс учитывает морфологические и синонимиальные словоформы одинаково и разницы в ранжировании может не существовать.

Сейчас нет метода общепринятой оценки разницы выдачи и программных средств для его расчета, а вручную оценить выдачу по нескольким сотням запросов — проблематично. Этим способом доказать, что существует разница в ранжировании разных типов словоформ, нет. Можно найти этому только косвенные подтверждения.

Число найденных страниц, если запрашивать машинные словоформы, отличается не больше чем на 1%, а если запрашивать словоформы-синонимы, обычно, разница в 10-30%.

  • «сделать яндекс стартовой страницей» — 5 млн.
  • «сделал яндекс стартовой страницей» — 5 млн.
  • «делать яндекс стартовой страницей» — 7 млн.
  • «делал яндекс стартовой страницей» — 7 млн.

Также сравнить изменения в выдаче в Яндексе и Google. Разницы в выдаче по запросам «как правильно сделать клизму» и «как правильно делать клизму» в Google почти нет, а в Яндексе только 2 страницы остались в первой десятке и то значительно поменяли свои позиции.

Существуют некоторые слова, которые подсвечиваются странным образом. Например, для слова купить словоформы его несовершенного вида (покупать) подсвечиваются и при наличии плюса. Другими словами, Яндекс ввел для этого слова исключение в поиске, хотя для Яндекс WordStat это два разных слова. Если же выдача по синонимам и словоформам была бы аналогичной, не было никакого смысла делать исключение для этого слова.

Слово «купить» довольно часто встречается в запросах (40 млн. показов в месяц по Вордстат), и дополнительные действия для улучшения его ранжирования вполне вероятны. Однако непонятно каким образом улучшается выдача от введения прямой связи слов «купить» и «покупать», допустим, разработчикам или асессорам виднее. Нам нужно найти еще одно исключение, в котором улучшение выдачи очевидно.

И это исключение «варить» и «варка». По Вордстату у «варить» миллион показов, а у «варки» не более 100 тысяч. Однако, если к статье не приложит руку сеошник, то она будут называться «варка кофе», а не «как варить кофе?». Здесь польза для ранжирования очевидна.

Исключения подтверждают правила и с большой степенью уверенности можно сказать, что морфологические словоформы ранжируются выше, чем словоформы-синонимы.

ВЧ запросы

Подсветка синонимов отключается не только при использовании плюса. Если мы наберем «гостиницы Москвы», то подсветки отелей не будет, а если «гостиницы Москвы центр» или «гостиницы Одессы» — то она включится. Следовательно, существует определенный порог, после которого синонимы в выдачу не включаются, чтобы ее не ухудшить. Этот порог, скорее всего, зависит от числа страниц в индексе либо релевантности первых страниц выдачи, а не от частотности запроса.

Правила

Глаголы совершенного и несовершенного вида не словоформы

  • Актуально только для Яндекса.
  • Сделать≠делать
  • Исключения: купить и покупать, выщипывать и выщипать, отправлять и отправить

Глаголы, причастия и деепричастия — словоформы друг друга

  • Актуально только для Яндекса.
  • Сделать=сделаю=сделал=сделавший=сделанный=...
  • Поскольку причастия склоняются по роду, числу и падежу, а также залогу, то у глаголов получается больше 100 словоформ по Яндексу. А например, у слова купить (из-за исключений) — их еще больше. Причастия можно успешно использовать, чтобы улучшить ранжирования глаголов. Например, «купленный», «купившие» — словоформы слова купить.

Разные части речи не могут быть слоформами друг-друга

  • Актуально для Яндекса и Google
  • Покупать≠покупка≠покупатель
  • Красавец≠красивый
  • Сильный удар≠сильно ударить
  • Исключения для Яндекса: варить и варка, а также причастия, деепричастия и глаголы

Все словоформы существительных одного рода.

  • Актуально для Яндекса и Google
  • Красавец≠красавица
  • Повар≠повариха

Превосходная степень прилагательных — одна из словоформ

  • Актуально только для Яндекса
  • Красивый=Красивейший=Красивейшая=Красивейшую=...
  • Хороший=лучший
  • Надежный=Надежнейший=...
  • Однако, прекрасный≠красивый (это просто синонимы)

Сравнительная степень прилагательных — одна из словоформ

  • Актуально для Яндекса и Google
  • Красивый=красивее
  • Надежный=надежнее
  • Исключение для Google: хороший≠лучше. Эту словоформу Google относит к превосходной степени (лучший).

У Google группировка слов происходит чисто по интуитивному сходству слов, а не по формальным правилам русского языка. Это хорошо видно по «хороший» и «лучше», для всех остальных прилагательных сравнительная степень отнесена к обычной, а не превосходной форме.

Как было уже сказано, почти наверняка релевантность словоформ-синонимов ниже, чем морфологических словоформ. Поэтому, оптимизируя посадочную страницу, старайтесь использовать словоформы именно в машинном представлении, а не в человеческом. Особенно это актуально, когда вы вставляете популярное уточнение в шаблон сайта, ведь таким образом вы изменяете несколько сотен или даже тысяч страниц.

P.S.

Указывая на сходство структуры морфологической базы Яндекса и словаря Зализняка, я никоим образом не намекал на плагиат. По принципу Анны Карениной способы правильной реализации чего-либо похожи. Более того, принцип структурирования чего-либо не может быть объектом авторского права.

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Гость
    больше года назад
    lred.ru/index.php/optimizacia/12406-%D0%BE-%D1%81%D0%BB%D0%BE%D0%B2%D0%BE%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%85-%D1%8F%D0%BD%D0%B4%D0%B5%D0%BA%D1%81%D0%B0
    думаю вам будет это интересно
    -
    0
    +
    Ответить
  • Иван
    больше года назад
    А есть парсер для поиска синонимов по списку запросов?
    -
    -1
    +
    Ответить
  • andrey
    6
    комментариев
    0
    читателей
    andrey
    больше года назад
    Синонимы учитываются слабее
    -
    0
    +
    Ответить
  • hkey
    больше года назад
    купить и продажа синонимы, а не словоформы. проверяется плюсом
    -
    -3
    +
    Ответить
  • hkey
    больше года назад
    Оператор + это не уточнение. Он значит придать больший вес слову.
    -
    0
    +
    Ответить
  • hkey
    больше года назад

    Я оцениваю не разницу в выдаче по запросу с плюсом и без него. Просто те словоформы у которых отключается подсветка называю словоформами-синонимами у которых не отключается - машинными словоформами. И дальше доказываю, что разница в выдаче по машинной словоформе ниже чем по словоформе-синониму.


    Тогда как объяснить отключения подсветки части словоформ при плюсе или при ВЧ и то что артефакты такого поведения совпадают с поведением базы АОТ.


    Синони...

    Я оцениваю не разницу в выдаче по запросу с плюсом и без него. Просто те словоформы у которых отключается подсветка называю словоформами-синонимами у которых не отключается - машинными словоформами. И дальше доказываю, что разница в выдаче по машинной словоформе ниже чем по словоформе-синониму.


    Тогда как объяснить отключения подсветки части словоформ при плюсе или при ВЧ и то что артефакты такого поведения совпадают с поведением базы АОТ.


    Синонимы учитываются, но слабее чем словоформы.
    -
    1
    +
    Ответить
  • Гость 12321
    больше года назад

    странно, введите "купить шины" и "продажа шин"
    получается, купить=продажа
    Или я что-то недопонял?
    -
    -1
    +
    Ответить
  • Saveljev
    2
    комментария
    0
    читателей
    Saveljev
    больше года назад
    Андрей Белоусов, спасибо за материал.
    -
    0
    +
    Ответить
  • Boniface
    больше года назад
    Соглашусь - он хорошь ...)
    -
    -1
    +
    Ответить
  • Николай
    больше года назад


    Оператор + это уточнение, дополнение к основному запросу. Например, пластиковые онка + купить, установить, ремонтировать, монтаж, в Москве, рехау и т.д. А при использовании оператора в начале запрос непонятно дополнением к чему он является!
    -
    0
    +
    Ответить
  • yanus
    больше года назад
    Весьма спорная статья. Попытка через оператор "+" и подсветку сниппетов оценить подход яндекса к морфологии имеет ряд проблем.
    Во-первых, сам оператор "+" не просто модифицирует запрос, а меняет его. Выдача совсем другая, поэтому сравнивать результаты некорректно.
    Во-вторых, работа алгоритма аннотации сайтов в выдаче весьма самостоятельна и не всегда жестко завязана на алгоритмах ранжирования.

    Непосредственно по морфологическим словоформам ...
    Весьма спорная статья. Попытка через оператор "+" и подсветку сниппетов оценить подход яндекса к морфологии имеет ряд проблем.
    Во-первых, сам оператор "+" не просто модифицирует запрос, а меняет его. Выдача совсем другая, поэтому сравнивать результаты некорректно.
    Во-вторых, работа алгоритма аннотации сайтов в выдаче весьма самостоятельна и не всегда жестко завязана на алгоритмах ранжирования.

    Непосредственно по морфологическим словоформам ситуация вполне понятна - они учитываются.

    По синонимам ситуация сложнее. Учет или не учет можно проверить только опытным путем. Для экономии времени, могу сказать, что были прецеденты, когда в региональной выдаче по среднеконкурентным запросам в топ3 были сайты, на страницах и входящих анкорах которых отсутствовал изначальный запрос, но была высокая плотность "синонима".
    -
    0
    +
    Ответить
  • pavko
    больше года назад
    Интересная инфа, спасибо.
    Побольше бы таких
    -
    -1
    +
    Ответить
  • Сергей
    больше года назад
    Спасибо за полезную информацию
    -
    0
    +
    Ответить
  • действительно
    больше года назад
    редко попадается интересное чтиво
    В последнее время все чаще статьи от К.О. и со скрытой рекламой
    Спасибо!
    -
    -1
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Тест: Кто как пробежал, или Итоги клиентского рейтинга SEOnews 2018
Анна Макарова
335
комментариев
0
читателей
Полный профиль
Анна Макарова - Друзья, спасибо всем за участие! Мы определили победителей. Кто ими стал - вы найдете по ссылке: www.seonews.ru/events/darim-knigi-ot-mif-pobediteli-opredeleny/ Если вы стали одним из победителей, обязательно свяжитесь с нами по указанной в новости (по ссылке выше) почте. Всем хороших выходных! =)
32 инструмента в помощь SEO-специалисту
luthorscorploanfirm
2
комментария
0
читателей
Полный профиль
luthorscorploanfirm - Я - г-н Марк Джо из корпорации corp, мы являемся законной, зарегистрированной и гарантированной кредитной компанией, мы предоставляем 3% -ые кредиты частным лицам, компаниям, государственным учреждениям и деловым организациям и людям всех родов. Свободные кредиты - это решение всех ваших финансовых проблем. свяжитесь с нами по электронной почте: mjoe0123@gmail.com
SEO глазами клиентов 2018
Konstantin I
1
комментарий
0
читателей
Полный профиль
Konstantin I - >сейчас же сложно найти агентства, которые специализируются только на SEO. Тем не менее, такие есть, например www.iconsult.agency. То есть, мы ) А, коль рейтинг носит название "SEO глазами клиентов", то нужно, чтобы его содержание соответствовало названию.
Комплексный аудит интернет-магазина от «Ашманов и партнеры». Часть 1
Александр Сова
1
комментарий
0
читателей
Полный профиль
Александр Сова - А вот и сеошники подъехали, покидать на вентилятор :D
Не очень удачный кейс продвижения сайта по услуге «Трезвый водитель» в Москве
Кирилл Щербаков
3
комментария
0
читателей
Полный профиль
Кирилл Щербаков - "даже пришлось подключить отслеживание звонков с сайта" "Даже" - как будто это что-то нереальное
Два идеальных способа разориться на старте интернет-магазина
Стас
4
комментария
0
читателей
Полный профиль
Стас - Seonews в последнее время такую чушь несет! Где вы таких афторов находите? Статья ничего не стоит и несет чушь! Кто хоть немного понимает в этом так вам и скажет, и такие де комментаторы горе-сеошники, просто смешно читать, вы хоть модерируете ваши статьи или просто для воды на сайте?! Бред сивой кобылы эта статья до самой последней точки!!!
Эксперимент: как уникальность контента влияет на продвижение сайта
Ilia Nazmutdinov
2
комментария
0
читателей
Полный профиль
Ilia Nazmutdinov - Кстати, ПФ не работают на нулевом трафике. Пока на сайт не льются тысячи показов по одним и тем же запросам влияние оказывает ток ссылочное\внешнее и внутреннее\ и внутренняя оптимизация.
Яндекс перестал индексировать сайты, созданные на Wix
Константин Даткунас
3
комментария
0
читателей
Полный профиль
Константин Даткунас - Было бы интересно посмотреть саму выборку из 10 000 и методику анализа.
Как мы разработали и вывели в ТОП сайт курсов рисования
Иван Стороженко
25
комментариев
0
читателей
Полный профиль
Иван Стороженко - Добрый день. 1)Чаще всего основная проблема заключается, в согласовании с клиентом добавляемого контента и то как он будет отображаться. На данном сайте фото и услуги конечно предоставлял клиент, все остальное уже делали мы. 2)Да в принципе, когда есть команда и понимание, что нужно делать, все идет быстро (опять же основная заминка идет на согласовании с клиентом) 3)Смысла делать новый в данном случает нет. В принципе доделывался полноценный сайт. 4)Когда клиент уже не предоставляет информацию, приходится искать у конкурентов (например с других стран или регионов). Но чаще всего клиент, хоть что-то "подкидывает".
Расчет трафика из поисковых систем по брендовым и небрендовым запросам
Дарья Калинская
238
комментариев
0
читателей
Полный профиль
Дарья Калинская - А вот и статья :) www.seonews.ru/analytics/raschet-trafika-po-nebrendovym-zaprosam-pri-pomoshchi-r/
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
335
Комментариев
262
Комментариев
238
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
97
Комментариев
97
Комментариев
95
Комментариев
87
Комментариев
80
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
57
Комментариев
55
Комментариев
54

Отправьте отзыв!
Отправьте отзыв!