×
Россия +7 (909) 261-97-71

После «Магадана» Яндекс лучше усваивает морфологию русского языка

Россия +7 (909) 261-97-71
Шрифт:
2 4314
Подпишитесь на нас в Telegram

логотип ЯндексаЯндекс продолжает раскрывать механизмы работы уже вошедшей в историю поисковой программы Магадан.
Еще в своем первом отчете по новому алгоритму яндексоиды рассказали о том, что поиск Яндекса стал понимать аббревиатуры и транслитерацию.

Теперь же команда поисковика рассказывает подробно и поэтапно о том, как именно происходит ранжирование результатов поиска по таким запросам.

До Магадана Яндекс учитывал морфологию русского языка лишь по двум типам отношений:
а) словоизменительному – т.е. изменение форм слова, например, по падежам, числу: «маме», «мамой», «маму», «мамы» – формы слова «мама»;
б) видовому – совершенный и несовершенный виды глагола, например “сделать” – “делать”.

Теперь же новая поисковая программа позволяет учитывать еще 3 вида отношений:
1) некоторые типы переходов из одной части речи в другую («гамбург» -> «гамбургский»);
2) транслитерация («mazda» -> «мазда»);
3) аббревиатуры (МГУ -> Московский государственный университет).

То есть если пользователь введет запрос «МПГУ», то Яндекс найдет страницы, содержащие «Московский Педагогический Государственный Университет», причем даже если самого слова «МПГУ» на них нет. Аналогичным образом, по запросу «мазда» показываются сайты как с этим словом, так и со словом «mazda».

Что касается упомянутого типа отношений «гамбург» -> «гамбургский», SEOnews дал дополнительный комментарий руководитель отдела веб-поиска "Яндекса" Александр Садовский:
"При принятии решения, требуется ли учитывать переход из одной части речи в другую, поисковая программа анализирует необходимость этого перехода (например, по логам поисковых сессий, где встречались запросы с такими словами) и далеко не всегда принимает положительное решение.
Поэтому по запросам [гамбургские сосиски] или [гамбургский счет] не должны находиться счета и сосиски в Гамбурге, так как они действительно не нужны пользователям".


Команда Яндекса дает статистические характеристики внесенных изменений по расширению слов запроса:

• Переход из одной части речи в другую - 17182 пар слов, 6% запросов
• Транслитерация - 25455 пар слов, 8% запросов
• Аббревиатуры - 19360 пар слов, 1,5% запросов

Однако что касается аббревиатур, на их примере команда Яндекса рассказывает о том, каким образом собирались по текстам интернета зоны .ru связки пар слов (МГУ – Московский Государственный Университет).

1. На первом этапе из архива веба выделяются цепочки вида
• Парламентская ассамблея Совета Европы (ПАСЕ)
• Мобильные ТелеСистемы (МТС)

2. Затем оставляют те пары, в которых из первых букв последовательности получается слово в скобках.

3. Далее удаляется часть аббревиатур, если средняя частота расшифровки аббревиатуры близка к частоте стоп-слов, а сама расшифровка встречалась меньше, чем на N хостах, удаляем аббревиатуру, например, были удалены:

• правая рука (пр) -- 46 хостов
• что я за это получу (чязэп) -- 16 хостов
• центр информационных систем и технологий в управлении (цисту) -- 2 хоста

4. Если две расшифровки одной и той же аббревиатуры отличаются по Левенштейну не больше, чем минимальная длина расшифровок, умноженная на k, при этом различия распределены равномерно, тогда считаем это одной и той же расшифровкой, например:

• фильтр низких частот фильтр нижних частот
• железная дорога молдавии железная дорога молдовы
5. Удивило то, что если устанавливается омонимия аббревиатур, удаляется вся пара, а не менее частотный омоним:

• управление буровых работ (убр) - 154
• учреждение банка россии (убр) - 26

• московский государственный строительный университет (мгсу) - 2181
• московский государственный социальный университет (мгсу) - 718

6. Также удаляются аббревиатуры, совпадающие с частотными словарными словами:

• технические условия (ту)
• институт гармонического развития и адаптации (игра)

Случилось что-то важное? Поделитесь новостью с редакцией.


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Анастасия Гутникова
    373
    комментария
    0
    читателей
    Анастасия Гутникова
    больше года назад

    С тех пор, как Магадан выложили, да. И даже чуть раньше об этом говорили. Но сейчас интересно то, что яндексоиды раскрывают механику работы
    -
    0
    +
    Ответить
  • Гость
    больше года назад
    дык по-моему давно так уже, если не ошибаюсь
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Как ИИ усиливает маркетинг и помогает общаться с пользователем
Иван
1
комментарий
0
читателей
Полный профиль
Иван - Классная статья, забрал Хотелось бы услышать еще от эксперта мнение про модели в таком случае и дисперсию
Тренды e-commerce 2026: рынок ждет отток с маркетплейсов?
Арина
1
комментарий
0
читателей
Полный профиль
Арина - Мы пробовали разные сервисы, но уже давно используем этот сервис tryon.mall-er.com у них есть и Визуальный поиск и Виртуальная примерка. Мы пользуемся Виртуальной примеркой очков и поиском и внедрили себе на сайт, сейчас порядка 80% нашего трафика с удовольствием пользуются данными функциями.
SEO-анализ сайта – новый сервис для технического аудита сайта
Олег Алексеев
1
комментарий
0
читателей
Полный профиль
Олег Алексеев - Сюда t.me/obivaaan или сюда t.me/olegalexeyev
Что будет с SEO в 2026: эксперты рынка подводят итоги и делают прогнозы на этот год
Марал Гаипова
142
комментария
0
читателей
Полный профиль
Марал Гаипова - Дмитрий, спасибо, эксперты и правда - топ)
Пользователи смогут создавать видео на основе изображений в приложении Алиса
ангелина
1
комментарий
0
читателей
Полный профиль
ангелина - сгенерируй видео где пожилой мужчина больших размеров танцевал балет и резко вылетел в окно
MAX прошел хакерскую проверку на ZeroNights
Игорь
2
комментария
0
читателей
Полный профиль
Игорь - Когда нужно быстро понять, что происходит с каналами в MAX можно зайти на сервис maxdash.ru/ Пользоваться очень удобно: видно рост подписчиков, охваты, вовлечённость, какие каналы сейчас реально растут. Всё собрано в одном месте, без лишней возни с таблицами. Помогает трезво оценивать результаты и принимать решения не «на глаз», а по цифрам.
Что прямо сейчас можно сделать сайту регионального СМИ, чтобы получить мощный приток органического трафика
Дмитрий Севальнев
128
комментариев
0
читателей
Полный профиль
Дмитрий Севальнев - Максим, молодец! Хороший материал
Конец эпохи Google: AI Mode заменит привычный поиск
Denial
1
комментарий
0
читателей
Полный профиль
Denial - Очередной инфоциган, переписывающий статьи с eu ресурсов Ничего нового
Яндекс Браузер оптимизировал потребление оперативной памяти благодаря ИИ
Гость
1
комментарий
0
читателей
Полный профиль
Гость - На днях поставил Яндекс браузер на старый ноутбук с процессором AMD V140 и памятью 6 Гб. Система оказалась парализована - загрузка ЦП 100%. С другими браузерами: Firefox, Chrome ничего подобного.
GEO-продвижение: гайд повышения видимости бренда (сайта) в нейросетях
Дмитрий Севальнев
128
комментариев
0
читателей
Полный профиль
Дмитрий Севальнев - Вай, кайф!
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
393
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
142
Комментариев
128
Комментариев
121
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
66
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!