Go Analytics! 2018

После «Магадана» Яндекс лучше усваивает морфологию русского языка

Россия+7 (495) 960-65-87
Шрифт:
2 2044

логотип ЯндексаЯндекс продолжает раскрывать механизмы работы уже вошедшей в историю поисковой программы Магадан.
Еще в своем первом отчете по новому алгоритму яндексоиды рассказали о том, что поиск Яндекса стал понимать аббревиатуры и транслитерацию.

Теперь же команда поисковика рассказывает подробно и поэтапно о том, как именно происходит ранжирование результатов поиска по таким запросам.

До Магадана Яндекс учитывал морфологию русского языка лишь по двум типам отношений:
а) словоизменительному – т.е. изменение форм слова, например, по падежам, числу: «маме», «мамой», «маму», «мамы» – формы слова «мама»;
б) видовому – совершенный и несовершенный виды глагола, например “сделать” – “делать”.

Теперь же новая поисковая программа позволяет учитывать еще 3 вида отношений:
1) некоторые типы переходов из одной части речи в другую («гамбург» -> «гамбургский»);
2) транслитерация («mazda» -> «мазда»);
3) аббревиатуры (МГУ -> Московский государственный университет).

То есть если пользователь введет запрос «МПГУ», то Яндекс найдет страницы, содержащие «Московский Педагогический Государственный Университет», причем даже если самого слова «МПГУ» на них нет. Аналогичным образом, по запросу «мазда» показываются сайты как с этим словом, так и со словом «mazda».

Что касается упомянутого типа отношений «гамбург» -> «гамбургский», SEOnews дал дополнительный комментарий руководитель отдела веб-поиска "Яндекса" Александр Садовский:
"При принятии решения, требуется ли учитывать переход из одной части речи в другую, поисковая программа анализирует необходимость этого перехода (например, по логам поисковых сессий, где встречались запросы с такими словами) и далеко не всегда принимает положительное решение.
Поэтому по запросам [гамбургские сосиски] или [гамбургский счет] не должны находиться счета и сосиски в Гамбурге, так как они действительно не нужны пользователям".


Команда Яндекса дает статистические характеристики внесенных изменений по расширению слов запроса:

•Переход из одной части речи в другую - 17182 пар слов, 6% запросов
•Транслитерация - 25455 пар слов, 8% запросов
•Аббревиатуры - 19360 пар слов, 1,5% запросов

Однако что касается аббревиатур, на их примере команда Яндекса рассказывает о том, каким образом собирались по текстам интернета зоны .ru связки пар слов (МГУ – Московский Государственный Университет).

1. На первом этапе из архива веба выделяются цепочки вида
•Парламентская ассамблея Совета Европы (ПАСЕ)
•Мобильные ТелеСистемы (МТС)

2. Затем оставляют те пары, в которых из первых букв последовательности получается слово в скобках.

3. Далее удаляется часть аббревиатур, если средняя частота расшифровки аббревиатуры близка к частоте стоп-слов, а сама расшифровка встречалась меньше, чем на N хостах, удаляем аббревиатуру, например, были удалены:

•правая рука (пр) -- 46 хостов
•что я за это получу (чязэп) -- 16 хостов
•центр информационных систем и технологий в управлении (цисту) -- 2 хоста

4. Если две расшифровки одной и той же аббревиатуры отличаются по Левенштейну не больше, чем минимальная длина расшифровок, умноженная на k, при этом различия распределены равномерно, тогда считаем это одной и той же расшифровкой, например:

•фильтр низких частот фильтр нижних частот
•железная дорога молдавии железная дорога молдовы
5. Удивило то, что если устанавливается омонимия аббревиатур, удаляется вся пара, а не менее частотный омоним:

•управление буровых работ (убр) - 154
•учреждение банка россии (убр) - 26

•московский государственный строительный университет (мгсу) - 2181
•московский государственный социальный университет (мгсу) - 718

6. Также удаляются аббревиатуры, совпадающие с частотными словарными словами:

•технические условия (ту)
•институт гармонического развития и адаптации (игра)

Читайте нас в Telegram - digital_bar

Случилось что-то важное? Поделитесь новостью с редакцией.


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Анастасия Гутникова
    373
    комментария
    0
    читателей
    Анастасия Гутникова
    больше года назад

    С тех пор, как Магадан выложили, да. И даже чуть раньше об этом говорили. Но сейчас интересно то, что яндексоиды раскрывают механику работы
    -
    0
    +
    Ответить
  • Гость
    больше года назад
    дык по-моему давно так уже, если не ошибаюсь
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Кейс: как продвинуть сайт производителя мебели на заказ в Москве
Иван Стороженко
16
комментариев
0
читателей
Полный профиль
Иван Стороженко - Примерный бюджет 150 000 руб.
Рейтинг «Известность бренда SEO-компаний 2017»: народное голосование
Гость
1
комментарий
0
читателей
Полный профиль
Гость - 1) Ingate 2) Ашманов 3) Кокос 4) Russian Promo 5) Netpeak
«Баден-Баден»: как выйти из-под фильтра
Александр Кравцов
1
комментарий
0
читателей
Полный профиль
Александр Кравцов - Всем привет Вот ещё пациент www.gdebar.ru Под фильтром с 20 декабря, прошёл месяц, сегодня обновилось, что можете нажать сново проверить сайт и ждать 59 дней.Может кто сталкивался и сможет как то подсказать? Аудитом например или ещё как то проверить, что стоит подправить,скайп мой icejhell. Готов так же к совместному общению по решению проблемы. Всем успехов )
Второе дыхание ссылочного продвижения
Rookee.ru
24
комментария
0
читателей
Полный профиль
Rookee.ru - Еще лучше, когда продвижение осуществляется комплексно :)
Исследование: влияние smart-ссылок на продвижение по СЧ-запросам
Анатолий Шевчик
1
комментарий
0
читателей
Полный профиль
Анатолий Шевчик - +1097988
Контекст под SEO. Как поисковая реклама помогает позициям в органической выдаче
Сергей Дембицкий «Sima-Land.ru»
22
комментария
0
читателей
Полный профиль
Сергей Дембицкий «Sima-Land.ru» - Боже мой, неужели SEO-маги вернулись??? Открыть в роботс utm-метки для индексации и наплодить дублей...что? А расчеты в конце статьи про бюджет на SEO и контекст...откуда эти пропорции? Как по мне, SEO-магия вне Хогвартс. Спасибо, развеселили!
«Прямая линия» с Александром Алаевым («АлаичЪ и Ко»): отвечаем на вопросы
Александр Алаев
13
комментариев
0
читателей
Полный профиль
Александр Алаев - Роман. Тут ответ очень простой. Каждый запрос можно четко разделить на коммерческий или некоммерческий. "Купить слона" и его длинные хвосты - коммерческий. "Как выбрать слона" и подобные - информационные. Вот под коммерческие ключи должны быть страницы услуг или каталога товаров. А под информационку - блог. Очень важно не путать их, тем более несоответствующая коммерческим факторам страниц просто не продвинется, то есть по запросу с "купить" блог никогда не будет показываться в выдаче, так же как и страница услуги/товаров не покажется по "как выбрать". Понятно примерно?
Кейс: продвигаем бизнес по продаже пластиковых окон в Москве
Иван Стороженко
16
комментариев
0
читателей
Полный профиль
Иван Стороженко - 1. По началу вообще не использовали, сейчас уже много каналов используется. 2. Все может быть, в принципе сайты должны быть удобны для пользователя, для этого и нужна схожесть между собой. Честно говоря старались брать все самое интересное у конкурентов + подкреплять своими идеями.
Западные специалисты выяснили, как повысить позиции ресурса в выдаче Google
Максим Мирошник
2
комментария
0
читателей
Полный профиль
Максим Мирошник -
Все, что нужно SEO-специалисту. Обзор инструментов
Назар
2
комментария
0
читателей
Полный профиль
Назар - SE Ranking еще бывают траблы со съемом позиций, бывает запросы недогружает....
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
317
Комментариев
262
Комментариев
232
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
97
Комментариев
97
Комментариев
95
Комментариев
85
Комментариев
80
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
56
Комментариев
55
Комментариев
54
Комментариев
52

Отправьте отзыв!
Отправьте отзыв!