×
Россия +7 (909) 261-97-71

Optimization 2016: в окрестностях «Палеха»

Россия +7 (909) 261-97-71
Шрифт:
0 6730
Подпишитесь на нас в Telegram
Садовский.png

1–2 декабря в Москве прошла конференция Optimization 2016. В секции «Поисковые машины» Александр Садовский (Яндекс) выступил с докладом «В окрестностях Палеха».

Поисковыми системами создано множество алгоритмов, позволяющих лучше понимать текстовую часть запроса. Но Яндекс стремится понять пользовательские запросы еще лучше. Поэтому команда поиска обратила внимание на нейросети.

Есть много известных технологий для обработки больших объемов текстовой информации, например, Word2vec или DSSM. Проблемы этих реализаций в том, что они академические. Любой академический алгоритм работает со стандартным множеством документов и запросов и показывает хорошие научные результаты, но при попытке применить его к реальным базам с огромным количеством документов, он дает либо маленький, либо нулевой прирост качества.

Ни один из алгоритмов с первой попытки не удалось заставить работать, поэтому Яндекс перешел к поиску собственной технологии, которая даст выгоду пользователю и прирост качества поиска. Так появился алгоритм «Палех».

Устройство.png

На слайде выше структура нейросети, где смешиваются слова, словесные биграммы и буквенные триграммы. В результате этого нейросеть получает два разных вектора – вектор запроса и вектор заголовка документа.

Если эти векторы близки, это значит, что запрос похож на заголовок документа. Если они различаются, это означает, что они разные и находить по этому запросу этот документ не нужно. Получается, можно сравнивать запросы и тексты документов с помощью нейросетей.

Основная проблема в том, что нейросеть нужно учить. Она, как ребенок, который еще ничего не знает, но который может научиться многому, если все сделать правильно. И для этого нужны отрицательные примеры и положительные примеры. Если одного из этих классов примеров не будет, нейросеть ничему не научится.

Классический подход к обучению состоит в том, что в качестве обучающего множества берутся клики, как-то решается проблема их разреженности и в среднем на этом множестве система обучается. Но этот подход показал довольно слабые результаты. И этому есть свои причины.

Например, есть довольно большой пласт документов, которые дают ответ прямо в сниппете. Логично, что по такому документу пользователь не кликнет, хотя он мог послужить положительным примером.

Ответ в сниппете.png

Основное достижение в разработке «Палеха» состоит в том, что Яндекс научился находить правильные примеры для обучения, и это дало существенный прирост качества.

Что берется в качестве положительных примеров? Яндексу удалось построить модель, которая позволяет предсказывать, насколько пользователь заинтересован в том, что он видит на сайте по данному запросу, и задержится ли он там надолго. Это стало положительным примером.

Не менее важны отрицательные примеры. Вот некоторые варианты:

Первый – случайные документы. В базе Яндекса миллиарды документов, но даже по самой широкой теме многословного запроса релевантной является лишь доля процента в выдаче. Это означает, что, взяв случайный заголовок, мы с большой вероятностью получим нерелевантный документ. Нейросеть решила эту проблему просто: если слова запроса встречались в заголовке, она считала его релевантным, если нет – нерелевантным. Нужно было усложнить ей задачу.

Второй вариант – слова запроса в заголовке случайного документа. Но нейросеть научилась обходить и это, так что качество поиска не росло.

Третий вариант – Яндекс заставил нейросеть бороться саму с собой с помощью подхода hard negative mining. Когда мы берем некоторый пул заголовков, которые не являются релевантными и относятся к случайным документам, нейросеть считает какие-то из них более подходящими. Если взять самые подходящие из нерелевантных и сказать, что это и есть отрицательный пример, качество начинает расти.

В результате правильное множество отрицательных и положительных примеров дало резкий рост качества по текстовому поиску в дополнение к тем алгоритмам, что у нас уже имеются.

Вот примеры работы «Палеха» по сравнению с алгоритмом BM25:

Пример 1.png

А это результат для коммерческого запроса:

Пример 2.png

В завершение выступления Александр ответил на популярные вопросы про «Палех». Оказалось, что:

  • «Палех» охватывает все типы запросов и все языки и регионы.
  • Его эффективность составляет pFound + 1,6% (на запросах длинного хвоста).
  • «Палех» может влиять на изменение трафика на сайт.
  • Алгоритм малоэффективен при поиске цитат. 

Случилось что-то важное? Поделитесь новостью с редакцией.


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Как ИИ усиливает маркетинг и помогает общаться с пользователем
Иван
1
комментарий
0
читателей
Полный профиль
Иван - Классная статья, забрал Хотелось бы услышать еще от эксперта мнение про модели в таком случае и дисперсию
Тренды e-commerce 2026: рынок ждет отток с маркетплейсов?
Арина
1
комментарий
0
читателей
Полный профиль
Арина - Мы пробовали разные сервисы, но уже давно используем этот сервис tryon.mall-er.com у них есть и Визуальный поиск и Виртуальная примерка. Мы пользуемся Виртуальной примеркой очков и поиском и внедрили себе на сайт, сейчас порядка 80% нашего трафика с удовольствием пользуются данными функциями.
SEO-анализ сайта – новый сервис для технического аудита сайта
Олег Алексеев
1
комментарий
0
читателей
Полный профиль
Олег Алексеев - Сюда t.me/obivaaan или сюда t.me/olegalexeyev
Накрутка ПФ vs. Бизнес: как накрутка поведенческих факторов «убьет» ваш бизнес в интернете
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Вообще бред несут-пункт позиции и там и там суотрудничать,банов нет,риски и остальные пункты просто смешно,пф гораздо эффективнее чем платить в пиксель)))
Что будет с SEO в 2026: эксперты рынка подводят итоги и делают прогнозы на этот год
Марал Гаипова
142
комментария
0
читателей
Полный профиль
Марал Гаипова - Дмитрий, спасибо, эксперты и правда - топ)
Полгода в MAX: взрывной рост каналов и аудитории
Игорь
2
комментария
0
читателей
Полный профиль
Игорь - Когда нужно быстро понять, что происходит с каналами в MAX можно зайти на сервис maxdash.ru/ Пользоваться очень удобно: видно рост подписчиков, охваты, вовлечённость, какие каналы сейчас реально растут. Всё собрано в одном месте, без лишней возни с таблицами. Помогает трезво оценивать результаты и принимать решения не «на глаз», а по цифрам.
Yandex Cloud сменил логотип и визуальный стиль
Гостьфы
1
комментарий
0
читателей
Полный профиль
Гостьфы - это че такое
Новое SEO: что уже известно про GEO и как его использовать для продвижения бизнеса
Сергей
22
комментария
0
читателей
Полный профиль
Сергей - Благодарю за то, что поделились своими наработками. Очень любопытно!
Ozon добавил генерацию ответов на отзывы с помощью ИИ
Сергей
1
комментарий
0
читателей
Полный профиль
Сергей - Интересно добавят ли такую фичу, чтобы покупатель товара мог "свой" сгенерированный отзыв о товаре добавлять и получать за это балы? :)
Яндекс добавил продвинутую ИИ-модель в Алису на всех умных устройствах
Тимофей
1
комментарий
0
читателей
Полный профиль
Тимофей - Какой смысл усовершенствовать если в нашей стране запрещено говорить правду!
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
393
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
142
Комментариев
128
Комментариев
121
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
66
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!