×
Россия +7 (495) 139-20-33

Optimization 2016: в окрестностях «Палеха»

Россия +7 (495) 139-20-33
Шрифт:
0 4395
Садовский.png

1–2 декабря в Москве прошла конференция Optimization 2016. В секции «Поисковые машины» Александр Садовский (Яндекс) выступил с докладом «В окрестностях Палеха».

Поисковыми системами создано множество алгоритмов, позволяющих лучше понимать текстовую часть запроса. Но Яндекс стремится понять пользовательские запросы еще лучше. Поэтому команда поиска обратила внимание на нейросети.

Есть много известных технологий для обработки больших объемов текстовой информации, например, Word2vec или DSSM. Проблемы этих реализаций в том, что они академические. Любой академический алгоритм работает со стандартным множеством документов и запросов и показывает хорошие научные результаты, но при попытке применить его к реальным базам с огромным количеством документов, он дает либо маленький, либо нулевой прирост качества.

Ни один из алгоритмов с первой попытки не удалось заставить работать, поэтому Яндекс перешел к поиску собственной технологии, которая даст выгоду пользователю и прирост качества поиска. Так появился алгоритм «Палех».

Устройство.png

На слайде выше структура нейросети, где смешиваются слова, словесные биграммы и буквенные триграммы. В результате этого нейросеть получает два разных вектора – вектор запроса и вектор заголовка документа.

Если эти векторы близки, это значит, что запрос похож на заголовок документа. Если они различаются, это означает, что они разные и находить по этому запросу этот документ не нужно. Получается, можно сравнивать запросы и тексты документов с помощью нейросетей.

Основная проблема в том, что нейросеть нужно учить. Она, как ребенок, который еще ничего не знает, но который может научиться многому, если все сделать правильно. И для этого нужны отрицательные примеры и положительные примеры. Если одного из этих классов примеров не будет, нейросеть ничему не научится.

Классический подход к обучению состоит в том, что в качестве обучающего множества берутся клики, как-то решается проблема их разреженности и в среднем на этом множестве система обучается. Но этот подход показал довольно слабые результаты. И этому есть свои причины.

Например, есть довольно большой пласт документов, которые дают ответ прямо в сниппете. Логично, что по такому документу пользователь не кликнет, хотя он мог послужить положительным примером.

Ответ в сниппете.png

Основное достижение в разработке «Палеха» состоит в том, что Яндекс научился находить правильные примеры для обучения, и это дало существенный прирост качества.

Что берется в качестве положительных примеров? Яндексу удалось построить модель, которая позволяет предсказывать, насколько пользователь заинтересован в том, что он видит на сайте по данному запросу, и задержится ли он там надолго. Это стало положительным примером.

Не менее важны отрицательные примеры. Вот некоторые варианты:

Первый – случайные документы. В базе Яндекса миллиарды документов, но даже по самой широкой теме многословного запроса релевантной является лишь доля процента в выдаче. Это означает, что, взяв случайный заголовок, мы с большой вероятностью получим нерелевантный документ. Нейросеть решила эту проблему просто: если слова запроса встречались в заголовке, она считала его релевантным, если нет – нерелевантным. Нужно было усложнить ей задачу.

Второй вариант – слова запроса в заголовке случайного документа. Но нейросеть научилась обходить и это, так что качество поиска не росло.

Третий вариант – Яндекс заставил нейросеть бороться саму с собой с помощью подхода hard negative mining. Когда мы берем некоторый пул заголовков, которые не являются релевантными и относятся к случайным документам, нейросеть считает какие-то из них более подходящими. Если взять самые подходящие из нерелевантных и сказать, что это и есть отрицательный пример, качество начинает расти.

В результате правильное множество отрицательных и положительных примеров дало резкий рост качества по текстовому поиску в дополнение к тем алгоритмам, что у нас уже имеются.

Вот примеры работы «Палеха» по сравнению с алгоритмом BM25:

Пример 1.png

А это результат для коммерческого запроса:

Пример 2.png

В завершение выступления Александр ответил на популярные вопросы про «Палех». Оказалось, что:

  • «Палех» охватывает все типы запросов и все языки и регионы.
  • Его эффективность составляет pFound + 1,6% (на запросах длинного хвоста).
  • «Палех» может влиять на изменение трафика на сайт.
  • Алгоритм малоэффективен при поиске цитат. 

(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Случилось что-то важное? Поделитесь новостью с редакцией.


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Как выбрать CMS для интернет-магазина
Колян Гусляков
2
комментария
0
читателей
Полный профиль
Колян Гусляков - Если же у вас не получилось решить данную проблему, предлагаю воспользоваться авторской сборкой от neoseo. neoseo.ru/internet-magazin-seo-magazin-model. Они предоставляют дополнительные модули для работы и взаимодействия с вашим сайтом, современный дизайн, качественную оптимизацию и продвижение. Советую попробовать, не пожалеете.
«Юзабилити-лаборатория»: оставляйте заявку на участие!
Анна Макарова
0
комментариев
0
читателей
Полный профиль
Анна Макарова - Антон, добрый день! Ваш сайт не попал в основную выборку для юзабилити-анализа, но эксперты постараются сделать по вашему сайту видеоразбор (ю-ревью). Будем держать вас в курсе )
Тест по SEO – проверь свой уровень знаний
Артем Дорофеев
8
комментариев
0
читателей
Полный профиль
Артем Дорофеев - Полный текст вопроса со скриншотом панели прикладываю. Итого, что имеем: - на скриншоте отмечено, что это фильтр МПК - сайт коммерческий - рекламы на сайте нет С вероятностью 95% это ошибка (которая уже дважды случалась в Яндексе), когда они случайно "закосили" неповинные сайты. Тогда по запросу Платону фильтр быстренько снимали. Но вопрос даже не на знание этого нюанса. В любой непонятной ситуации, прежде чем что-либо предпринимать (особенно переписывать весь контент на сайте или менять дизайн, как указано в других вариантах) - фильтр следует подтвердить. Правильный ответ: "Написать письмо в техподдержку Яндекса".
Выбираем CMS для сайта с точки зрения SEO: базовые требования
SEO.RU
6
комментариев
0
читателей
Полный профиль
SEO.RU - Спасибо за замечание, действительно была допущена неточность - возможно информация была не так давно обновилась. Данные в статье поправим на актуальные.
Digital-marketing: как выжить в кризис. Опыт реальной компании
Maks
1
комментарий
0
читателей
Полный профиль
Maks - Спасибо за опыт Вашей компании, Иван Папусь. Интересно получилось! Желаю Вашему бизнесу стабильности и успешно пережить все кризисы))
100+ ресурсов по SEO для изучения поисковой оптимизации с нуля
Марина Ибушева
0
комментариев
0
читателей
Полный профиль
Марина Ибушева - Спасибо за добавление. Мы уже работаем над отдельным материалом про курсы, потому что одной статьи мало, чтобы охватить все крутое по обучению)
7 способов увеличить авторитетность сайта «в глазах» поисковых систем
Grigo5
4
комментария
0
читателей
Полный профиль
Grigo5 - Понятно.
Монетизируйте свой сайт вместе с VIZTROM
VIZTROM
3
комментария
0
читателей
Полный профиль
VIZTROM - Добрый день! Так как мы сейчас работаем в приватном режиме, Вы врятли можете объективно оценить нашу рекламную площадку. У нас будет официальный запуск 3 марта для вебмастеров. Приглашаем Вас присоединиться к нам и лично посмотреть наш функционал.
SEO must go on! Почему в кризис нельзя останавливать продвижение сайта
everystraus
37
комментариев
0
читателей
Полный профиль
everystraus - Мы даже варианты не рассматривали. Если проект неустойчив, сразу предлагали сбавить обороты до минимума, но и так, чтоб не свалиться в штопор. Именно по СЕО чаще всего.
Кейс: как за 30 дней вывести новый сайт в ТОП выдачи Google
Максим Боровой
17
комментариев
0
читателей
Полный профиль
Максим Боровой - 1) О тот самый Шульга, у которого "профессия SEOшник ждёт провал"(с) и вот он SEONEWS
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
380
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
112
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
89
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
60
Комментариев
59
Комментариев
57

Отправьте отзыв!
Отправьте отзыв!