Optimization 2016: в окрестностях «Палеха»

Россия+7 (495) 960-65-87
Шрифт:
0 3245
Садовский.png

1–2 декабря в Москве прошла конференция Optimization 2016. В секции «Поисковые машины» Александр Садовский (Яндекс) выступил с докладом «В окрестностях Палеха».

Поисковыми системами создано множество алгоритмов, позволяющих лучше понимать текстовую часть запроса. Но Яндекс стремится понять пользовательские запросы еще лучше. Поэтому команда поиска обратила внимание на нейросети.

Есть много известных технологий для обработки больших объемов текстовой информации, например, Word2vec или DSSM. Проблемы этих реализаций в том, что они академические. Любой академический алгоритм работает со стандартным множеством документов и запросов и показывает хорошие научные результаты, но при попытке применить его к реальным базам с огромным количеством документов, он дает либо маленький, либо нулевой прирост качества.

Ни один из алгоритмов с первой попытки не удалось заставить работать, поэтому Яндекс перешел к поиску собственной технологии, которая даст выгоду пользователю и прирост качества поиска. Так появился алгоритм «Палех».

Устройство.png

На слайде выше структура нейросети, где смешиваются слова, словесные биграммы и буквенные триграммы. В результате этого нейросеть получает два разных вектора – вектор запроса и вектор заголовка документа.

Если эти векторы близки, это значит, что запрос похож на заголовок документа. Если они различаются, это означает, что они разные и находить по этому запросу этот документ не нужно. Получается, можно сравнивать запросы и тексты документов с помощью нейросетей.

Основная проблема в том, что нейросеть нужно учить. Она, как ребенок, который еще ничего не знает, но который может научиться многому, если все сделать правильно. И для этого нужны отрицательные примеры и положительные примеры. Если одного из этих классов примеров не будет, нейросеть ничему не научится.

Классический подход к обучению состоит в том, что в качестве обучающего множества берутся клики, как-то решается проблема их разреженности и в среднем на этом множестве система обучается. Но этот подход показал довольно слабые результаты. И этому есть свои причины.

Например, есть довольно большой пласт документов, которые дают ответ прямо в сниппете. Логично, что по такому документу пользователь не кликнет, хотя он мог послужить положительным примером.

Ответ в сниппете.png

Основное достижение в разработке «Палеха» состоит в том, что Яндекс научился находить правильные примеры для обучения, и это дало существенный прирост качества.

Что берется в качестве положительных примеров? Яндексу удалось построить модель, которая позволяет предсказывать, насколько пользователь заинтересован в том, что он видит на сайте по данному запросу, и задержится ли он там надолго. Это стало положительным примером.

Не менее важны отрицательные примеры. Вот некоторые варианты:

Первый – случайные документы. В базе Яндекса миллиарды документов, но даже по самой широкой теме многословного запроса релевантной является лишь доля процента в выдаче. Это означает, что, взяв случайный заголовок, мы с большой вероятностью получим нерелевантный документ. Нейросеть решила эту проблему просто: если слова запроса встречались в заголовке, она считала его релевантным, если нет – нерелевантным. Нужно было усложнить ей задачу.

Второй вариант – слова запроса в заголовке случайного документа. Но нейросеть научилась обходить и это, так что качество поиска не росло.

Третий вариант – Яндекс заставил нейросеть бороться саму с собой с помощью подхода hard negative mining. Когда мы берем некоторый пул заголовков, которые не являются релевантными и относятся к случайным документам, нейросеть считает какие-то из них более подходящими. Если взять самые подходящие из нерелевантных и сказать, что это и есть отрицательный пример, качество начинает расти.

В результате правильное множество отрицательных и положительных примеров дало резкий рост качества по текстовому поиску в дополнение к тем алгоритмам, что у нас уже имеются.

Вот примеры работы «Палеха» по сравнению с алгоритмом BM25:

Пример 1.png

А это результат для коммерческого запроса:

Пример 2.png

В завершение выступления Александр ответил на популярные вопросы про «Палех». Оказалось, что:

  • «Палех» охватывает все типы запросов и все языки и регионы.
  • Его эффективность составляет pFound + 1,6% (на запросах длинного хвоста).
  • «Палех» может влиять на изменение трафика на сайт.
  • Алгоритм малоэффективен при поиске цитат. 
Читайте нас в Telegram - digital_bar

Случилось что-то важное? Поделитесь новостью с редакцией.


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Кейс: как продвинуть сайт производителя мебели на заказ в Москве
    Art Moderator
    2
    комментария
    0
    читателей
    Полный профиль
    Art Moderator -
    Рейтинг «Известность бренда SEO-компаний 2017»: народное голосование
    Гость
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость - 1) Ingate 2) Ашманов 3) Кокос 4) Russian Promo 5) Netpeak
    «Баден-Баден»: как выйти из-под фильтра
    Гость
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость - Здравствуйте! У меня совсем новый сайт (около месяца). Как только добавила страницы - были на 64, 45 и т.д. местах в выдаче яндекса по нч и сч запросам, но через несколько дней улетели за пределы 200. Что это баден - баден или песочница? Текст вроде не спамный, но мне трудно судить. Сайт portretnazakaz.ru
    Второе дыхание ссылочного продвижения
    Rookee.ru
    24
    комментария
    0
    читателей
    Полный профиль
    Rookee.ru - Еще лучше, когда продвижение осуществляется комплексно :)
    32 инструмента в помощь SEO-специалисту
    Alex Wise
    5
    комментариев
    0
    читателей
    Полный профиль
    Alex Wise - Данис, я тысячу раз извиняюсь насчёт имени! :( Хотя уверен, что лучше всех вас понимаю по этому поводу, ибо меня всегда называют "Алексеем", хотя я Александр: всё из-за сокращения Alex ;) Жду фидбека по новой версии 3.0!
    Исследование: влияние smart-ссылок на продвижение по СЧ-запросам
    Анатолий Шевчик
    1
    комментарий
    0
    читателей
    Полный профиль
    Анатолий Шевчик - +1097988
    Контекст под SEO. Как поисковая реклама помогает позициям в органической выдаче
    Сергей Дембицкий «Sima-Land.ru»
    22
    комментария
    0
    читателей
    Полный профиль
    Сергей Дембицкий «Sima-Land.ru» - Боже мой, неужели SEO-маги вернулись??? Открыть в роботс utm-метки для индексации и наплодить дублей...что? А расчеты в конце статьи про бюджет на SEO и контекст...откуда эти пропорции? Как по мне, SEO-магия вне Хогвартс. Спасибо, развеселили!
    Западные специалисты выяснили, как повысить позиции ресурса в выдаче Google
    Максим Мирошник
    2
    комментария
    0
    читателей
    Полный профиль
    Максим Мирошник -
    Все, что нужно SEO-специалисту. Обзор инструментов
    Администратор Сайта
    1
    комментарий
    1
    читатель
    Полный профиль
    Администратор Сайта - Шаришь в seo! Сервис реально хороший
    «Прямая линия» с Артуром Латыповым: отвечаем на вопросы
    God Koss
    1
    комментарий
    0
    читателей
    Полный профиль
    God Koss - Добрый день! Есть сайты одной компании продвигающиеся в разных странах. .ru .com .net. На российском сайте два языка ru и en, на остальных до 10 языков. Недавно сайт ru по основному брендовому запросу выпал из выдачи Яндекс но после апа вернулся на вторую позицию. На вопрос аффилирования в тех поддержку, получит ответ, что всё в порядке и сайт com не учавствует в выдаче. Но он есть и занимает 1 место. Как быть в данной ситуации? Так же, после возврата в топ 10 по этому запросу зашла еще одна внутренняя страница. Могло ли это случиться из-за каннибализации запроса? Немного изменил description на внутренней, исключил вхождения брендового запроса. Жду апа. Хотел бы услышать ваше мнение. Заранее благодарю!
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    321
    Комментариев
    262
    Комментариев
    234
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    86
    Комментариев
    80
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    57
    Комментариев
    55
    Комментариев
    54
    Комментариев
    53

    Отправьте отзыв!
    Отправьте отзыв!