Optimization 2018: что находится «под капотом» у Алисы

26 ноября в Москве прошел первый день конференции Optimization 2018. Спикером первой секции – «Поисковые машины» стала Анастасия Данилина, руководитель В2В-направления платформы Яндекс.Диалоги. Она рассказала о голосовой помощнице Яндекса Алисе – чем она может быть полезна людям и бизнесу, а также объяснила, какие технологии находятся у нее «под капотом».

За последние 30–40 лет человечество стало свидетелем двух технологических революций, коренным образом изменивших поисковые паттерны поведения человека. Речь о появлении интернета, мобильных устройствах и их симбиозе. Людям пришлось начать использовать текстовые сообщения, вводя их вручную на своих устройствах. В итоге интернет стал местом, где они получали ответы на все свои вопросы, а происходило все это на мобильных устройствах.

Однако со временем голосовое общение взяло верх на текстовым – людям стало удобнее отправлять друг другу небольшие аудиозаписи в мессенджерах, а не набирать сообщения вручную.

Развитие технологий голосового поиска достигло такого уровня, что их использование стало не только удобным, но иногда и необходимым. Одним из примеров здесь может послужить голосовая помощница Яндекса Алиса. Ей можно задать вопрос в естественной форме, и она подберет подходящий ответ.

Перевод речи в текст – первое, что делает Алиса при общении с человеком. При этом ей необходимо учесть множество мешающих факторов – несовершенства микрофона, шумы, акценты, диалекты, сленг. Для распознавания используется технология SpeechKit.

За время, прошедшее с момента запуска технологии, качество распознавания речи значительно выросло и в 2017 году SpeechKit удалось превзойти человека.

После перевода голоса в текст Алисе необходимо наделить его смыслом и подобрать правильный ответ. За эту функцию отвечает технология Turing.

Алисе требуется взять текст и поместить его в семантическое пространство, где каждая точка – это фраза, а цвет – тема. Похожие фразы объединяются:



Алиса изучает текст запроса и смотрит на все точки, находящиеся рядом – они и являются кандидатами в правильные ответы. Формируя ответ, Алиса учитывает все, что она знает о пользователе – историю взаимодействия с ним, его местоположение и т.д. Поэтому на один и тот же вопрос разные пользователи могут получить разные ответы.

Ответ озвучивается с помощью технологии Text-to-speech. В Яндексе записали порядка 260 тысяч слов. Однако речь формируется не только из слов, а из фонем.

С помощью нейросети сглаживаются интонационные перепады, и в итоге получается речь, близкая к человеческой.

Не так давно Алисе исполнился год. Яндекс представил свежие данные по аудитории голосовой помощницы.




Яндекс хочет сделать Алису еще полезнее, так как изначально доступного набора навыков пользователям явно не хватает. Для этого запустили платформу Яндекс.Диалоги – не только для конечных юзеров, но и для бизнеса.

Навыки – это диалоги. Они могут быть автоматизированными (чат-боты) или представлять собой чаты с операторами. В Алисе сейчас доступно порядка 33 000 таких навыков.

Анастасия также поделилась советами по созданию навыков:

  • Найдите свой формат. Навыки – это новая форма коммуникации с пользователями.
  • Создайте персонажа. То есть при общении нужно найти правильный характер взаимодействия с аудиторией.
  • Расскажите о навыке в одной фразе.
  • Используйте правило одного дыхания.
  • Направляйте пользователей вопросами.
  • Используйте визуальные элементы и звуки.
  • Формируйте привычку.

Читайте также:

Optimization 2018. Кто получил премию за достижения в области SEO?

(Голосов: 1, Рейтинг: 5)