Как определить семантичен ли поисковик?

В последнее время понятие «семантический поисковик» стало настолько часто употребляться, что неизбежно границы этого понятия размылись. В этой статье приведен перевод выдержек из доклада исполнительного вице-президента Отдела поиска и ответов Ask.com Томаша Имелински. В докладе, который будет полностью прозвучит только осенью 2009 года, он предлагает несколько условий, по которым можно определить, насколько поисковик понимает запросы пользователей и может считаться семантическим.

Представим четырехлетнего ребенка в качестве поисковика...

Предположим, что поисковые системы обладают интеллектом четырехлетнего ребенка. В таком случае представим такой диалог

Пользователь: Как погодка в Москве?

Поисковик: Я не знаю.

Пользователь: Какая сейчас погода с Москве?

Поисковик: Я не знаю!

Пользователь: OK. Погода Москва.

Поисковик: И сколько раз нужно задавать один и тот же вопрос? Я же сказал, понятия не имею.

Несмотря на то, что этот поисковик совершенно не знает, какая погода сейчас в Москве, он все равно семантический, потому что он знает, что не знает о погоде. И к тому же он понимает, что пользователь продолжает задавать один и тот же вопрос, просто в разных формулировках.

Люди очень быстро понимают, что два вопроса могут быть разными формулировками одного и того же. А вот поисковые системы обычно это не понимают. И до тех пор, пока они этого не понимают, они не могут называться семантическими. Поэтому запросы «Топ-10 песен» и «десять лучших песен» выводят различные, но практически равнозначно релевантные результаты. Хотя поисковики не должны этого делать.

Это не технологии, которые вы используете, а результат, которого вы достигаете...

Отражением семантичности поисковика можно считать уровень изменения результатов при перефразировании одного и того же запроса. Чем сильнее они отличаются, тем меньше возможности назвать этот поисковик семантическим.

Не имеет значения, каким образом достигается неизменность результатов при переформулировке запроса, т.е. не важно, какая используется технология (обработка натурального языка, статистический анализ серии запросов). Важен результат. Если результаты изменяются сильно, это означает, что пользователям приходится больше думать, чтобы правильно сформулировать свой запрос. А это означает, что поисковые системы плохо выполняют свою работу. Они не стараются сделать процесс поиска для пользователя проще.

Мы предполагаем, что с помощью нескольких показателей, измеряющих изменения результатов, выдаваемых поисковой системой на переформулированный запрос, можно определить уровень семантичности поисковика. Например, к таким показателям можно отнести изменение положения на странице выдачи результатов единственно правильного ответа или изменение порядка всех результатов при переформулировании запроса.

Выводы

  1. В большинстве поисковиков результаты сильно изменяются от вида запроса. Современные поисковики все еще сильно зависят от формулировок запроса. В большинстве своем они основаны на ключевых словах, и далеки от понимания человеческого языка запросов.
  2. Поисковые запросы с единственно возможным вариантом ответа (В каком году родился Гагарин?) хорошо воспринимаются поисковыми системами. Ответы на них на удивление мало отличаются при изменении порядка слов или переформулировке поискового запроса. Но скорее всего это заслуга не поисковиков, а Интернета, а, точнее, большого количества информации во всемирной сети, ее переписывании в различных вариантах от сайта к сайту, особенно информации на популярные темы. Это помогает поисковым системам найти правильный ответ опять же по ключевым словам.

По-настоящему семантический поисковик заботится о неизменяемости результатов при переформулировании запросов. Он собирает в одном кластере все возможные варианты одного и того же по смыслу запросу, чтобы предоставить одинаковые результаты, касающиеся как запросов на популярные, так и на нераспространенные темы.

Данные, которые мы собрали, подтверждают, что среди основных поисковиков даже простые перефразирования сильно изменяют результаты выдачи. Например, изменение числового написания «10» на текстовое «десять» меняет результаты в зависимости от варианта написания, которое присутствует на веб-странице. Также результаты меняются от добавления лишнего слова в запрос.

Ключевые слова, используемые в запросе, их порядок, сильно влияют на ранжирование результатов на странице выдачи. Это неприемлемо при семантическом поиске, задачей которого является снятие с пользователя тяжести «правильной формулировки запроса» для получения правильного ответа.


Оригинал статьи


(Голосов: 5, Рейтинг: 5)