Xerox запустил семантический поиск

Накануне компания Xerox представила поисковый механизм, базирующийся на семантическом анализе. Система получила название FactSpotter. В ее основу положен специальный метаязык, описывающий особенности грамматики. Поисковик, в частности, может быть совмещен со средствами распознавания речи для анализа аудиоданных.

FactSpotter анализирует содержимое документа, а не просто выдает список результатов в соответствии с заданными ключевыми словами. Например, определяет, что словосочетания "Билл Гейтс" и "основатель Microsoft" внутри одного и того же документа, вероятнее всего, указывают на одного человека. Таким образом, предоставляется лишь та информации, которая соответствует вопросу по смыслу. Документы или страницы могут быть представлены в результатах поиска лишь частично, система автоматически отбросит малозначимые части файлов.

"Во всех языках есть масса слов, которые в зависимости от контекста обозначают совсем разные вещи. Современные поисковые системы не способны понять контекстные различия. Хитрость заключается в комбинации слов", - говорит Фредерик Сегонд, работник исследовательской лаборатории Xerox в Гренобле (Франция).

По словам разработчиков, новый алгоритм работает примерно так же, как и человеческий мозг - FactSpotter один из немногих алгоритмов, способный заниматься семантическим парсингом запросов. В дальнейшем системе можно будет просто задавать вопросы и в ответ получать ответы, сконструированные на основе анализа хранимых в базе документов или страниц в интернете.

Разработка системы заняла более 4 лет. Коммерческое использование FactSpotter начнется в 2008 году, когда не его базе будут созданы несколько крупных юридических систем с десятками тысяч документов в базе.

(Голосов: 5, Рейтинг: 5)