Google определяет спам-документы по фразам
Google опубликовал новый патент
Процесс определения спам-документов строится следующим образом, на основе списка фраз, где каждая фраза содержит ассоциативные связи с набором соотнесенных с ней фразами, определяется количество соотнесенных фраз в документе. Далее путем сравнения фактического количества соотнесенных фраз, содержащихся в документе, с ожидаемым количеством соотнесенных фраз выявляется спам-документ.
На основе частоты использования фраз в коллекции документов выделяются «действующие» или «хорошие» фразы. Подобным образом могут быть идентифицированы фразы, состоящие из нескольких слов – к примеру, фразы из четырех, пяти, и более слов.
Напомним, некоторое время назад Google опубликовал патент «Ranking blog documents», который даёт ответ на вопрос, в зависимости от чего ранжируются блоги в результатах поиска.
Случилось что-то важное? Поделитесь новостью с редакцией.