Google определяет спам-документы по фразам

Google опубликовал новый патент «Определение спам-документов, основанное на фразах». В соответствии с патентом, спам-документы определяются на основании количества соответствующих фраз, встречающихся в документе.

Процесс определения спам-документов строится следующим образом, на основе списка фраз, где каждая фраза содержит ассоциативные связи с набором соотнесенных с ней фразами, определяется количество соотнесенных фраз в документе. Далее путем сравнения фактического количества соотнесенных фраз, содержащихся в документе, с ожидаемым количеством соотнесенных фраз выявляется спам-документ.

На основе частоты использования фраз в коллекции документов выделяются «действующие» или «хорошие» фразы. Подобным образом могут быть идентифицированы фразы, состоящие из нескольких слов – к примеру, фразы из четырех, пяти, и более слов.

Напомним, некоторое время назад Google опубликовал патент «Ranking blog documents», который даёт ответ на вопрос, в зависимости от чего ранжируются блоги в результатах поиска.

(Голосов: 5, Рейтинг: 5)