Россия+7 (495) 960-65-87

Как поисковик может определить релевантность по связанным запросам

Россия+7 (495) 960-65-87
Шрифт:
0 5002

Знаете ли вы, что поисковики могут пытаться убедиться в релевантности собственной выдачи? Как именно они это делают можно узнать из недавно одобренного патента Yahoo.

Прежде, чем перейти к описанию автоматической проверки релевантности и вариативности (распределения результатов по значениям в случае многозначного запроса), в патенте описываются недостатки ручной проверки и определения релевантности на основе данных о переходах.

Ручная проверка релевантности

Одним из вариантов проверки релевантности результатов поиска является проверка человеком результатов по каждому запросу. Это занимает довольно много времени, существует вероятность человеческой ошибки, а покрыть проверкой все запросы, встречающиеся в сети просто невозможно.

Даже сейчас можно найти объявления о вакансиях «Internet Judges». В частности, такие объявления размещала компания LionbridgeTechnologies, с которой ранее сотрудничали Google. Да, поисковые машины используют ручную проверку и систему «интернет судей». Людьми являются и футбольные судьи. Они никогда не ошибаются, правда?

Отслеживание переходов

В одном из патентов Yahoo описывается система ранжирования изображений, основанная на кликах по ним пользователей. Предполагается, что по релевантным запросу изображениям пользователь кликнет и перейдет на интересующую его страницу. Следовательно, в выдаче по запросу картинки, по которым чаще кликали, поднимались, а те, которые «незаслуженно» занимали высокие места, постепенно опускались вниз.

Что ж, с картинками, где существует предварительный просмотр, эта система вполне может работать эффективно. А что насчет текстовых страниц? Проблема в том, что люди видят в выдаче лишь заголовок страницы, краткую аннотацию и адрес страницы. Эти данные не обязательно адекватно представляют содержание страницы. Следовательно, даже переход по ссылке не гарантирует релевантность страницы в выдаче.

Алгоритм для определения релевантности и вариативности поисковых результатов

Процесс, запатентованный Yahoo, использует информацию недавних поисков для определения сочетаемости результатов поиска с текущим запросом.

Автоматическая проверка релевантности и вариативности для веб и вертикальных поисковых машин

Изобретено Jignashu G. Parikh

Принадлежит Yahoo

US Patent 7,558,787

Одобрено 7 июля, 2009

Подано на рассмотрение 5 июля, 2006

Аннотация

Представлена техника автоматической проверки релевантности и вариативности поисковых результатов.

Поисковой машине направляется запрос, на основании которого при помощи поискового алгоритма машина выдает поисковые результаты. Определяется набор топовых и связанных терминов для запроса. Для каждого связанного термина определяется его частота относительно остальных терминов в наборе. Если термин не встречается ни в одном из результатов, то случилась потеря в вариативности пропорциональная относительной частоте связанного термина.

Иначе, релевантность поисковых результатов вычисляется сравнением пропорции результатов, содержащих термин, с относительной частотой термина. Этот процесс повторяется для всех терминов в наборе или связанных терминов для того, чтобы получить полную картину релевантности и вариативности результатов.

После того, как пользователь нажимает кнопку поиска, поисковая машина выдает набор результатов, ранжированных согласно поисковому алгоритму. Алгоритм, используемый для ранжирования этих результатов, обычно включает в себя элементы измеряющие релевантность и важность страниц соответствующих искомому запросу.

Этот патент описывает интерфейс тестирования, который поисковые алгоритмы и разработчики поисковых машин смогут использовать для проверки вариативности и релевантности поисковых результатов.

Использование связанных терминов

Этот процесс определения релевантности и вариативности поисковых результатов начинается с определения терминов, которые могут быть связаны с искомым запросом.

Кто-то ищет «Amazon», поисковая машина получает результаты, связанные с запросом, и отображает их пользователю.

Появившиеся результаты могут относиться к магазину «Amazon.com» или к реке Амазонке. Автоматически точно определить требуется ли пользователю информация о первом, втором или чем-то третьем невозможно. Но поисковая машина может обратиться к логам запросов и сессий и другим наборам данных для определения различных значений запроса.

Именно эти суб-концепции вы можете увидеть в поисковом предположении поисковой машины. О том, как они формируются, мы уже писали ранее.

Также поисковые машины отслеживают время поиска запросов, что может быть полезным при поиске информации, зависящей от времени.

Так что если на Амазонке два месяца назад случилось землетрясение, то логи запросов того времени могут содержать много запросов «Amazon earthquake». Через месяц количество поисков по этому запросу будет гораздо меньше и «amazon earthquake» может уже не считаться связанным запросом, каковым он, несомненно, считался сразу после описанных событий.

Поиск в логах недавних запросов покажет, как много раз вводились запросы, влючавшие в себя или вводившиеся вместе с «Amazon». Так что если запросы «amazon books», «amazon river» и «amazon rainforest» часто встречались в исследуемых логах, то они будут отображены как связанные. Также поисковые машины могут проверять в логах, какие запросы вводились за одну сессию с запросом «Amazon».

Относительная частота терминов и проверка релевантности

Как только поисковая машина определила набор связанных терминов для запроса, она может вычислить относительную частоту каждого из этих терминов относительно оригинального запроса в логах поиска. Вот пример того, как может проходить такой подсчет. Выдержка из патента:

Например, обращаясь к таблице 216, F.sub.term термина «books» равняется 25. Это означает, что «books» встречается вместе с «Amazon» 25 раз в выбранной части лога запросов 210, показанного в таблице 212. Далее, F.sub.total равно 50, соответствуя общему числу совместных появлений для всех терминов в наборе таблицы 216.

Следовательно, можно сделать вывод, что F.sub.relative для термина «books» является 25/50 или 50%. Далее в таблице 216 содержатся относительные частоты всех терминов в наборе связанных терминов. Конкретнее, частота «rainforest» равна 12/50 или 24%, «river» 8/50 или 16%, и «fish» 5/50 или 10%.

Относительная частота терминов для каждого связанного термина в наборе также используется для определения вариативности. Эти соотношения могут быть использованы для оценки результатов поиска.

Если вы смотрите на топ-10 страницы выдачи (или контент найденных страниц) по запросу «amazon», то содержит ли половина результатов слово «books»? Содержит ли четверть из них слово «rainforest»? Упоминается ли слово «river» в двух из них? И есть ли хоть одно с упоминанием слова «fish»?

Если соотношения между логами запросов и результатами поиска почти совпадают, то это может служить признаком высокой релевантности выдачи. Также это свидетельствует о правильной вариативности.

В патенте также содержится предупреждение о том, что некоторые результаты поиска могут быть в высшей степени релевантны, но при этом страдать от недостатка вариативности в случае, если запрос не содержит множества значений, и связанные термины не относятся к различным темам.


Переводной материал, источник


(Нет голосов)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Сколько ссылок помогут продвинуть молодой сайт
    Павел Андрейчук
    41
    комментарий
    0
    читателей
    Полный профиль
    Павел Андрейчук - Дело в том, что вряд ли в ваших платных "качественных" кейсах найдётся хоть пару % действительно новой и полезной информации которой бы не было на общедоступных источниках.
    Google Data Studio: делаем красивые отчеты по контекстной рекламе для клиентов
    Никита Кудрин
    1
    комментарий
    0
    читателей
    Полный профиль
    Никита Кудрин - Все понимаю, кроме того как сделать что бы наименования показателей и параметров не менялись на англоязычные при выборе источника.
    Сайт на WordPress: за и против
    Мира Смурков
    1
    комментарий
    0
    читателей
    Полный профиль
    Мира Смурков - Людмила, я согласен с большинством комментаторов. Вы хоть один полноценный магазин сделали на этих движках? Woocommerce это система с супер возможностями. И к ней есть дополнительные модули, с функционалом, который вряд ли появиться на Битрикс. А самому это программировать - сотни тысяч рублей на разработку. А приведя в пример сложности с robots.txt и Sitemap вы ставите под вопрос вашу компетенцию в понимании Интернет-бизнеса и веб-разработки в целом. Во-первых это такие мелочи, а во-вторых это все делается на вордпресса за 2 минуты, и опять же с возможностями многократно превышающими Битрикс.
    Обзор популярных CMS: плюсы и минусы
    Андрей Литвиненко
    2
    комментария
    0
    читателей
    Полный профиль
    Андрей Литвиненко - + там где нужно прописать каноникал, там где нужно поставить мета тег ноиндекс (т.к. Гугл не всегда следует правилам robots.txt) ну и то что выше, к техническим сео возможнлстям можно еще отнести легкое и хотя бы полуавтоматическое добавление микроразметки по сайту, увы "из коробки" такого функционала нет ни в одной cms, все на допиливаниях
    Google обошел Яндекс по популярности в России в 2018 году: исследование SEO Auditor
    Рамблер
    1
    комментарий
    0
    читателей
    Полный профиль
    Рамблер - Вот вроде отечественный - это сказано верно.. «Я́ндекс» — российская транснациональная компания, зарегистрированная в Нидерландах. Так говорится в Википедии. И с хрена ли ОТЕЧЕСТВЕННЫЙ поисковик зарегистрирован в Европе? И где платится основная часть налогов? Ну-ууу, точно не в России. И если запахнет жаренным, то был Яндекс и нет Яндекса!
    8 методик в SEO, от которых давно пора отказаться
    Евгений Сметанин
    12
    комментариев
    0
    читателей
    Полный профиль
    Евгений Сметанин - Факторов вообще очень много, согласитесь, вы будете использовать максимальное их количество, особенно, если в ТОПе засели агрегаторы с сумасшедшими ПФ. В таких случаях, вхождение ключа в домен для маленького профильного сайта, сыграет свою положительную роль. Конечно же, если контент на страницах хорошего качества. У меня есть несколько успешных кейсов на эту тему. На сайте продают несколько видов товаров, а выстреливает в ТОП тот, название которого присутствует в доменном имени. Как корабль назовешь, так он и поплывет, верно?))
    Как выбрать подрядчика для продвижения сайта: 7 уровней воронки поиска
    aashutosh
    1
    комментарий
    0
    читателей
    Полный профиль
    aashutosh - data science training institute in noida- Webtrackker Technology (8802820025) providing Data Science Training in Noida. Get ✓ 40 Hours Learning training✓ 70 Hrs Projects ✓ 24 X 7 Support ✓ Job Assistance. WEBTRACKKER TECHNOLOGY (P) LTD. C - 67, sector- 63, Noida, India. E-47 Sector 3, Noida, India. +91 - 8802820025 0120-433-0760 +91 - 8810252423 012 - 04204716 EMAIL:info@webtrackker.com webtrackker.com/Best-Data-Science-Training-Institute-in-Noida.php
    Как построить качественный ссылочный профиль на основе конкурентов
    Ирина
    5
    комментариев
    0
    читателей
    Полный профиль
    Ирина - Давно сотрудничаю с megaindex.com и считаю данный сервис одним из лучших в сео сегменте рунета да и не только рунета. Пользуюсь их инструментами для аналитики своих работ и выявлению своих и чужих ошибок. Да и ссылочный профиль, как и говорится в данной статье сделать гораздо проще и правильней при помощи как раз мегаиндекса. Добавлю еще что инструмент для поиска конкурентов у мегаиндекса очень удобный и простой в применении.
    6 причин, почему нет позиций и трафика
    Артур Латыпов
    0
    комментариев
    0
    читателей
    Полный профиль
    Артур Латыпов - Леонид, да 3 пункта повторяется, согласен. Но сильно актуальны и сейчас, смотрим на сайты, приходящие на SEO, которые ранее продвигались, практически на всех можно что из 6 пунктов найти, исправить и ситуация улучшиться оперативно.
    Google назвал три главных SEO-фактора
    Павел Андрейчук
    41
    комментарий
    0
    читателей
    Полный профиль
    Павел Андрейчук - Я бы не стал утверждать что это так. У меня есть ресурс где ссылок.. ну я не знаю, полтинник может быть, вручную проставленные года за 2 и позиции хорошие по могим запросам именно в гугле, в то время как в Яндексе позиции ниже. Хотя конечно с ссылками позиции были бы лучше, наверное, но владелец увы не выделяет бюджет на ссылки.
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    346
    Комментариев
    262
    Комментариев
    247
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    104
    Комментариев
    97
    Комментариев
    97
    Комментариев
    96
    Комментариев
    80
    Комментариев
    77
    Комментариев
    67
    Комментариев
    63
    Комментариев
    60
    Комментариев
    59
    Комментариев
    57
    Комментариев
    55

    Отправьте отзыв!
    Отправьте отзыв!