Как работают асессоры Google

Россия+7 (495) 960-65-87
Юлия Вронская
0 2231
Шрифт:

Скотт Хуффман (Scott Huffman) руководит командой оценки поиска Google, которая исследует влияние каждого небольшого изменения на выдачу поисковой системы. В интервью Хуффман объяснил, как Google проводит поисковые эксперименты, как работают ассесоры и чем занимается весь отдел оценки качества поиска.

Чем занимается команда оценки качества поиска?

Мы стараемся измерить, насколько хорошо работает поиск Google по всем параметрам, которые мы только можем представить. И мы делаем это, оценивая разные типы запросов: около ста видов локальных запросов с уточнением страны и языка, запросы разной длины и различной частотности, транзакционные и информационные запросы. Мы также оцениваем, насколько качественен поиск по этим запросам вне Америки, в Швейцарии и Франции, например.

И мы оцениваем качество двумя способами. Один процесс идет постоянно – мы хотим знать, как меняется качество поиска со временем, и мы отслеживаем результаты поиска по выбранной группе запросов. Второй процесс включается, когда нашей команде необходимо оценить изменения, которые произошли с поиском после введения конкретных мер по улучшению поиска

Можете объяснить мне, как вы подходите к оценке качества поиска?

Мы используем два способа для оценки качества поиска. Во-первых, у нас есть асессоры по всему миру, для которых мы разработали систему оценки. Это происходит так: Вот запрос, вы говорите на французском и живете в Швейцарии, вот урл. Оцените по определенной шкале, насколько урл релевантен для этого запроса, или заполните такую-то форму.

Во-вторых, мы экспериментируем с нашими пользователями. Один из типичных примеров такой оценки поиска – это изменение интерфейса поиска. Всегда сложно определить, как пользователи отнесутся к изменениям в интерфейсе.

Как вы решаете, какой запрос и урл нужно оценивать?

Мы можем оценивать одно и то же сочетание запроса и урла во времени. Мы можем проводить определенный эксперимент, исследовать новый фильтр или алгоритм ранжирования, которые меняют результаты для какого-то запроса. Поэтому нам необходимо посмотреть, релевантнее ли стали новые результаты.

Набор наших инструментов позволяет выполнить любое задание. Определение, насколько урл соответствует запросу, - это одно из заданий, которое мы делаем на постоянной основе. У меня есть целая команда статистиков, которые хорошо разбираются как в экспериментальном проектировании, так и в анализе информации, которую они получают в течение этого процесса. Мы называем их «аналитики качества поиска», но на самом деле они статистики. Поэтому в некоторых случаях мы проводим особые эксперименты, чтобы измерить определенные показатели.

Вы можете привести пример, как проходит процесс оценки качества поиска?

Один из экспериментов, который мы проводим очень часто, это сравнение набора запросов и результатов, которые по нему выдаются в измененной и стандартной системе. Нам нужно увидеть случаи, в которых результаты различны. Вы можете подумать, что этот процесс напоминает мероприятия, проверяющие систему на соответствие заданному уровню качества. Но в таком процессе идет поиск багов, и их стопроцентное исправление по определенной системе является хорошим результатом.

В поиске все немного по-другому. Все, что вы делаете с ранжированием, это где-то потеря, а где-то приобретение. Поэтому если кто-то приходит и говорит: «А давайте поднимем все документы, которые начинаются с буквы А, на три позиции», - я могу поспорить. Для каких-то запросов это поможет, но в общей массе это будет катастрофа.

Как это работает на практике?

Вот пример того, что мы делаем очень часто - мы работаем над вопросом основы слова, т.е. пытаемся определить ту часть слова, которая должна ассоциироваться с запросом. Также мы работаем над синонимией, т.е. определяем, какие слова должны считаться частью запроса. Недавно у нас был проект для китайского Google, в котором инженеры делали наш механизм синонимов более жестким, агрессивным. По их мнению, в варианты запроса нам нужно включать большее количество синонимов, чтобы спектр отображаемых результатов был более широким.

Мы провели оценку, в ходе которой наши асессоры сравнивали новые и старые результаты и решали, какие из них лучше. Но они не знали, какой вариант выдачи является стандартным, а какой – измененным. Такое тестирование принесло очень хорошие результаты, и новая система синонимов оказалась для пользователя лучше старой.

Но есть еще одна вещь, которую мы постоянно делаем – оцениваем, сколько положительных и отрицательных моментов принесло изменение. То есть отвечаем на вопрос, насколько положительными являются эти позитивные изменения, и получат ли пользователи более качественный поиск. Но еще важнее – мы оцениваем негативные моменты, которые принесли изменения. И не помешают ли они качеству поиска?

И когда мы стали смотреть на результаты эксперимента с нашей системой синонимов, то оказалось, что в целом изменения были положительными; но некоторые моменты были катастрофическими. Получалось, что в некоторых случаях, я точно сейчас могу не вспомнить примеры, но, скажем, система считала «большой» и «маленький» синонимами. Было бы совсем плохо запустить такой обновленный вариант. Поэтому тогда мы решили, что лучше оставить старую систему, но обратили внимание разработчиков на хорошие стороны.

А часто ли оцениваете варианты для различных языков и стран? Изменения, которые вы делаете под эти факторы, очень специфичны?

Мы изредка делаем изменения для отдельных стран. Обычно мы внедряем изменения единовременно для всех стран. Иногда все работает хорошо везде, кроме, например, Испании. Но это нетипичная ситуация. Это бывает связано с багом или особенностью, как публикуется на сайтах материал в конкретной стране.

Могу предположить, что тестирование такого огромного количества вариантов может стать практически невозможным. Как вы этого избегаете?

Мы стараемся концентрироваться на уровне страны, в котором видим наиболее серьезное влияние изменений. Какие запросы отреагировали наиболее остро? На какие результаты стоит посмотреть? Обычно мы оцениваем модели, которые встречаются чаще, чем остальные.

Поэтому очень важно иметь команду статистиков. Одна из их обязанностей – помочь нам спроектировать такую систему оценки, которая позволит получить важную информацию. Понятно, что ежедневно пользователи Google набирают миллионы запросов, многие из которых до этого не задавались поисковой системе или не будут задаваться в будущем. И понятно, что мы не можем исследовать все запросы. В процессе оценки поиска важно понять, является ли изменение важным и какое влияние оно оказало на выдачу. А пользователи, сравнивая две поисковые системы, обычно ориентируются на высокочастотные запросы. Они вводят запрос “flowers” и потом говорят: «Один поисковик показал мне картинки, другой – сайты с магазинами цветов. Картинки мне нравятся больше». Мы имеем дело и с менее частотными запросами, и именно здесь открывается вопрос о разнице между нами и конкурентами.

Как оцениваются результаты персонализированного поиска?

Мы делаем довольно-таки специфичные оценки качества персонализированного поиска. Здесь мы не можем с таким же успехом использовать людей в качестве асессоров, потому что мы не знаем, что входит в интересы пользователей, и мы можем нарушить их частную собственность.

Для того чтобы оценить персонализированный поиск, мы проводим исследования, основанные на пользовательских кликах. Мы выбираем группу людей, для которых применен один и тот же вид персонализации, отделяем маленький процент и применяем новый вид персонализации. Потом мы сравниваем, как меняются результаты поиска для них в сравнении с контрольной группой. Все, что мы делали в течение последнего года или двух с персонализированным поиском, проходило такую проверку. Она действительно работает.

Другая задача, с которой мы работаем часто, это региональная выдача. Во многих странах говорят по-английски. Но если я набираю запрос “bank”, мне нужны разные результаты в зависимости от страны, в которой я нахожусь (Америка, Англия, Австралия, Индия). И Google сегодня выдает разные результаты. Региональное разграничение также применимо для штатов и городов Америки. Пользователи получает разные результаты, если находятся в разных штатах. Но такие задачи нам кажутся сложнее.

Кто работает асессорами?

Они не волонтеры. Мы платим им за работу на основе договоров подряда. Асессоры должны обладать базовым образованием, коммуникационными навыками и хорошим уровнем английского языка. Мы не хотим, чтобы наши асессоры обладали глубокими знаниями в области технологий. Они должны представлять наших пользователей. Мы проверяем их на способность выполнять некоторые задания и следовать инструкциям.

Можно ли как-нибудь изъявить желание стать асессором?

Агентства временного найма находят асессоров на сайтах с объявлениями. Мы платили примерно 15-17 долларов за час работы, но желание взяться за такую работу зависит от того, в каком штате вы живете. Где-то 15 долларов – это хорошие деньги; где-то – не очень. Однажды я предложил подработать своей двоюродной сестре, которая живет в Южной Дакоте. И когда она услышала, что ей будут платить 16 долларов в час, она очень обрадовалась.

Насколько важны асессоры-люди по сравнению с автоматическими методами?

Асессоры-люди сегодня для нас очень важны. Автоматические методы и исследования, основанные на кликах, дополняют картину. Но везде есть недочеты и промахи. Люди ошибаются. Клики тяжело интерпретировать, потому что есть масса причин для пользователя кликнуть или не кликнуть на ссылку. Клики, несомненно, показывают, что делают пользователи; и вы можете получить огромное количество кликов. Но их тяжело интерпретировать. Когда поиск оценивают пользователи, они допускают ошибки. Но для конкретных примеров мы можем пойти дальше. Редкие запросы могут рассматривать и оценивать наши инженеры по ранжированию.

Мы обращаем большое внимание на те случаи, где мы не получаем единого мнения. У нас были случаи, когда асессоры воспринимали изменение как позитивное, а исследование кликов указывало на то, что изменение негативно сказалось на результаты поиска. Или наоборот. И нам приходилось разбираться, правильно ли мы задаем вопрос асессорам и не ошибаемся ли, расшифровывая данные о кликах.

А как работает автоматическая часть оценки качества поиска?

У нас есть довольно сложная всеобъемлющая система, которая использует различные данные, чтобы подтвердить результаты. Это похоже на работу дата-центра, то есть наша система постоянно работает: проверяет использование памяти или другие показатели производительности.

С оценкой качества поиска мы делаем что-то похожее. Постоянно в каждом из наших дата-центров проверяется большое количество запросов, и мы просматриваем результаты, чтобы убедиться, что у нас правильно настроены критерии качества. Есть набор запросов, который мы тестируем постоянно и которые оценивают наши специалисты.

Недавно представители Google говорили, что количество изменений увеличилось. В последнее время вы проводите больше тестов?

За последние пару лет мы провели примерно несколько сотен тестов. Сейчас, скорее, интенсивность выровнялась после нескольких лет постоянного увеличения изменений. Сейчас мы много работаем над пользовательским интерфейсом. Мы стараемся проводить больше экспериментов – иначе как мы выйдем за границы возможного? ;)

Нам не хочется быть просто десятью синими ссылками. Я вижу нас более агрессивными, с большим количеством новых функций, появляющихся на странице результатов поиска. Даже если сравнить современную страницу поиска с той, которую пользователи видели два года назад, то разница заметна.

Почему она постоянно меняется? Что заставляет Google делать эти перемены?

Google постоянно работает над механизмом ранжирования. И здесь мы быстро двигаемся. Со стороны интерфейса пользовали сейчас ожидают большего от поисковой системы. Частично это связано с теми функциями, которые вводил Google.

Когда я набираю “movies” в Google, я ожидаю, что поисковик будет знать, где я нахожусь и выдаст расписание фильмов, которые идут в местных кинотеатрах. Когда я набираю “pizza in san francisco,” я хочу увидеть карту и ссылки на хорошие места, где можно заказать пиццу, желательно с отзывами пользователей.

С другой стороны, 10 синих ссылок – это именно то, что пользователи ожидают увидеть. Глаз пользователя привык к такому виду результатов поиска, и поэтому может легко найти ответ. И изменений внешнего вида результатов может разрушить весь процесс поиска. Поэтому я не думаю, что мы готовы изменить страницу результатов кардинально.

То новое, чего ждут пользователи от поиска, будет связано с большими изменениями в интерфейсе?

Я не думаю, что мы уже добрались до этой точки. Когда я размышляю, почему не удается универсальный поиск, мне кажется, это не связано с невозможностью создать хорошую страницу результатов поиска, которая будет содержать различные виды информации. Это какая-то осечка: на странице отображается то, что не должно. Но сломана не парадигма, поэтому универсальный поиск будет работать.

Что удерживает специалистов по оценке качества поиска в вашей команде?

Люди, которые здесь работают, не просто специалисты мирового уровня, они еще и любят свою работу. Поиск – это очень интересная область. Это не одноразовый процесс создания дополнения, когда основная проблема решена сразу после завершения процесса.

В поиске все время есть набор сложных, интересных задач. Мы даже не близки к тому, чтобы поисковые задачи закончились.

Перевод под редакцией Юлии Вронской, SEOnews.

Оригинал интервью

Читайте нас в Telegram - digital_bar
Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Рейтинг «Известность бренда SEO-компаний 2017»: народное голосование
    Гость
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость - 1) Ingate 2) Ашманов 3) Кокос 4) Russian Promo 5) Netpeak
    «Баден-Баден»: как выйти из-под фильтра
    Сергей Дембицкий «Sima-Land.ru»
    17
    комментариев
    0
    читателей
    Полный профиль
    Сергей Дембицкий «Sima-Land.ru» - Скрины Метрики показывать не буду, но мы (sima-land.ru - 1,5 млн. стр. в поиске Яндекс) в сентябре загремели под ББ, в разгар сезона и вышли из-под фильтра, спустя 50 дней, удалив все тексты с сайта: категории + карточки товаров (описание). Трафик с Google только вырос. Тексты возвращать собираемся, но процесс будет длительный, тексты будем теперь писать исключительно полезные, т.к. было больно :-))
    Второе дыхание ссылочного продвижения
    Автопилот
    14
    комментариев
    0
    читателей
    Полный профиль
    Автопилот - Еще лучше, когда продвижение осуществляется комплексно :)
    «Прямая линия» с Александром Алаевым («АлаичЪ и Ко»): отвечаем на вопросы
    Александр Алаев
    13
    комментариев
    0
    читателей
    Полный профиль
    Александр Алаев - Роман. Тут ответ очень простой. Каждый запрос можно четко разделить на коммерческий или некоммерческий. "Купить слона" и его длинные хвосты - коммерческий. "Как выбрать слона" и подобные - информационные. Вот под коммерческие ключи должны быть страницы услуг или каталога товаров. А под информационку - блог. Очень важно не путать их, тем более несоответствующая коммерческим факторам страниц просто не продвинется, то есть по запросу с "купить" блог никогда не будет показываться в выдаче, так же как и страница услуги/товаров не покажется по "как выбрать". Понятно примерно?
    Западные специалисты выяснили, как повысить позиции ресурса в выдаче Google
    Максим Мирошник
    2
    комментария
    0
    читателей
    Полный профиль
    Максим Мирошник -
    Кейс: продвигаем бизнес по продаже пластиковых окон в Москве
    Иван Стороженко
    5
    комментариев
    0
    читателей
    Полный профиль
    Иван Стороженко - 1. По началу вообще не использовали, сейчас уже много каналов используется. 2. Все может быть, в принципе сайты должны быть удобны для пользователя, для этого и нужна схожесть между собой. Честно говоря старались брать все самое интересное у конкурентов + подкреплять своими идеями.
    Инфографика: самые распространенные SEO-ошибки Рунета
    Dmitro Grunt
    2
    комментария
    0
    читателей
    Полный профиль
    Dmitro Grunt - Кстати, у проектов которые продвигает Нетпик все тайтлы не более 65 символов? Или вы надеетесь что кто то послушает советов и отдаст вам часть трафика? :-)
    Google.ru внесли в реестр запрещенных сайтов
    Гость
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость - Гон, все работает и будет работать. Да и пусть банят, будет как с рутрекером.
    День рождения SEOnews: 12 лет в эфире!
    Анна Макарова
    314
    комментария
    0
    читателей
    Полный профиль
    Анна Макарова - Ура )
    «Прямая линия» с Артуром Латыповым: отвечаем на вопросы
    God Koss
    1
    комментарий
    0
    читателей
    Полный профиль
    God Koss - Добрый день! Есть сайты одной компании продвигающиеся в разных странах. .ru .com .net. На российском сайте два языка ru и en, на остальных до 10 языков. Недавно сайт ru по основному брендовому запросу выпал из выдачи Яндекс но после апа вернулся на вторую позицию. На вопрос аффилирования в тех поддержку, получит ответ, что всё в порядке и сайт com не учавствует в выдаче. Но он есть и занимает 1 место. Как быть в данной ситуации? Так же, после возврата в топ 10 по этому запросу зашла еще одна внутренняя страница. Могло ли это случиться из-за каннибализации запроса? Немного изменил description на внутренней, исключил вхождения брендового запроса. Жду апа. Хотел бы услышать ваше мнение. Заранее благодарю!
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    314
    Комментариев
    262
    Комментариев
    229
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    80
    Комментариев
    78
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    55
    Комментариев
    54
    Комментариев
    52
    Комментариев
    49

    Отправьте отзыв!
    Отправьте отзыв!