×
Россия +7 (495) 139-20-33

Ранжирование Google News

Россия +7 (495) 139-20-33
Шрифт:
0 4405

Являются ли большие новостные агентства с широким международным покрытием различных тем, огромным количеством репортеров, отредактированными статьями и т.п. лучшими источниками новостей, чем более мелкие локальные газеты или нишевые блоги?

На этой неделе был опубликован патент, поданный в 2003 году, и касающийся ранжирования статей в Google News. В нем обсуждается несколько факторов, которые могут быть использованы для представления новостных статей, основываясь на качестве источника.

Что еще более интересно, патент намекает также на предположения, которые лежат в основе факторов ранжирования. Впрочем, вполне возможно, что за прошедшие годы Google уже изменили некоторые подходы.

Патент не включает в себя описание всех сигналов, которые, возможно, учитывает Google при ранжировании новостных статей.

Также была опубликована техническая, но от этого не менее интересная, статья о поиске в реальном времени, или близко к реальному времени, источника информации в новостных статьях, постах в блогах или веб-страницах. Называется она Detecting the Origin of Text Segments Efficiently (Эффективное определение источника текстового фрагмента) и доступна в формате pdf.

Предпосылки к развитию систем для оценки качества новостных статей описаны в начале патента:

Предположим, например, что человек желает получить последние новости по определенной теме в интернете. Человек обращается к сайту, на котором есть условная поисковая машина. Человек вводит один или несколько терминов, относящихся к интересующей его теме вроде „Ирак“ в поисковую машину для того, чтобы найти источники новостей, предлагающие статьи по данной теме.

Такое использование поисковой машины для нахождения отдельных сайтов, предоставляющих статьи по искомой теме, часто приводит к выводу ранжированного списка в сотни, а то и тысячи пунктов длиной. Каждый из пунктов списка будет соответствовать странице, соответствующей поисковому запросу.

И хотя каждый пункт в ранжированном списке может относиться к искомой теме, источники новостей у них могут различаться по качеству.

Например, CNN и BBC широко признаны высококачественными источниками достоверной информации, профессиональных статей и т. д. В то же время местные источники новостей, вроде общегородских газет, могут быть менее качественными.

Следовательно, существует необходимость в системах и методах улучшения ранжирования новостных статей, основанных на качестве источников новостей с которыми связаны статьи.

Я сомневаюсь в предположении, что источники вроде CNN и BBC могут всегда быть лучше местных источников новостей. Зачастую возможно, что именно местные журналисты и новости могут предоставить детали, предположения и информацию, которую упускают большие организации. Тем не менее, на факторы, указанные в патенте, стоит взглянуть.

Патент:

Системы и методы улучшения ранжирования новостных статей

Изобретатели: Michael Curtiss, Krishna Bharat, Michael Schmitt

Принадлежит Google

US Patent 7,577,655

Одобрено 18 августа 2009

Подано на рассмотрение 16 сентября 2003

Аннотация

Система ранжирует результаты. Система может получить список ссылок. Система может определить источники, к которым относятся ссылки и ранжировать список хотя бы частично основываясь на качестве определенных источников.

В центре внимания патента находится метод ранжирования источников статей на одну тему с целью презентации их в определенном порядке или определения, какие из них стоит отобразить на главной странице Google News или в поисковых результатах Google News.

Процесс ранжирования источников новостей основывается на рассмотрении некоторого количества параметров каждого источника, которые оценивают определенные атрибуты источника.

Вот эти параметры:

Количество статей, появляющихся в источнике за определенный период Предположительно, чем больше статей (уникальных) появляется за период времени в источнике, тем лучше. Как альтернатива, поисковой машиной может рассматриваться количество предложений, опубликованное за определенное время.

Средний объем статьи в источнике Может измеряться в словах или предложениях. Если у CNN в среднем 300 слов на статью, а у местной газеты — 150, то CNN может получить значение этого параметра равное 300, а газета — 150.

Получается что более длинные статьи лучше? Если поисковая машина сравнит топ-100 статей за прошедшую неделю на сайте CNN и на каком-то другом сайте, то будет ли означать больший объем статей более высокое качество? Или сравниваются статьи, написанные по одному информационному поводу? И в таком случае опять же, будет ли более объемная статья более качественной?

Счет горячих новостей Как скоро после важного события новость о нем будет опубликована? Если будут собраны все новости о событии, а затем проведен анализ времени их публикации, то опубликованные раньше всех статьи получат более высокий «счет горячих новостей»,

Паттерн использования Если поисковая машина отслеживала бы количество людей, перешедших по ссылке на определенный источник новостей, в случае предоставления им ссылки в результате поиска, то какие источники предпочитали бы люди? Своеобразное измерение популярности источников новостей.

Мнение людей об источнике новостей Можно провести опрос среди пользователей поисковой машины. Возможны и другие методы измерения. Например, газеты можно сравнивать по количеству полученных Пулитцеровских премий. Также может учитываться возраст источника новостей как «мера доверия общества». Возможно предоставление людям частей статей из разных источников для оценки.

Статистика циркуляции источника новостей Может быть использована статистика циркуляции печатных публикаций источника новостей, статистика от Media Metrix и Nielsen Netratings и другие способы измерения трафика источника.

Размер коллектива, работающего в источнике новостей Может учитываться количество различных имен журналистов в статьях.

Количество новостных бюро, связанных с источником новостей Это, похоже, относится к большим и давно работающим новостным агентствам.

Оригинальные наименования в статьях источника новостей

Под наименованием в данном случае подразумевается имя, название местности, организация или любая вещь, имеющая собственное название.

В случае, когда собраны все статьи об определенном событии, и одна из них упоминает наименования, которые не упоминаются в других статьях, эта одна статья получит более высокий рейтинг. Этот параметр может показывать, что источник новостей «способен создавать оригинальные репортажи». Но есть и некоторые ограничения к применению этого подхода. Например, должны учитываться даты выхода статей с наименованиями, чтобы знать в какой статье и когда впервые появилось новое наименование. Также при определении уникальности наименования поисковая машина может обращать внимание на варианты написания и аббревиатуры.

Количество тем, на которые создается контент в источнике новостей Статьи могут быть рассортированы по темам и диапазон тем может быть использован для определения глобальности источника. Похоже, что данный параметр отдает предпочтение источникам с большим количеством обсуждаемых тем. Но ведь возможно, что статьи нишевого узконаправленного источника будут гораздо более качественными в своей теме.

Международное разнообразие Тут оценивается количество стран из которых идет трафик на новости в сети. Поисковая машина может обращать внимание на что-то вроде IP адресов людей, переходящих по ссылкам на новости, для определения как широка международная аудитория источника.

Стиль изложения новостей Поисковая машина может использовать автоматическую оценку для анализа орфографии, грамматики и уровня читабельности статей в источнике.

Также могут учитываться и другие факторы вроде количества ссылок на сайт.

Выводы

Google подавал множество патентов, связанных с Google News, но ни один из них не углублялся в такие детали используемых при ранжировании статей факторов и сигналов.

Несмотря на то, что патент был подан на рассмотрение почти 6 лет назад, он позволяет кое-что узнать об алгоритмах оценки новостных статей. Возможно, какая-то версия этого алгоритма используется и по сей день. Возможно, до сих пор используются некоторые факторы и параметры.

Впрочем, некоторые предположения в патенте вызывают сомнение.

Например, представим, что произошло серьезное открытие в физике. Известный сайт о физике опубликовал детальную статью об открытии. Но чуть раньше статью опубликовали на сайте международной новостной компании, которой больше сотни лет, у которой офисы по всему миру и гораздо большие объемы циркуляции материала. При этом статью писал журналист не особо разбирающийся в физике. Какую из этих статей предпочли бы вы, если бы интересовались физикой?


Переводной материал, источник


(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Ане Макаровой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Что скрывает «Прогноз бюджета Яндекс.Директ»?
Михаил Мухин
14
комментариев
0
читателей
Полный профиль
Михаил Мухин - Здравствуйте! 1-2. Считает стенд. Ссылка на него дана, но могу повторить: online.p-c-l.ru/competition/task/card/id/106. Нажмите на кнопку "Начать" и заранее приготовьте прогноз бюджета Яндекс. Суть расчета: перебор комбинаций всех ставок на всех фразах, построение бюджетных когорт - бюджетов с одинаковым СРС, отбор в каждой когорте бюджета с максимальным количеством кликов и ..., да упорядочивание этих бюджетов по мере возрастания СРС, причем берем не все, а с фиксированным шагом. 3. Гугл считается через поправочные коэффициенты. Мы перевариваем океан данных и представляем их. На удивление, получается не менее, хотя и не более точно, как и прогноз Яндекс. Конечно, нужно понимать, что это очень примерные прикидки, фактически перевод неточного прогноза Яндекс в удобочитаемую форму, не больше. Самое интересное начинается, когда применяешь метод бюджетных когорт к измерению показателей фраз на реальной рекламной кампании в режиме 48х7. Первые результаты очень хорошие. Если хотите присоединиться к бесплатному тестированию, напишите Эльвире r-support@r-broker.ru. В теме укажите "хочу присоединиться к тестам Умного управления рекламой"
#SEOnews14: мы празднуем – вы получаете подарки!
Анна Макарова
362
комментария
0
читателей
Полный профиль
Анна Макарова - Гость, добрый день! С победителями мы связывались сразу после розыгрыша. Если мы вам не написали, значит, ваш номер не выпал. Но не расстраивайтесь, у нас обязательно будут новые розыгрыши!
Ссылочное продвижение локальных сайтов: ТОП худших SEO-методов
demimurych
5
комментариев
0
читателей
Полный профиль
demimurych - о господи. это для регионального сайта? в яндексе? где у сайта по региону конкурентов меньше чем выдачи на двух страницах из которых перваш это реклама москвы? потешно ей богу. ктото чего то не понеимает.
Как ускорить сайт на WordPress, чтобы получить 100/100 в Google PageSpeed Insights
Георгий
1
комментарий
0
читателей
Полный профиль
Георгий - Все что рекомендуется в этой статье есть у w.tools. Ни разу не пожалел что подключился. Своя CDN сеть, кеш статики и динамики, минификация js\css и кешируемого html, оптимизация всех типов картинок и еще куча всего полезного. Сайт летает и я не знаю проблем. Могу рекомендовать от души.
«Аудит, чтобы ты заплакала…», или Что делать, когда получил сторонний аудит сайта
Евгений
1
комментарий
0
читателей
Полный профиль
Евгений - Воообще, на самом деле здесь двоякое впечатление от таких аудитов. Конечно, для полного глубокого анализа и подготовки рекомендаций по сайту - нужны доступы к системам аналитики и инструментам вебмастера. Но если оценивать подобные аудиты с точки зрения чистого SEO (которое все больше и больше становится лишь малой частью digital-маркетинга, лишь одним из каналов) - они имеют место быть. Но с оговоркой, что они сделаны с учетом анализа конкурентов/отрасли. Современные инструменты и алгоритмы позволяют делать это маркетологам в автоматическом режиме, и даже давать рекомендации - возможностями машинного обучения уже никого не удивишь. Да, полное перечисление "мифического" списка ошибок, построенного по предикативным правилам, да еще и с учетом устаревших особенностей ПС - это явный признак некачественного аудита. В первую очередь потому, что эти "ошибки" следует рассматривать в качестве рекомендаций от ПС (как и говорится в справочнике вебмастера у Яндекса/Google). Однако если эти данные даются с отсылкой на данные о конкурентах, об отрасли, используются методы ML и Natural language processing для обработки исходных данных, кластеризации запросов, классификации страниц/запросов/сайтов, определения структуры документа - такие отчеты имеют право на существование. Но ключевым моментом является то, что подобные инструменты достаточно сложны в разработке, а значит требуют квалифицированных специалистов для их разработки. Которых просто нет у студий рассылающих подобные "сео отчеты". Подобные отчеты по "ошибках" тоже неплохой источник информации, но лишь на 0 этапе анализа сайта. И в принципе, теоретически, возможно почти полное составление "хороших аудитов" без участия маркетолога, на основе лишь открытых данных сайта/внешних источников, но только при соответствующем применении всех современных возможностей анализа данных и рекомендательных систем. И в любом случае подобный "хороший отчет" требует конечного заключения от эксперта.
От мечты стать юристом к собственному SMM-агентству. Как найти себя в современном цифровом мире
Виктор Брухис
5
комментариев
0
читателей
Полный профиль
Виктор Брухис - Статья выглядит так, как пожелали редакторы и интервьюер) Вопросы к интервью подбирал не я)) Хотя, в целом я согласен с вашим видением. А за пожелание удачи большое спасибо!
Как вывести сайт в ТОП 10 Google в 2019 году
Роман
1
комментарий
0
читателей
Полный профиль
Роман - Вот скажите пожалуйста, Мне разработали сайт на мою фирму, www.линк.kz и теперь надо решить, сео продвижение у нас стоит около 25000 - 30000 руб. в месяц, для меня сумма не маленькая стоит ли оно того? или можно просто оптимизировать сайт в плане СЕО и выходить в ТОП за счет трафика?
BDD 2019: Как перестать убивать время на сбор и обработку тонны данных для SEO-аудита
Kosta Bankovski
4
комментария
0
читателей
Полный профиль
Kosta Bankovski - Спасибо за приятные слова! Буду и дальше делиться наработками ;)
Как провести анализ содержания страниц товаров и категорий
Никита Седнин
3
комментария
0
читателей
Полный профиль
Никита Седнин - Спасибо!
Как я пытался купить CRM-систему, но мне ее поленились продать
Kristina
1
комментарий
0
читателей
Полный профиль
Kristina - Очень рекомендую CRM-систему польской фирмы Firmao. Все функции настраиваются в соответствии с индивидуальным потребностям компании! Советую попробовать бесплатную демо-версию, чтобы попробовать все необходимые функции, без лишних кнопок и траты дополнительных финансов! :) Сайт: firmao.ru/info
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
362
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
107
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
82
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
55

Отправьте отзыв!
Отправьте отзыв!