Россия+7 (495) 960-65-87

Оценка исходящих ссылок для подсчета PR с учетом не проиндексированных

Россия+7 (495) 960-65-87
Шрифт:
1 3145

Введение

Отбор и упорядочивание результатов по запросам для трех миллиардов гипертекстовых документов, которые составляют веб-граф G(V,E), представляется работой крайне трудной, вместе с тем, очень важной. Анализу ссылочного ранжирования отводится главная роль в статье.

Постепенное разрастание и динамическая природа веб-графа вынуждают проводить анализ ссылочного ранжирования, основываясь на схемах ранжирования, подобных PageRank. При этом обязательно нужно учесть “потерянную” информацию, возникающую в связи с тем, что некоторые гипертекстовые документы не проиндексированы поисковыми системами.

В связи с этим возникает вопрос о точности рассчитанной величины PageRank: как можно оценить “потерянную” информацию и включить ее в расчет PageRank. Об этом будет сказано позже.

Итерационный расчет PageRank и недостаточные данные

Недостаток информации о ссылках со страниц, которые не были проиндексированы роботами поисковых систем, представляется в итерациях при расчете PR в качестве незаполненных строк матрицы переходов, чье стационарное распределение выражается через вектор PageRank. Под стационарным распределением понимается такое распределение вероятности, которое не меняется с течением времени.

Таким образом, необходимо либо удалить те вершины графа, которые учитываются при расчете, либо изменить предсказанное распределение (нормализованный вектор вершин графа). Далее будет показано, как недостаток информации может серьезно повлиять на точность расчета PageRank.

Но для начала дадим определение словосочетанию “точность PageRank”.

Определение №1: Дано подмножество Vk вершин графа G(V,E), реальные PR подмножества Vk – это PR, учтенные в подграфе G’(Vk,Ek) и смоделированные для вершин Vk, следовательно, G’ имеет ограничения xy∈E, x,y∈Vk

На любой стадии процесса подсчета PR все множество гипертекстовых документов V может быть разделено на подмножество проиндексированных страниц С и подмножество не проиндексированных страниц С’. Определим множество С следующим образом F={p:∃(q∈C)(q,p)∈E}. Впредь запись q→p будет использоваться для обозначения записи вида (q,p)∈E. Выделим также подмножество страниц, известных, но не проиндексированные роботами поисковых систем Fc'={F∩C'} . Ссылки с данных страниц и на эти страницы не будут учитываться при расчете PR. Также обозначим множество {C∪Fc'} уже известным Vk и введем следующее обозначение Nk=Vk.

Определение №2. “Достоверность”:Зададим неполной матрице переходов размерность N и распределение p(⋅) , чтобы получить ряды, не соответствующие заданным условиям (нормализованный вектор исходящих ссылок). Подсчет PR считается достоверным в том случае, если разница между рассчитанным и реальным PR составляет O.

Замечание №1: Для исходящих ссылок, с равномерным распределением p(⋅), расчет PR верен, если размерность подмножества неизвестных вершин веб-графа не превышает O(√Nk).

Предположим, что распределение исходящих ссылок равномерное, однако это утверждение, не является догмой. Предполагается, что выборка исходящих ссылок больше разрежена, нежели та, которая получена равномерной дискретизацией по всему множеству N. Более точное приближение может быть получено, если брать симплексы с меньшей размерностью. Под симплексом понимается геометрическая фигура, представляющая собой n-мерное обобщение треугольника.

Установим нашему симплексу размерность N. Однако, может оказаться так, что разница результатов, полученных при равномерном распределении и при выборе симплексов меньшей размерности, возрастет.

Данный момент необходимо учесть в качестве неизвестных переменных матрицы переходов. За более подробным объяснением данного аспекта нужно обратиться к источнику [2], где описывается работа исключительно с проиндексированными страницами.

Стационарное распределение может быть выявлено. Однако, окончательные PR могут быть подсчитаны только после того, как будут проделаны многочисленные расчеты. Также не стоит забывать, что только определенное количество итераций может быть использовано для расчета PR вершин из подмножества FC' .

Дальнейший анализ позволит нам определиться с PR для страниц, которые не проиндексированы.

Оценка количества “висящих” ссылок.

Рассматривается тот метод, когда будут заполняться неизвестные строки матрицы переходов переменными, не связанными с равномерным распределением. Можно предположить, что распределение значений переходов учитывает усредненное значение, чтобы под влиянием достаточно слабых ограничений перейти к стационарному распределению или к оценкам PR.

Замена неизвестных значений их ожиданиями является одним из самых известных допущений. Наиболее наглядным способом представления веб-графа является графический. График должен сыграть решающую роль в понимании основных моментов. Модель, в которой одни вершины связаны с другими вершинами пропорционально их PR вырабатывает фундаментальные законы, описанные в источнике [3].

Необходимо проводить итерационные вычисления многократно, где каждый следующий PR будет рассчитываться, заполняя при этом пустые строки матрицы. Таким образом, найдем вектор r, при замене которого как неизвестного ряда, мы вновь получим наши PR. Величину r можно будет рассчитать аналитическим путем, не прибегая к большому количеству расчетов на каждой итерации.

Замечание №2: Подсчет PR страниц из подмножества С, осуществляемый итерацией за итерацией, постепенно заполняя PR матрицу переходов, обеспечивает достоверность PR при условии, что входные данные в неизвестных строках будут иметь такое же распределение как и вектор r.

Кластеризованная оценка.

В данном случае нашей целью является оценка неопределенных рядов PR-ов матрицы T, то есть выявление условного распределения P(y2y1) и соответствующего стационарного распределение вектора новых PR-ов, вектора r. Для этого вводится динамическая модель.

Существует вероятность того, что страница , связанная со страницей , может быть выражена через множество переменных Z. Данная модель исчислена в случайных переменных Z путем введения таких ограничений, что конечные столбцы и строки имеют одинаковое распределение. Данные ограничения имеют также большую ценность в том, что совместное распределение дискретных случайных величин, может быть отражено с помощью цепей Маркова.

Таким образом, появляется возможность пусть более грубого подсчета PR, но с возможностью конечной оценки данного подсчета. Модель можно представить следующим образом:

Множество Y может быть смоделировано как фиксированное множество независимых параметров, несмотря на то, будет ли меняться множество Y или нет. Данный аспект позволяет использовать модель в качестве динамической. Однако здесь мы сталкиваемcя с очередной проблемой: как оценить P(y2)? Для этого нужно определиться с вероятностями переходов P(y2y1), которые в свою очередь требуют знания P(y2).

Введем следующие обозначения:

U[i,j]=P(Z(yi)=iyi

диагональная матрица R[i,j]=p(yi)=ri и r[i] = P(yi)

Используя равенство (1) и свойство стационарности получаем:

Составив для матриц A и U линейное уравнение Y=Nk, неизвестные могут быть найдены многочисленными итерациями с выбранной максимальной энтропией линейных ограничений.

Расстояние L1 между реальными и предсказанными строками матрицы переходов показано на рис.1 для некоторого подмножества веб-графа. Байесовский подход используется здесь для сравнения


Рис.1 Сравнение результатов предсказания веса исходящих оценка висящих ссылок, кластеризованная оценка, байесовский подход, равномерное распределение и распределение, соответствующее нулевой гипотезе.

Более полную информацию о расчете PR можно получить из следующих источников:

  1. http://www-dbv.cs.uni-bonn.de/abstracts/hofmann.TR-98-042.html;
  2. http://dbpubs.stanford.edu:8090/pub/1999-66;
  3. http://www.cs.brown.edu/research/pubs/pdfs/2005/Pandurangan-2005-UPC.pdf.

Sreangsu Acharyya, Joydeep Ghosh

Перевод под редакцией Сергея Стружкова
(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Денис Щеглов
    7
    комментариев
    0
    читателей
    Денис Щеглов
    больше года назад
    Я страюсь в такие подробности не вдаваться, если доподлинно известно, что много жирных ссылок это хорошо, то их просто надо ставить. Подобные труды хороши для тех, кто создает поисковые системы, а не для сеошников.
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Google Data Studio: делаем красивые отчеты по контекстной рекламе для клиентов
Светлана Зубрицкая
1
комментарий
0
читателей
Полный профиль
Светлана Зубрицкая - Нужно убрать пробелы между строк и заменить кавычки на вот такие "
#SEOnews14: мы празднуем – вы получаете подарки!
Rizat Sundetov
1
комментарий
0
читателей
Полный профиль
Rizat Sundetov - 14
Как ускорить сайт на WordPress, чтобы получить 100/100 в Google PageSpeed Insights
Георгий
1
комментарий
0
читателей
Полный профиль
Георгий - Все что рекомендуется в этой статье есть у w.tools. Ни разу не пожалел что подключился. Своя CDN сеть, кеш статики и динамики, минификация js\css и кешируемого html, оптимизация всех типов картинок и еще куча всего полезного. Сайт летает и я не знаю проблем. Могу рекомендовать от души.
Война с дубликатами. Как нужно и как не нужно канонизировать URL
Ann Yaroshenko
5
комментариев
0
читателей
Полный профиль
Ann Yaroshenko - Дмитрий, добрый день! Если вы проставили на странице с автозапчастями rel=canonical ( а я вижу в коде, что не проставили) или в HTTP хедере, то бот, как правило: выберит ту страницу главной, которую вы указали в rel=canonical ссылке. Eсли же вы этого не сделали, то бот сам выберит оригинал (алгоритмы, по которым бот это делает, скрыты Googl-ом)
«Аудит, чтобы ты заплакала…», или Что делать, когда получил сторонний аудит сайта
TehotdelSamara@gmail.com
4
комментария
0
читателей
Полный профиль
TehotdelSamara@gmail.com - Артур! Задели своим комментарием "за живое") Абсолютно,... целиком.... и полностью согласны с вами! А именно, с тем, что продажи клиента зависят в первую очередь от клиента, перечисленных вами выше и других факторов! А ещё с тем, что чистое SEO в классическом его понимании зачастую уже не даёт результата в виде роста продаж. Если хотим увеличить продажи - нужно бить по всем фронтам, SEO - только один из них, об этом клиент должен знать и быть предупреждён... Касательно нашей рекомендации смотреть на эффективность по тому, увеличилось ли число и качество заказов или нет - в контексте данной статьи говорится о том, что SEO бывает разное. По большому счёту, результат SEO — это именно привлекаемый поисковый трафик. И этот трафик может быть качественным, целевым или нет. Кроме того, трафик должен расти. Мы говорим о том, что если специалист хорошо проработал семантику, изучил бизнес клиента, исключил фразы с околонулевым спросом и проч., то трафик должен быть целевым, растущим, что значит рост обращений в отдел продаж клиента !при условии! , что само предложение и сайт располагают к тому, чтобы обратиться в отдел продаж клиента. Действительно, современное SEO предполагает учёт значительного количества факторов, в том числе и коммерческих. Без этого и трафика зачастую не будет. Нужно доносить всё это до клиента, включать подобные работы в стоимость по SEO или отдельно. А с "хочу все подряд за 25к в месяц" мы сталкиваемся тоже. Тут только пояснять и подсказывать, давать рекомендации заранее, чтобы клиент заранее был предупреждён о том, что ему требуется сделать параллельно с нашими работами по SEO. И в итоге вся эта деятельность должна привести к росту целевого трафика как на сайт, так и в отдел продаж.
Как построить качественный ссылочный профиль на основе конкурентов
Ирина
7
комментариев
0
читателей
Полный профиль
Ирина - Давно сотрудничаю с megaindex.com и считаю данный сервис одним из лучших в сео сегменте рунета да и не только рунета. Пользуюсь их инструментами для аналитики своих работ и выявлению своих и чужих ошибок. Да и ссылочный профиль, как и говорится в данной статье сделать гораздо проще и правильней при помощи как раз мегаиндекса. Добавлю еще что инструмент для поиска конкурентов у мегаиндекса очень удобный и простой в применении.
Как вывести сайт в ТОП 10 Google в 2019 году
Анна Макарова
355
комментариев
0
читателей
Полный профиль
Анна Макарова - Сергей, в нашей отрасли много заимствований из английского, иногда с ними быстрее, проще .Но будем стараться ))
Как улучшить репутацию сайта недвижимости с помощью крауд-маркетинга
Евгений
2
комментария
0
читателей
Полный профиль
Евгений - а у вас какое впечатление от статьи?
Как я пытался купить CRM-систему, но мне ее поленились продать
Kristina
1
комментарий
0
читателей
Полный профиль
Kristina - Очень рекомендую CRM-систему польской фирмы Firmao. Все функции настраиваются в соответствии с индивидуальным потребностям компании! Советую попробовать бесплатную демо-версию, чтобы попробовать все необходимые функции, без лишних кнопок и траты дополнительных финансов! :) Сайт: firmao.ru/info
BDD 2019: Как перестать убивать время на сбор и обработку тонны данных для SEO-аудита
Kosta Bankovski
3
комментария
0
читателей
Полный профиль
Kosta Bankovski - Иногда такое случается, попробуйте следующий способ: 1. скачать документ в формате .xlsx, 2. импортировать его в новую таблицу. Может на 5 минут подвиснуть или выдать ошибку, но потом загрузится. Если не будет получаться, напишите в личку на ФБ, я отправлю лично. bit.ly/FB-Kosta-Bankovski
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
355
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
105
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
69
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
55

Отправьте отзыв!
Отправьте отзыв!