×
Россия +7 (495) 139-20-33

Исследование по индексации в Яндексе на примере крупного портала

Россия +7 (495) 139-20-33
Шрифт:
15 13536
Подпишитесь на нас в Telegram

В качестве объекта мини-исследования аналитиками компании «Пиксель Плюс» был взят большой портал в тематике грузоперевозки в регионе Москва с порядка 200 000 страниц в индексе поисковой системы Яндекс. В данном случае стояла задача по выявлению признаков документов, изменение которых будет повышать вероятность попадания документа в индекс поисковой системы Яндекс.

В качестве факторов были выбраны классические общедоступные характеристики документов, с которыми работает SEO-специалист; к ним были добавлены дополнительные параметры, характеризующие специфику страниц сайта.

Список анализируемых признаков

В качестве анализируемых документов были использованы страницы детальных карточек заказов (аналог карточек товаров интернет-магазина). Фактически это страницы, которые создают посетители ресурса, заходя на сайт и формируя заказ. После этого владельцы авто и грузовые компании могут оставлять заявки на выполнение данного заказа посредством формы на данной странице. Документ выглядит следующим образом:

заявка на выполнение заказа.png

заявка на выполнение заказа_2.png

Другие типы страниц в рамках исследования не анализировались. Ниже приведен полный список признаков документов, по которым проводилось исследование:

  • вес страницы по Page Weight;
  • количество просмотров документа;
  • длина мета-тега description;
  • длина URL вместе с доменным именем;
  • длина тега Title;
  • длина отрезка текста в верхней части страницы;
  • количество исходящих внутренних ссылок с документа;
  • длина h1;
  • количество предложений по заказу;
  • статус заказа (открыт, закрыт и так далее всего порядка 4 статусов);
  • количество входящих внутренних ссылок на документ;
  • уровень вложенности.

Ход исследования

Изначально была сформирована выборка из 132 643 объектов. Далее она была разбита на две части:

  • обучающая из порядка 120 000 объектов (класс 1 - порядка 112 000 объектов; класс 2 - порядка 7000 объектов);
  • а также тестовая выборка из порядка 13 000 документов (класс 1 - порядка 12 000 объектов, класс 2 - порядка 800 объектов).
Было проведено обучение решающего бинарного дерева, на основании данных по индексации детализаций на 120 000 объектах обучающей выборки.

Ниже приведен небольшой фрагмент, получившегося бинарного дерева:

бинарное дерево.png

Фактически, имея документ с заданным набором параметров (PR, УВ, количество входящих ссылок и так далее), двигаясь по дереву сверху вниз, мы сможем в итоге узнать попадет ли данный документ в индекс или нет.

По результатам построения дерева была посчитана важность тех или иных признаков (на фрагменте дерева этот параметр отмечен как «gini»). Чем больше значение, тем выше важность признака (сумма важности всех признаков равна 1). Важность признака рассчитывается как (нормализованное) полное вычитание/снижение критерия качества классификации, привнесенного этим признаком. То есть насколько будет плохо работать классификация, если убрать этот признак.

Проще говоря мы получили число, показывающее насколько сильно данный признак делит всю выбору на группы по размеру. Если его изменение никак не сказывается на классификации (разделении на равные или соизмеримые группы), то важность признака -> 0.

Далее в качестве в качестве определения качества классификации рассчитали средневзвешенное точности и полноты (F-мера), поскольку выборка у нас получилась несбалансированная, то есть страниц не в индексе (класс 0) значительно меньше страниц в индексе (класс 1). Итоговое значение у нас получилось F=0.86679091231806893 (максимум 1). То есть это означает, что классификатор обладает довольно высокими показателями точности и полноты.

Результаты исследования

Ниже приведен список факторов (признаков) и их вес (суммарный вес =1):

Фактор

Важность

Вес страницы по Page Weight

0,258944780

Количество просмотров документа

0,098728380

Количество входящих внутренних ссылок

0,095431340

Статус заказа

0,088486150

Длина мета-тега description

0,087211400

Длина тега Title

0,085745060

Количество исходящих внутренних ссылок

0,084090760

Длина URL вместе с доменным именем

0,059767520

Количество предложений по заказу

0,046784050

Длина h1

0,045314620

Длина отрезка текста в верхней части страницы

0,033501420

Уровень вложенности

0,015994510

Чем больше значение признаков с максимальными значениями параметра «Важность», тем больше вероятность попадания документа в индекс поисковой системы. То есть каждый из заданных признаков отыгрывает в положительную сторону.

Таким образом, минимальное значение параметра «Важность» у ряда факторов, может говорить о том, что с уменьшением значения таких признаков вероятность попадания документов в индекс поисковой системы Яндекс будет также увеличиваться. В частности, это касается уровня вложенности: минимальное значение параметра «Важность» может говорить о том, что чем меньше значение фактора, тем выше вероятность попадания документа в индекс.

Выводы по результатам исследования

Многие данные, полученные в ходе исследования, оказались вполне ожидаемыми, но также выявился ряд закономерностей, которые оказался довольно интересным.

  • C многократным перевесом первым по списку идет PR.
  • Также в группе лидеров идут входящие ссылки и количество просмотров. Со ссылками все ожидаемо, а что касается просмотров, то тут возможно несколько вариантов. Возможно, что страницы попадали в индекс и потому число просмотров у них значительно больше, а возможен и вариант, что попадание в индекс – следствие пользовательской активности на нем.
  • Отдельно любопытно, что в лидирующую группу попал фактор «статус заказа». Тут вполне может быть логика, что статус заказа - как косвенный показатель активности пользователей на документе. Статус заказа=4 - значит, что заказ закрыт, то есть на документе было уже очень много людей, ставок, заходов и к этому моменту Яндекс успевал добавить документ в индекс. Учитывая, что статус заказа и количество просмотров оказались среди наиболее важных признаков, то с большей уверенностью можно говорить о том, что активное поведение пользователей на страницах приводит к попаданию документов в индекс.
  • Следующей группой идет длина Title и description. Здесь может играть фактор, что если основные зоны документы содержат какой-то контент и он не маленький, то вероятно такой документ при попадании в поисковый индекс сможет показываться в результатах поиска по каким-либо запросам. Нет смысла держать в индексе документы с маленьким/пустым Title - все-равно при попадании в индекс они не будут показываться не по каким запросам.
  • С исходящими ссылками получилось интересно. Это как бы намек, что учитывается хабовость документа, то есть много исходящих ссылок - значит документ может быть полезен и перенаправить пользователя на множество других документов. Разве что тут можно сделать предположение, что важно не только много исходящих ссылок, а то, чтобы они шли на документы с высоким PR (то есть на авторитетные страницы). Такой намек на алгоритм Hits, только граф в рамках сайта, а не интернета.
  • Ну и никак не отыграли параметры: длина URl, предложений по заказу, длина h1, длина отрезка текста в верхней части страницы. В целом можно предположить, что если всю текстовую составляющую объединить в один фактор (длина Title, h1, текст), то он тоже сможет закрепиться в середине таблицы.
  • Отдельно стоит сказать про наличие УВ последним в списке. Наличие этого фактора на последнем месте может говорить о том, что большой УВ является отрицательным параметром. То есть чем меньше УВ, тем больше вероятность попадания документа в индекс Яндекса.

Практические выводы

На основании проведенного мини исследования специалистами компании «Пиксель Плюс» был составлен список факторов, акцент при работе с которыми выглядит перспективным для увеличения числа страниц в индексе поисковой системы Яндекс. Таким образом, при наличии на сайте большого числа страниц не в индексе, требуется выполнить ряд базовых действий:

  • проставить на страницы не в индексе ссылки с самых PR-ых страниц в рамках сайта;
  • увеличить общее количество входящих на документ внутренних ссылок;
  • постараться, чтобы максимальное число страниц на сайте имели базовый уровень оптимизации (например, по шаблону): Title, h1, небольшой текст;
  • обеспечить минимальный УВ страниц;
  • добавить исходящие с документа ссылки на наиболее PR-ые страницы сайта;
  • добавить на документы больше интерактивных элементов, с которыми пользователи могли бы взаимодействовать, тем самым увеличивая время нахождения на документе, а также увеличивая количество активных действий (клики, скроллинг);
  • поставить на документы ссылки с самых трафикогенерирующих страниц входа, для обеспечения внутренних переходов на документы в рамках сессии.

Как можно видеть, каждый фактор по отдельности вносит небольшой вклад в итоговое значение вероятности попадания документа в индекс. Параллельная работа с каждым из указанных факторов позволит значительно увеличить вероятность попадания документа в индекс поисковой системы.

Друзья, теперь вы можете поддержать SEOnews https://pay.cloudtips.ru/p/8828f772
Ваши донаты помогут нам развивать издание и дальше радовать вас полезным контентом.

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Иван
    больше года назад
    Мда... Полный бред. Если я правильно понимаю, что за сайт - vezetvsem.ru то исследование ни о чём. Проблема непопадания в индекс карточек заказов кроется в отсутствие структуры у проекта. А по данному исследованию - вы можете посчитать корреляцию любого объекта на странице и получите результат.
    -
    0
    +
    Ответить
    • Гость
      Иван
      больше года назад
      Как вы делали анализ Без статистики захода роботом на страницу?
      Да и почему нет метрики захода пользователей с Я.Браузера?
      Целесообразней было бы учитывать эти метрики. У меня страницы в индекс на миллионном проекте попадают после посещения пользователя с я браузером... А вы тут про статус заказа какой-то...
      -
      1
      +
      Ответить
      • Sergey Yurkov
        10
        комментариев
        0
        читателей
        Sergey Yurkov
        Гость
        больше года назад
        1) В данном случае брались документы, которые были добавлены на сайт длительное время на сайт, то есть с большей долей вероятности на каждом из них робот успевал побывать.
        2) В данном случае можно придумывать много факторов и признаков, которые стоит добавить в классификатор. Обошлись в данном случае общим фактором «Количество просмотров документов».
        -
        0
        +
        Ответить
        • Гость
          Sergey Yurkov
          больше года назад
          1) Ключевое слово - с большой долей вероятности. Метрика "захода робота на страницу" - это дельта функция, а не вероятностная величина. К тому же у вас на портале динамические страницы заказов. А это значит, что если робот посетил только что созданную заявку и уже сформированную страницу (законченный заказ), на котором добавилось куча уникального контента - 2 большие разницы.
          2) ну так надо было основные факторы добавления страниц в индекс брать...
          -
          -1
          +
          Ответить
  • Гость
    больше года назад
    Статью не читал, сразу перешел к последнему блоку, практическим выводам. Ничего нового не нашел, такой вопрос возник: если нет ничего нового, в чем полезность исследования?

    -
    0
    +
    Ответить
    • Sergey Yurkov
      10
      комментариев
      0
      читателей
      Sergey Yurkov
      Гость
      больше года назад
      Мы упомянули, что многие результаты были ожидаемыми, ожидаемыми для наших специалистов-). Как показывает практика, часто данные рекомендации выполняются не на должном уровне.
      -
      1
      +
      Ответить
  • Dmitry Zakharchenko
    1
    комментарий
    0
    читателей
    Dmitry Zakharchenko
    больше года назад
    Вы получили точность 100% и это никого не смутило?
    Судя по всей выборке в 132к и обучающей 132к, естественно будет все правильно размечено.
    Где тестовая выборка-то?

    Про УВ бред. Увеличение значения или уменьшение роли не играет. Как и знак.

    Я уже молчу про высосанные из пальца факторы. Смотрели хотя бы возраст страницы и кол-во заходов робота.
    -
    0
    +
    Ответить
    • Sergey Yurkov
      10
      комментариев
      0
      читателей
      Sergey Yurkov
      Dmitry Zakharchenko
      больше года назад
      Корректность работы классификатора проверялось методом кросс-валидации. То есть мы брали выборку и делили ее на на несколько блоков. После чего один из блоков выступал в качестве тестовой выборки, а все остальные блоки в качестве обучающей выборки. Так мы проходились по всем блокам (то есть каждый блок в итоге побывал в роли тестовой выборки), получив в итоге несколько значений качества из каждой такой итерации. Далее усреднили значение.
      -
      0
      +
      Ответить
      • Алексей
        1
        комментарий
        0
        читателей
        Алексей
        Sergey Yurkov
        больше года назад
        На кросс-валидации вы настроили параметры модели, а как же ошибка на отдельной тестовой выборке? Точность классификатора 100% - фантастика. Дерево получилось супер переобученным.
        -
        0
        +
        Ответить
        • Sergey Yurkov
          10
          комментариев
          0
          читателей
          Sergey Yurkov
          Алексей
          больше года назад
          1) Мы не настраивали параметры модели на кросс-валидации, мы с помощью кросс-валидации оценили количество верных ответов, которые дал алгоритм по заранее размеченным данным.
          2) Перепровели, есть ошибка. Точность классификатора на каждом из 5 блоков при проверке методом кросс-валидации: [ 0.9372008   0.93444909  0.93392137  0.93712304  0.93459741]. В итоге значение качества классификации алгоритма получилось 0.935458341592

          Спас...
          1) Мы не настраивали параметры модели на кросс-валидации, мы с помощью кросс-валидации оценили количество верных ответов, которые дал алгоритм по заранее размеченным данным.
          2) Перепровели, есть ошибка. Точность классификатора на каждом из 5 блоков при проверке методом кросс-валидации: [ 0.9372008   0.93444909  0.93392137  0.93712304  0.93459741]. В итоге значение качества классификации алгоритма получилось 0.935458341592

          Спасибо за поправку.
          -
          0
          +
          Ответить
  • Igor Bakalov
    31
    комментарий
    0
    читателей
    Igor Bakalov
    больше года назад
    Серег, деревья решений при помощи какого софта строили?
    -
    1
    +
    Ответить
    • Sergey Yurkov
      10
      комментариев
      0
      читателей
      Sergey Yurkov
      Igor Bakalov
      больше года назад
      Игорь, деревья решений строили на Python.
      -
      2
      +
      Ответить
      • Igor Bakalov
        31
        комментарий
        0
        читателей
        Igor Bakalov
        Sergey Yurkov
        больше года назад
        Давай следующую статье для seonews о построении деревьев "на практике, с примерам" ;)
        -
        1
        +
        Ответить
  • Лев Слепенков
    1
    комментарий
    0
    читателей
    Лев Слепенков
    больше года назад
    Я правильно понял, эти данные получены на вашей внутренней модели, эксперименты с реальным поиском могут отличаться?
    -
    1
    +
    Ответить
    • Sergey Yurkov
      10
      комментариев
      0
      читателей
      Sergey Yurkov
      Лев Слепенков
      больше года назад
      Лев, классификатор был построен на основании данных по индексации в поисковой системе Яндекс, то есть анализировался результат работы основного индексирующего робота Яндекса. Что касается прочих экспериментов, то многое зависит от обучающей выборки и точный ответ на Ваш вопрос можно было бы дать, продолжив исследование, взяв для анализа дополнительный пул данных. В данном случае исследование подтвердило методы, которые используют SEO-специалисты нашей компании, при решении проблем с индексаци...
      Лев, классификатор был построен на основании данных по индексации в поисковой системе Яндекс, то есть анализировался результат работы основного индексирующего робота Яндекса. Что касается прочих экспериментов, то многое зависит от обучающей выборки и точный ответ на Ваш вопрос можно было бы дать, продолжив исследование, взяв для анализа дополнительный пул данных. В данном случае исследование подтвердило методы, которые используют SEO-специалисты нашей компании, при решении проблем с индексацией страниц на проектах.
      -
      0
      +
      Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Примеры использования ChatGPT в SEO-стратегии
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Если кто то хочет протестировать Cat GPT в SЕО проектах на базе нашего агенства, приглашаем наудалкнную работу Tg: @thegoodlink
Почему сайтам нужно переезжать с конструкторов на полноценные CMS
Анна
1
комментарий
0
читателей
Полный профиль
Анна - Ха, занятно. А я еще видела полезное описание тут digitalproweb.ru/sozdanie-sajtov-vybrat-konstruktory-ili-cms
Как показывать рекламу посетителям сайтов конкурентов
Павел
2
комментария
0
читателей
Полный профиль
Павел - Спасибо за комментарий. Гипотеза была в том, что с указанными счетчиками конкурентов показы будут не просто похожей аудитории их сайтов (как при рекламе по доменам), а именно на аудиторию которую Яндекс для себя разметил как целевая дл сайтов конкурентов. Важно, это гипотеза. А про белые нитки, как говорится, доверяй, но проверяй))
Как мы увеличили для клиента трафик из поиска в 7 раз. Кейс
Кирилл Половников
2
комментария
0
читателей
Полный профиль
Кирилл Половников - Оба этих статуса (редирект и малополезная) преобладали в качестве проблем с индексацией. Помогла работа с .htaccess (в нем были ошибки и его чистили), работа над корректировкой редиректов, каноникалами и прочими техническими ошибками. Нельзя сказать, что только редиректы были ключевым препятствием.
Как в перегретой нише получать заявки и добиться конверсии в 19%
ZRZ8GCHIZ6 www.yandex.ru
1
комментарий
0
читателей
Полный профиль
ZRZ8GCHIZ6 www.yandex.ru - ZRZ8GCHIZ6 www.yandex.ru
Что такое Яндекс Советник, и кому от него жить хорошо
Мама Стифлера
1
комментарий
0
читателей
Полный профиль
Мама Стифлера - Вызывает сожаление, что вы не осознаете, что Яндекс.Советник может быть рассмотрен как форма рэкета, которая заставляет компании, размещающиеся в Яндекс.Маркете, выплачивать дополнительные финансовые средства, повышая в конечном итоге прибыль Яндекс.Маркета, но не принесет пользы для посетителей сайта.
Самые быстрорастущие доменные зоны в 2023 году. Исследование RU-CENTER
Станислав
1
комментарий
0
читателей
Полный профиль
Станислав - С 2019 года количество доменов в зоне .ru остается на одном и том же уровне - около 5 млн. Все изменения на уровне 1% от этого объема в плюс или минус
Как дожать сайт до ТОПа? Выжимаем весь сок из SEO под Яндекс и Google
Фанит
2
комментария
0
читателей
Полный профиль
Фанит - Спасибо автору за статью, полезно! По поводу сниппета сайта, для увеличения CTR можно дополнительно внедрить основные схемы микроразметки и улучшить его, чтобы выделялся на фоне конкурентов, особенно заметно в Google.
Особенности внутренней перелинковки для крупных сайтов
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Haaaa! Articol despre "перелинковка" cu scopul de a acapara BackLink-uri. Înțeleg cu exemplele din zona ru, da chiar sa folosiți și md, panda, serios?
Можно ли продвигать сайт спонсорскими ссылками: разбор кейса
Александр
1
комментарий
0
читателей
Полный профиль
Александр - Хм.... ооочень сомнительный результат. За 10 000 в месяц получить 1 запрос в топ10, да ещё и в google, который на ссылки всегда лучше Яндекса реагировал - такое себе.... При этом достаточно странно были отобраны запросы с местами за ТОП50. Ведь давно известно же, что ссылки так быстро не сработают, к тому же за такое короткое время максимально, на что можно рассчитывать - это небольшое повышение средней. Поэтому тут логично было бы подобрать запросы, либо те, которые находятся близко к ТОП10, например на 11-15 местах, и посмотреть на их динамику. Либо на запросы, которые уже в топ10 находятся (5-10 места). Ведь после отключения контекста CTR в google кратно вырос и, например, разница 1 и 2-х местах отличается почти в два раза! Поэтому, если бы ссылки сработали на рост позиций с 5-10 мест, на 1-4 - это был бы кратный толк как в росте трафика, так и с точки зрения отдачи от вложений. Тем более как раз подвижки в 2-3 позиции уже дали бы ощутимый результат (если это, конечно не НЧ и микроНЧ запросы).... Так что считаю, эксперимент изначально был провальным уже на этапе отбора запросов.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
386
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
118
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
64
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!