×
Россия +7 (909) 261-97-71

Как Netpeak Spider помогает дополнять автотесты, находить баги и ошибки. Кейс Depositphotos

Россия +7 (909) 261-97-71
Шрифт:
0 5203
Подпишитесь на нас в Telegram

Партнерский материал

Чем больше сайт, тем больше проблем с внутренней оптимизацией может быть даже в банальных вещах. Когда мы имеем проект как Depositphotos с миллионами страниц, он становится достаточно неповоротлив, его трудно контролировать и проверять. Но мы не спешим расстраиваться, потому что Netpeak Spider помогает находить баги, которые появились, даже несмотря на постоянные автотесты. 

Кейс будет полезен тем, кто хочет постоянно мониторить наличие проблем, а особенно в тот момент, когда Product-отдел их вовсю плодит. 

Определите пул страниц для отслеживания 

Здесь важно определить не количество страниц, а их тип и разнообразие. К примеру, если у вас на сайте присутствуют такие типы страниц как: 

То вам наверняка приходилось сталкиваться с поочередной выкаткой этих самых страниц в релиз или уже в live-режиме (зачастую это все делается по неведомой никому причине в пятницу часов так в 6–7 вечера), чтобы утром в понедельник SEO-специалист не расслаблялся. Да и кто ему даст, если уже на выходных он видит просадку? 

В процессе сбора страниц для отслеживания важно еще понимать, что если сайт мультиязычный, то необходимо также включать страницы языков, которые являются приоритетными. К примеру, мы отслеживанием лендинги, страницы товаров, категорий, подкатегорий на разных языках: Ru, SP, Fr, Pt, EN. Список можно расширять, но скорость обработки всех этих страниц будет замедляться. 

Используйте мультиоконность в Netpeak Spider 

Непременно наступит момент, когда найти все баги по списку страниц попросту не выйдет. В таком случае советую открыть еще одно окно в Netpeak Spider и спокойно в 2–10 потоков (а может и больше, если ваш проект сможет выдержать нагрузку) делать переобход страниц в обычном порядке. В обычном сканировании мы чаще всего сталкиваемся с проблемой в hreflang: 

Страницы, на которых есть ссылки с атрибутом hreflang на другие страницы, но нет ссылки на текущие URL

Да, как мы видим hreflang отсутствуют там, где они должны быть. Для обработки по списку первым делом загружаем список этих страниц. Я люблю задавать вручную: 

Ручное добавление страниц для проверки в Netpeak Spider

Далее учитывая специфику проекта, я выбираю бота, которым буду краулить. Снижаю количество потоков, чтобы сайт успел все обрабатывать, иначе мы будем получать 503. Что можно найти при сканировании по списку? 

Создав предварительный фильтр по 404 ошибкам, я обнаружил, что Product-менеджер удалил лендинг /crello.html, а SEO-отдел узнал об этом на выходных. Немало ошибок и ниже по списку. 

Фильтр со страницами, которые ответили 404 кодом, в Netpeak Spider

Я для себя выделяю момент с отсутствующими hreflang, весьма интересно делать связку с Netpeak Checker и смотреть, когда Googlebot закешировал страницу, и видел ли на ней изменения. 

URL, на которых нет есть ссылки с атрибутом hreflang на другие страницы, но нет ссылок на текущий URL

Берем список страниц из Netpeak Spider и идем проверять по ним параметры индексации и кеш. Вот что видим: 

проверка индексации и кеша URL в Google с помощью Netpeak Checker

Не дожидаясь окончания, я уже понял, что с индексацией есть проблемы. Googlebot прошелся и закешировал страницу, тем не менее она не в индексе. Открываем код страницы: 

Проверка hreflang в коде страницы

В hreflang есть значение pt-br домена (которого к слову у нас нет, есть отдельно PT и BR), далее путем несложных манипуляций в Netpeak Spider просмотрим каждую страницу в разрезе hreflang: 

Контекстное меню в таблице Netpeak Spider и пункт с hreflang-ссылкам

Помимо несуществующих языковых версий еще и обнаружим висячие узлы, когда на странице А есть языковой атрибут на страницу В, а на странице В нет: 

Отчёт по hreflang-ссылкам внутри Netpeak Spider

Выделяем URL всех языковых версий в hreflang и снова запускаем сканирование, при этом преследуем уже немного другие цели: 

Отчёт с title и description для различных языковых версий страниц в Netpeak Spider

Что видим? Шаблон title / description явно слетел, так как отличается друг от друга. Какие выводы делаем? Скорее всего, фиксы привели к десинхронизации базы данных, и возможно, есть некоторые моменты с базой и шаблонами переводов.  

Также можно увидеть проблемы с внутренними ссылками – мы очень плотно с ними работаем, допускать пустые анкоры нам совсем ни к чему: 

Отчёт по внутренней перелинковке и анкорам в Netpeak Spider

В случае, когда страница имеет пустой анкор – это либо это картинка, либо ошибка, которая приведет к тому, что робот будет ходить по ней, на нее будет идти вес, но в конечном итоге она создаст дополнительный путь для бота, и в итоге он может устать ходить. 

Но если уже смотреть на ситуацию под углом внутреннего веса, то ссылки без анкоров, как заметила SEO-команда Depositphotos, передают вес куда хуже, чем те, что будут обозначены текстом (если ссылка это не картинка).  

Дальнейшие действия 

Данные можно крутить как душе угодно, самое правильное – это делать хотфиксы. На больших сайтах нужно взять за привычку делать схожие манипуляции, которые помогут быстро обнаружить подобные баги, исправление которых сможет как минимум не резать органический трафик своего же проекта.  

Очень важно понимать принцип, по которому та или иная ошибка появляется, и бороться непосредственно с ним. В случае с UGC это все становится намного интереснее, ведь обычные зарегистрированные юзеры куда опаснее всех продактов вместе взятых. Нужно каждый день мониторить, что они там написывают, и что в итоге видит Google. 

В случае с большими массивами данных не всегда нужно обрабатывать миллионы страниц сразу. Да, это полезно, да, информативно, но порой, чтобы обнаружить проблемы, которые лежат на поверхности, достаточно запустить Netpeak Spider за чашкой кофе, немного поперхнуться от найденных данных, и пойти их фиксить. Если бы Netpeak Spider умел обрабатывать логи, то думаю здоровье SEO-специалистов пошатнулось бы еще больше. 

Узнать больше о том, как повысить качество работы вашей команды над техническим SEO с помощью Netpeak Spider можно по ссылке: 

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Роскомнадзор начал требовать от владельцев сайтов уведомлять об использовании Google Analytics. Опыт SEOnews
Денис Добрынин
1
комментарий
0
читателей
Полный профиль
Денис Добрынин - Что-то я как-то пропустил момент, с которого например госномер автомобиля или разрешение монитора и версия установленного на ПК ОС стала перс.данными... Но сегодня тоже получили бумажку с ай-яй-яем. Пойдем на прием в теруправление.
Количество пользователей ИИ в сервисах Mail превысило 5 млн человек
Сергей Карененко
1
комментарий
0
читателей
Полный профиль
Сергей Карененко - Поздравление еще худо бедно написать можно. А когда в почте больше 10к писем, вот тут хорошо, что ии есть)
В Почте и Облаке Mail появился новый тариф – «Семейный»
Анна Макарова
393
комментария
0
читателей
Полный профиль
Анна Макарова - Да, конечно, владелец видит все файлы. А про других пользователей так написано: подключившие этот тариф, могут добавлять в подписку до 4 пользователей. Всем, кого пригласили в подписку, предоставляется доступ к терабайту облачного пространства для общих дел.
Фиды, фильтры, внутренний поиск: как выжать максимум при технических ограничениях и увеличить трафик более чем в 5 раз
i-Media интернет-агентство
2
комментария
0
читателей
Полный профиль
i-Media интернет-агентство - Google Merchant работает, товары показываются - в кейсе есть скриншот с примером.
Тренды SEO в 2025 году
Борис
4
комментария
0
читателей
Полный профиль
Борис - 50/50 Описанная тобой ситуация (надеюсь, не против, что сразу на "ты") — типичная и вообще не требует какого-то глубинного опыта. Достаточно немного логики и наблюдательности. Разобью на пункты для читабельности: 1) Каннибализацию очень просто распознать. Достаточно загрузить СЯ в систему съёма позиций и мониторить источники. Если происходит некое «мигание» — идём (повторно) в топ, смотрим, подтверждаем гипотезу — склеиваем. 2) Но чаще всего эту проблему можно решить на уровне качественной группировки СЯ. А некоторые кластеры со знаком вопроса, которые мы решили разделить на несколько, достаточно держать под контролем. И снова получается, что внимательность и логика здесь могут помочь. И никакого серьёзного опыта не требуется. 3) Соглашусь, что в Яндексе правило "Интент = одна страница" — очень важно, но не всегда. Например, есть кластер, связанный с установкой сантехники, который включает запросы: "установка сантехники", "цена на установку сантехники". Вот здесь, как раз, для многих может быть неочевидно, что кластер лучше разделить на два: "Установка сантехники" и "Цена на установку сантехники". 4) Продолжая мысль из п.3 — в такой ситуации в Яндексе (скорее всего) всё будет ок. И никакой каннибализации не произойдёт. 5) Если говорить про Google (тот же п.3), то здесь, вероятно, возникнут проблемы (всё зависит от оптимизации страниц). Эти два кластера могут не дотянуть до топа из-за своей релевантности. Мы все знаем, что Google может «съесть» страницу с несколькими интентами, и всё будет ок. (в этом предложении пасхалка, что нужно сделать ;)) А если ещё поработать над ссылочным — вообще сказка. Конечно, эту проблему можно решить, но если переборщить, то каннибализация может уже произойти в Яндексе. Вот как раз чтобы уловить эту тонкую грань, и нужен хоть какой-то опыт, которого часто нет у джунов.
Россиянам могут запретить рекламу в Instagram* и Facebook*
Марина Ибушева
66
комментариев
0
читателей
Полный профиль
Марина Ибушева - Окончательное как раз и означает третье. Любой законопроект перед тем, как отправиться в Совет Федерации и на подпись прзиденту, проходит в России три обязательные стадии рассмотрения в Государственной Думе: Первое чтение - обсуждается общая концепция законопроекта. Второе чтение - более детальное обсуждение проекта, поправки и дополнения. Третье чтение (окончательное) - голосование за проект. Так что ожидается 25 марта второе и третье, окончательное чтение.
Целевая аудитория: как найти и встроиться в ее вселенную
Александра
2
комментария
0
читателей
Полный профиль
Александра - Здравствуйте! Благодарю Вас за отличную статью! Много полезной информации, написано доступным языком.
Как вырастить канал в Дзене почти в 10 раз за 4 месяца. Кейс
Гость
1
комментарий
0
читателей
Полный профиль
Гость - миллион на трафик и еще наверное 200-300 тр за ваши услуги..... чтоб получить канал с +5000 подписчиков - для федеральной компании это около нуля жесть 1,2 за пустышку хотя так сейчас 99 процентов маркетолога работает...
5 цифровых инструментов для офлайн-бизнеса. Как привести клиента в торговую точку
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Полезно! Спасибо
После замедления YouTube треть россиян перешли на другие видеосервисы
Александр Лирионов
1
комментарий
0
читателей
Полный профиль
Александр Лирионов - Сейчас нормально с частными серверами только, кому надо дельный - в тг найдите @dzenvpnbot
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
393
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
124
Комментариев
121
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
66
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!