Проблемы с индексацией сайта роботами поисковых систем

Россия+7 (495) 960-65-87
Шрифт:
0 4498

1. Введение
2.  Дубликаты страниц
3.  Некорректное управление индексацией
4. Скриптовые элементы
5. Заключение

1. Введение

Зачастую, работая в сфере поискового продвижения сайтов, приходится сталкиваться с проблемами индексирования сайтов поисковыми системами, временных «выпадений» некоторых страниц сайтов, и, как следствие, потерей позиций по ключевым словам. Происходит это, в подавляющем большинстве случаев, из-за ошибок веб-мастеров. Ведь далеко не все понимают, что, на первый взгляд, даже незначительная ошибка или упущение может привести к «значительным» последствиям – потере позиций в выдаче мировых поисковых систем. В данном мастер-классе постараемся подробно описать все существующие ошибки, влекущие за собой проблемы с индексацией сайтов.

2.  Дубликаты страниц

Дубликаты или дубли страниц – это очень похожие как по структуре, так и по текстовому содержанию страницы или даже одна и та же страница, доступная по разным адресам URL. Появление таких страниц связано со многими факторами. Приведем наиболее часто встречающиеся из них.


Сессии

Проблема. Робот поисковой системы получает одну и ту же страницу с разными идентификаторами сессий. Поисковая система «видит» это как разные страницы.

Описание.

На некоторых сайтах принято использовать идентификатор сессии, то есть каждый посетитель при заходе на сайт получает уникальный параметр &session_id=, который добавляется к адресу каждой посещаемой страницы сайта.

Использование идентификатора сессии позволяет более удобно собирать статистику о поведении посетителей сайта и может использоваться для некоторых других целей, то есть механизм сессий позволяет сохранять информацию о пользователе при переходе от одной страницы сайта к другой, чего не позволяет делать протокол HTTP. Идентификатор хранится у пользователя в Cookie или добавляется как параметр в адрес страницы.

Однако, так как роботы поисковых систем не принимают Cookies, идентификатор сессии добавляется в адрес страницы, при этом робот может найти большое количество копий одной и той же страницы с разными идентификаторами сессий. Проще говоря, для поискового робота страница с новым адресом – это новая страница, при каждом заходе на сайт, робот будет получать новый идентификатор сессии, и, посещая те же самые страницы, что и раньше, будет воспринимать их как новые страницы сайта.

Известно, что поисковые системы имеют алгоритмы «склейки» «зеркал» (частичных или полных копий сайта) и страниц с одинаковым содержанием, поэтому сайты, использующие идентификаторы сессий, все же будут проиндексированы. Однако индексация таких сайтов затруднена и в некоторых случаях может пройти некорректно, поэтому использование на сайте идентификаторов сессий не рекомендуется.

Решение. Решение данной проблемы довольно простое и очевидное – настроить сервер так, чтобы в адреса страниц не добавлялись идентификаторы сессий. Так же, как вариант, в настройках сервера можно указать различные для пользователей и роботов способы адресации, но этот способ для поисковой системы не является «честным», поэтому использовать его не рекомендуется.

Динамические страницы и ссылки на директорию и индексный файл

Проблема. Робот поисковой системы получает одну и ту же страницу с различными адресами. Поисковая система «видит» это как разные страницы.

Описание.

На некоторых сайтах существуют динамические страницы с различным порядком параметров, например index.php?id=3&show=for_print и index.php?show=for_print&id=3. Для пользователей – это одна и та же страница, а для поисковых систем – страницы разные. Также можно привести пример со страницей сайта: «версия для печати» с адресом, например index.htm?do=print и самой главной страницей index.htm. По структуре и текстовому наполнению эти страницы практически одинаковы. Однако для поисковой системы – это разные страницы, которые будут «склеены», и, вместо, например, продвигаемой главной страницы в выдаче поисковика будет страница «для печати»…

Схожая проблема возникает при использовании ссылок на директорию и на файл по умолчанию в директории, например /root/ и /root/index.htm. Для пользователей решается она при использовании директивы «DirectoryIndex /index.htm» файла .htaccess, либо настройками сервера. Поисковые машины же решают данную проблему сами: с течением времени «склеивают» индексную страницу с «корнем» директории.

Решение. Нужно закрывать страницы для печати и другие дубликаты в файле robots.txt , либо с помощью атрибута мета-тега noindex. Другое решение - заранее создавать функционал сайта, который бы не генерировал динамические страницы с различным порядком параметров.

Неверная обработка 404 статуса

Проблема. Ошибки в обработке 404 статуса сервером, когда вместо 404 кода (страница не существует), сервер отдает код 200 и стандартную страницу ошибки.

Описание.

Вообще говоря, обрабатывать 404 ошибку можно по-разному, но смысл остается один. Основной и самый простой вариант обработки данной ошибки – создание страницы, например 404.htm и запись в файле .htaccess «ErrorDocument 404 /404.htm». Однако так поступают не все веб-мастера, многие настраивают сервер на выдачу главной страницы сайта при 404 ошибке. Вот здесь-то и спрятан «подводный камень». В случае некорректных настроек сервера, для страницы с ошибкой 404 (т.е. в данном случае отданной главной), сервер возвращает 200 OK. Таким образом, можно получить стопроцентный дубликат главной страницы, вследствие чего робот поисковика может «склеить» ее с любой другой страницей сайта.

Решение. Выход из данной проблемы прост: грамотная настройка сервера и обработка 404 кода через файл .htaccess путем создания отдельной страницы под обработку ошибки.

Плагиат

Проблема. Размещение материалов сайта на других сайтах, а, как следствие, – «склеивание» и потеря позиций.

Описание.

Описание данной проблемы заключено в ее названии, и в современном Интернете всем хорошо известно, что плагиат – это «воровство» контента и «присваивание» авторских прав, а, с точки зрения поисковой оптимизации, – это еще и проблемы с индексацией сайта в виде появления дублей его страниц.

Решение. Решение проблемы здесь одно – письмо с жалобой о нарушении авторских прав, и, соответственно, законодательства РФ, в службу поддержки поисковой системы, хостеру «сайта-плагиатчика», либо непосредственно самому «виновному».


3.  Некорректное управление индексацией

Можно запретить индексацию отдельных страниц или целых разделов сайта, либо, если это необходимо, всего сайта полностью. Данные для запрета индексации размещают или в специальном файле инструкций роботам поисковых систем – robots.txt, или при помощи мета-тега «Robots», используя атрибут «noindex». У каждого метода есть свои преимущества и недостатки. С помощью инструкций в файле robots.txt (публикация мастер-класса «Что такое robots.txt? Зачем и как его использовать» ожидается в январе) можно запретить как одну страницу, так и группу страниц, любой каталог и подкаталоги документов, при этом роботы даже не будут запрашивать эти файлы с сервера, в отличие от использования мета-тегов.

Также можно управлять индексацией зеркал при помощи инструкции «Host» файла robots.txt. Например, чтобы не было проблем с индексацией основного хоста, на зеркалах и основном сайте www.site.ru, используем данную инструкцию: «Host: www.site.ru». Тем самым мы даем понять поисковой системе, какой сайт индексировать, а какой нет.

Подытоживая вышесказанное, отметим, что в данном случае, проблемы с индексацией сайта могут возникнуть лишь при некорректном использовании инструкций для поисковых систем.

4.  Скриптовые элементы

Известно, что поисковые системы не индексируют коды скриптов (JavaScript, VBScript) и файлы апплетов (Java-приложений), а вариантов реализации различных выпадающих меню, навигаций, реализованных с их помощью, существует множество. Поэтому, чтобы избежать проблем при индексации сайта роботами поисковых систем, следует разрабатывать такие варианты навигации, где в меню стоят прямые ссылки, индексируемые роботами.

5. Заключение

В идеале - технические аспекты взаимодействия сайта с роботами поисковых систем нужно продумывать и пытаться реализовать еще на этапе проектирования сайта. Если же по каким-либо причинам этого сделать не удалось – наш мастер-класс создан, чтобы помочь сделать это сейчас!

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Рейтинг «Известность бренда SEO-компаний 2017»: народное голосование
    Иван
    1
    комментарий
    0
    читателей
    Полный профиль
    Иван - 1) IT-Agency 2) Пиксели 3) 1ps 4) Ингейт 5) Нетпики
    «Баден-Баден»: как выйти из-под фильтра
    Сергей Дембицкий «Sima-Land.ru»
    16
    комментариев
    0
    читателей
    Полный профиль
    Сергей Дембицкий «Sima-Land.ru» - Скрины Метрики показывать не буду, но мы (sima-land.ru - 1,5 млн. стр. в поиске Яндекс) в сентябре загремели под ББ, в разгар сезона и вышли из-под фильтра, спустя 50 дней, удалив все тексты с сайта: категории + карточки товаров (описание). Трафик с Google только вырос. Тексты возвращать собираемся, но процесс будет длительный, тексты будем теперь писать исключительно полезные, т.к. было больно :-))
    Второе дыхание ссылочного продвижения
    Автопилот
    14
    комментариев
    0
    читателей
    Полный профиль
    Автопилот - Еще лучше, когда продвижение осуществляется комплексно :)
    «Прямая линия» с Александром Алаевым («АлаичЪ и Ко»): отвечаем на вопросы
    Александр Алаев
    13
    комментариев
    0
    читателей
    Полный профиль
    Александр Алаев - Роман. Тут ответ очень простой. Каждый запрос можно четко разделить на коммерческий или некоммерческий. "Купить слона" и его длинные хвосты - коммерческий. "Как выбрать слона" и подобные - информационные. Вот под коммерческие ключи должны быть страницы услуг или каталога товаров. А под информационку - блог. Очень важно не путать их, тем более несоответствующая коммерческим факторам страниц просто не продвинется, то есть по запросу с "купить" блог никогда не будет показываться в выдаче, так же как и страница услуги/товаров не покажется по "как выбрать". Понятно примерно?
    Кейс: продвигаем бизнес по продаже пластиковых окон в Москве
    Иван Стороженко
    5
    комментариев
    0
    читателей
    Полный профиль
    Иван Стороженко - 1. По началу вообще не использовали, сейчас уже много каналов используется. 2. Все может быть, в принципе сайты должны быть удобны для пользователя, для этого и нужна схожесть между собой. Честно говоря старались брать все самое интересное у конкурентов + подкреплять своими идеями.
    Инфографика: самые распространенные SEO-ошибки Рунета
    Dmitro Grunt
    2
    комментария
    0
    читателей
    Полный профиль
    Dmitro Grunt - Кстати, у проектов которые продвигает Нетпик все тайтлы не более 65 символов? Или вы надеетесь что кто то послушает советов и отдаст вам часть трафика? :-)
    Google.ru внесли в реестр запрещенных сайтов
    Гость
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость - Гон, все работает и будет работать. Да и пусть банят, будет как с рутрекером.
    День рождения SEOnews: 12 лет в эфире!
    Анна Макарова
    313
    комментария
    0
    читателей
    Полный профиль
    Анна Макарова - Ура )
    Западные специалисты выяснили, как повысить позиции ресурса в выдаче Google
    Serhii Diachenko
    1
    комментарий
    0
    читателей
    Полный профиль
    Serhii Diachenko - Спасибо Бернис!
    «Прямая линия» с Артуром Латыповым: отвечаем на вопросы
    God Koss
    1
    комментарий
    0
    читателей
    Полный профиль
    God Koss - Добрый день! Есть сайты одной компании продвигающиеся в разных странах. .ru .com .net. На российском сайте два языка ru и en, на остальных до 10 языков. Недавно сайт ru по основному брендовому запросу выпал из выдачи Яндекс но после апа вернулся на вторую позицию. На вопрос аффилирования в тех поддержку, получит ответ, что всё в порядке и сайт com не учавствует в выдаче. Но он есть и занимает 1 место. Как быть в данной ситуации? Так же, после возврата в топ 10 по этому запросу зашла еще одна внутренняя страница. Могло ли это случиться из-за каннибализации запроса? Немного изменил description на внутренней, исключил вхождения брендового запроса. Жду апа. Хотел бы услышать ваше мнение. Заранее благодарю!
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    313
    Комментариев
    262
    Комментариев
    229
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    80
    Комментариев
    77
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    55
    Комментариев
    54
    Комментариев
    52
    Комментариев
    49

    Отправьте отзыв!
    Отправьте отзыв!