Проблемы с индексацией сайта роботами поисковых систем

Россия+7 (495) 960-65-87
Шрифт:
0 7126

1. Введение
2.  Дубликаты страниц
3.  Некорректное управление индексацией
4. Скриптовые элементы
5. Заключение

1. Введение

Зачастую, работая в сфере поискового продвижения сайтов, приходится сталкиваться с проблемами индексирования сайтов поисковыми системами, временных «выпадений» некоторых страниц сайтов, и, как следствие, потерей позиций по ключевым словам. Происходит это, в подавляющем большинстве случаев, из-за ошибок веб-мастеров. Ведь далеко не все понимают, что, на первый взгляд, даже незначительная ошибка или упущение может привести к «значительным» последствиям – потере позиций в выдаче мировых поисковых систем. В данном мастер-классе постараемся подробно описать все существующие ошибки, влекущие за собой проблемы с индексацией сайтов.

2.  Дубликаты страниц

Дубликаты или дубли страниц – это очень похожие как по структуре, так и по текстовому содержанию страницы или даже одна и та же страница, доступная по разным адресам URL. Появление таких страниц связано со многими факторами. Приведем наиболее часто встречающиеся из них.


Сессии

Проблема. Робот поисковой системы получает одну и ту же страницу с разными идентификаторами сессий. Поисковая система «видит» это как разные страницы.

Описание.

На некоторых сайтах принято использовать идентификатор сессии, то есть каждый посетитель при заходе на сайт получает уникальный параметр &session_id=, который добавляется к адресу каждой посещаемой страницы сайта.

Использование идентификатора сессии позволяет более удобно собирать статистику о поведении посетителей сайта и может использоваться для некоторых других целей, то есть механизм сессий позволяет сохранять информацию о пользователе при переходе от одной страницы сайта к другой, чего не позволяет делать протокол HTTP. Идентификатор хранится у пользователя в Cookie или добавляется как параметр в адрес страницы.

Однако, так как роботы поисковых систем не принимают Cookies, идентификатор сессии добавляется в адрес страницы, при этом робот может найти большое количество копий одной и той же страницы с разными идентификаторами сессий. Проще говоря, для поискового робота страница с новым адресом – это новая страница, при каждом заходе на сайт, робот будет получать новый идентификатор сессии, и, посещая те же самые страницы, что и раньше, будет воспринимать их как новые страницы сайта.

Известно, что поисковые системы имеют алгоритмы «склейки» «зеркал» (частичных или полных копий сайта) и страниц с одинаковым содержанием, поэтому сайты, использующие идентификаторы сессий, все же будут проиндексированы. Однако индексация таких сайтов затруднена и в некоторых случаях может пройти некорректно, поэтому использование на сайте идентификаторов сессий не рекомендуется.

Решение. Решение данной проблемы довольно простое и очевидное – настроить сервер так, чтобы в адреса страниц не добавлялись идентификаторы сессий. Так же, как вариант, в настройках сервера можно указать различные для пользователей и роботов способы адресации, но этот способ для поисковой системы не является «честным», поэтому использовать его не рекомендуется.

Динамические страницы и ссылки на директорию и индексный файл

Проблема. Робот поисковой системы получает одну и ту же страницу с различными адресами. Поисковая система «видит» это как разные страницы.

Описание.

На некоторых сайтах существуют динамические страницы с различным порядком параметров, например index.php?id=3&show=for_print и index.php?show=for_print&id=3. Для пользователей – это одна и та же страница, а для поисковых систем – страницы разные. Также можно привести пример со страницей сайта: «версия для печати» с адресом, например index.htm?do=print и самой главной страницей index.htm. По структуре и текстовому наполнению эти страницы практически одинаковы. Однако для поисковой системы – это разные страницы, которые будут «склеены», и, вместо, например, продвигаемой главной страницы в выдаче поисковика будет страница «для печати»…

Схожая проблема возникает при использовании ссылок на директорию и на файл по умолчанию в директории, например /root/ и /root/index.htm. Для пользователей решается она при использовании директивы «DirectoryIndex /index.htm» файла .htaccess, либо настройками сервера. Поисковые машины же решают данную проблему сами: с течением времени «склеивают» индексную страницу с «корнем» директории.

Решение. Нужно закрывать страницы для печати и другие дубликаты в файле robots.txt , либо с помощью атрибута мета-тега noindex. Другое решение - заранее создавать функционал сайта, который бы не генерировал динамические страницы с различным порядком параметров.

Неверная обработка 404 статуса

Проблема. Ошибки в обработке 404 статуса сервером, когда вместо 404 кода (страница не существует), сервер отдает код 200 и стандартную страницу ошибки.

Описание.

Вообще говоря, обрабатывать 404 ошибку можно по-разному, но смысл остается один. Основной и самый простой вариант обработки данной ошибки – создание страницы, например 404.htm и запись в файле .htaccess «ErrorDocument 404 /404.htm». Однако так поступают не все веб-мастера, многие настраивают сервер на выдачу главной страницы сайта при 404 ошибке. Вот здесь-то и спрятан «подводный камень». В случае некорректных настроек сервера, для страницы с ошибкой 404 (т.е. в данном случае отданной главной), сервер возвращает 200 OK. Таким образом, можно получить стопроцентный дубликат главной страницы, вследствие чего робот поисковика может «склеить» ее с любой другой страницей сайта.

Решение. Выход из данной проблемы прост: грамотная настройка сервера и обработка 404 кода через файл .htaccess путем создания отдельной страницы под обработку ошибки.

Плагиат

Проблема. Размещение материалов сайта на других сайтах, а, как следствие, – «склеивание» и потеря позиций.

Описание.

Описание данной проблемы заключено в ее названии, и в современном Интернете всем хорошо известно, что плагиат – это «воровство» контента и «присваивание» авторских прав, а, с точки зрения поисковой оптимизации, – это еще и проблемы с индексацией сайта в виде появления дублей его страниц.

Решение. Решение проблемы здесь одно – письмо с жалобой о нарушении авторских прав, и, соответственно, законодательства РФ, в службу поддержки поисковой системы, хостеру «сайта-плагиатчика», либо непосредственно самому «виновному».


3.  Некорректное управление индексацией

Можно запретить индексацию отдельных страниц или целых разделов сайта, либо, если это необходимо, всего сайта полностью. Данные для запрета индексации размещают или в специальном файле инструкций роботам поисковых систем – robots.txt, или при помощи мета-тега «Robots», используя атрибут «noindex». У каждого метода есть свои преимущества и недостатки. С помощью инструкций в файле robots.txt (публикация мастер-класса «Что такое robots.txt? Зачем и как его использовать» ожидается в январе) можно запретить как одну страницу, так и группу страниц, любой каталог и подкаталоги документов, при этом роботы даже не будут запрашивать эти файлы с сервера, в отличие от использования мета-тегов.

Также можно управлять индексацией зеркал при помощи инструкции «Host» файла robots.txt. Например, чтобы не было проблем с индексацией основного хоста, на зеркалах и основном сайте www.site.ru, используем данную инструкцию: «Host: www.site.ru». Тем самым мы даем понять поисковой системе, какой сайт индексировать, а какой нет.

Подытоживая вышесказанное, отметим, что в данном случае, проблемы с индексацией сайта могут возникнуть лишь при некорректном использовании инструкций для поисковых систем.

4.  Скриптовые элементы

Известно, что поисковые системы не индексируют коды скриптов (JavaScript, VBScript) и файлы апплетов (Java-приложений), а вариантов реализации различных выпадающих меню, навигаций, реализованных с их помощью, существует множество. Поэтому, чтобы избежать проблем при индексации сайта роботами поисковых систем, следует разрабатывать такие варианты навигации, где в меню стоят прямые ссылки, индексируемые роботами.

5. Заключение

В идеале - технические аспекты взаимодействия сайта с роботами поисковых систем нужно продумывать и пытаться реализовать еще на этапе проектирования сайта. Если же по каким-либо причинам этого сделать не удалось – наш мастер-класс создан, чтобы помочь сделать это сейчас!

(Нет голосов)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Рейтинг Известности 2018: старт народного голосования
    Михаил Р
    1
    комментарий
    0
    читателей
    Полный профиль
    Михаил Р - 1. Demis 2. кокс 3. Ашманов 4. Скобеев 5. Digital Strategy
    Тест: Кто как пробежал, или Итоги клиентского рейтинга SEOnews 2018
    Анна Макарова
    338
    комментариев
    0
    читателей
    Полный профиль
    Анна Макарова - Друзья, спасибо всем за участие! Мы определили победителей. Кто ими стал - вы найдете по ссылке: www.seonews.ru/events/darim-knigi-ot-mif-pobediteli-opredeleny/ Если вы стали одним из победителей, обязательно свяжитесь с нами по указанной в новости (по ссылке выше) почте. Всем хороших выходных! =)
    SEO глазами клиентов 2018
    Артур Якушев
    1
    комментарий
    0
    читателей
    Полный профиль
    Артур Якушев - >сейчас же сложно найти агентства, которые специализируются только на SEO Не так и сложно найти нас www.msk.lapkinlab.ru
    Рейтинг Известности 2018: второй этап народного голосования
    Константин Сокол
    3
    комментария
    0
    читателей
    Полный профиль
    Константин Сокол - Кто был ответственный за дизайн таблицы голосования? Копирайтер?
    Комплексный аудит интернет-магазина от «Ашманов и партнеры». Часть 1
    Александр Сова
    1
    комментарий
    0
    читателей
    Полный профиль
    Александр Сова - А вот и сеошники подъехали, покидать на вентилятор :D
    Кейс: вывод лендинга по изготовлению флагов на заказ в ТОП 1 по Санкт-Петербургу
    utka21
    4
    комментария
    0
    читателей
    Полный профиль
    utka21 - Кейс как кейс. Для некоторых станет вполне возможно полезным. ( Для конкурентов точно) . А вот с комментариями , что то пошло не так )
    Не очень удачный кейс продвижения сайта по услуге «Трезвый водитель» в Москве
    Кирилл Щербаков
    3
    комментария
    0
    читателей
    Полный профиль
    Кирилл Щербаков - "даже пришлось подключить отслеживание звонков с сайта" "Даже" - как будто это что-то нереальное
    Как использовать Python для LSI-копирайтинга
    Evgeny Montana
    6
    комментариев
    0
    читателей
    Полный профиль
    Evgeny Montana - спасибо)
    Стартовал сбор заявок на участие в рейтинге «Известность бренда SEO-компаний 2018»
    Артем Первухин
    1
    комментарий
    0
    читателей
    Полный профиль
    Артем Первухин - Make KINETICA Great Again!
    Эксперимент: как уникальность контента влияет на продвижение сайта
    Ilia Nazmutdinov
    2
    комментария
    0
    читателей
    Полный профиль
    Ilia Nazmutdinov - Кстати, ПФ не работают на нулевом трафике. Пока на сайт не льются тысячи показов по одним и тем же запросам влияние оказывает ток ссылочное\внешнее и внутреннее\ и внутренняя оптимизация.
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    338
    Комментариев
    262
    Комментариев
    241
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    97
    Комментариев
    96
    Комментариев
    80
    Комментариев
    67
    Комментариев
    61
    Комментариев
    60
    Комментариев
    59
    Комментариев
    57
    Комментариев
    55
    Комментариев
    54

    Отправьте отзыв!
    Отправьте отзыв!