Go Analytics! 2018

Проблемы с индексацией сайта роботами поисковых систем

Россия+7 (495) 960-65-87
Шрифт:
0 5030

1. Введение
2.  Дубликаты страниц
3.  Некорректное управление индексацией
4. Скриптовые элементы
5. Заключение

1. Введение

Зачастую, работая в сфере поискового продвижения сайтов, приходится сталкиваться с проблемами индексирования сайтов поисковыми системами, временных «выпадений» некоторых страниц сайтов, и, как следствие, потерей позиций по ключевым словам. Происходит это, в подавляющем большинстве случаев, из-за ошибок веб-мастеров. Ведь далеко не все понимают, что, на первый взгляд, даже незначительная ошибка или упущение может привести к «значительным» последствиям – потере позиций в выдаче мировых поисковых систем. В данном мастер-классе постараемся подробно описать все существующие ошибки, влекущие за собой проблемы с индексацией сайтов.

2.  Дубликаты страниц

Дубликаты или дубли страниц – это очень похожие как по структуре, так и по текстовому содержанию страницы или даже одна и та же страница, доступная по разным адресам URL. Появление таких страниц связано со многими факторами. Приведем наиболее часто встречающиеся из них.


Сессии

Проблема. Робот поисковой системы получает одну и ту же страницу с разными идентификаторами сессий. Поисковая система «видит» это как разные страницы.

Описание.

На некоторых сайтах принято использовать идентификатор сессии, то есть каждый посетитель при заходе на сайт получает уникальный параметр &session_id=, который добавляется к адресу каждой посещаемой страницы сайта.

Использование идентификатора сессии позволяет более удобно собирать статистику о поведении посетителей сайта и может использоваться для некоторых других целей, то есть механизм сессий позволяет сохранять информацию о пользователе при переходе от одной страницы сайта к другой, чего не позволяет делать протокол HTTP. Идентификатор хранится у пользователя в Cookie или добавляется как параметр в адрес страницы.

Однако, так как роботы поисковых систем не принимают Cookies, идентификатор сессии добавляется в адрес страницы, при этом робот может найти большое количество копий одной и той же страницы с разными идентификаторами сессий. Проще говоря, для поискового робота страница с новым адресом – это новая страница, при каждом заходе на сайт, робот будет получать новый идентификатор сессии, и, посещая те же самые страницы, что и раньше, будет воспринимать их как новые страницы сайта.

Известно, что поисковые системы имеют алгоритмы «склейки» «зеркал» (частичных или полных копий сайта) и страниц с одинаковым содержанием, поэтому сайты, использующие идентификаторы сессий, все же будут проиндексированы. Однако индексация таких сайтов затруднена и в некоторых случаях может пройти некорректно, поэтому использование на сайте идентификаторов сессий не рекомендуется.

Решение. Решение данной проблемы довольно простое и очевидное – настроить сервер так, чтобы в адреса страниц не добавлялись идентификаторы сессий. Так же, как вариант, в настройках сервера можно указать различные для пользователей и роботов способы адресации, но этот способ для поисковой системы не является «честным», поэтому использовать его не рекомендуется.

Динамические страницы и ссылки на директорию и индексный файл

Проблема. Робот поисковой системы получает одну и ту же страницу с различными адресами. Поисковая система «видит» это как разные страницы.

Описание.

На некоторых сайтах существуют динамические страницы с различным порядком параметров, например index.php?id=3&show=for_print и index.php?show=for_print&id=3. Для пользователей – это одна и та же страница, а для поисковых систем – страницы разные. Также можно привести пример со страницей сайта: «версия для печати» с адресом, например index.htm?do=print и самой главной страницей index.htm. По структуре и текстовому наполнению эти страницы практически одинаковы. Однако для поисковой системы – это разные страницы, которые будут «склеены», и, вместо, например, продвигаемой главной страницы в выдаче поисковика будет страница «для печати»…

Схожая проблема возникает при использовании ссылок на директорию и на файл по умолчанию в директории, например /root/ и /root/index.htm. Для пользователей решается она при использовании директивы «DirectoryIndex /index.htm» файла .htaccess, либо настройками сервера. Поисковые машины же решают данную проблему сами: с течением времени «склеивают» индексную страницу с «корнем» директории.

Решение. Нужно закрывать страницы для печати и другие дубликаты в файле robots.txt , либо с помощью атрибута мета-тега noindex. Другое решение - заранее создавать функционал сайта, который бы не генерировал динамические страницы с различным порядком параметров.

Неверная обработка 404 статуса

Проблема. Ошибки в обработке 404 статуса сервером, когда вместо 404 кода (страница не существует), сервер отдает код 200 и стандартную страницу ошибки.

Описание.

Вообще говоря, обрабатывать 404 ошибку можно по-разному, но смысл остается один. Основной и самый простой вариант обработки данной ошибки – создание страницы, например 404.htm и запись в файле .htaccess «ErrorDocument 404 /404.htm». Однако так поступают не все веб-мастера, многие настраивают сервер на выдачу главной страницы сайта при 404 ошибке. Вот здесь-то и спрятан «подводный камень». В случае некорректных настроек сервера, для страницы с ошибкой 404 (т.е. в данном случае отданной главной), сервер возвращает 200 OK. Таким образом, можно получить стопроцентный дубликат главной страницы, вследствие чего робот поисковика может «склеить» ее с любой другой страницей сайта.

Решение. Выход из данной проблемы прост: грамотная настройка сервера и обработка 404 кода через файл .htaccess путем создания отдельной страницы под обработку ошибки.

Плагиат

Проблема. Размещение материалов сайта на других сайтах, а, как следствие, – «склеивание» и потеря позиций.

Описание.

Описание данной проблемы заключено в ее названии, и в современном Интернете всем хорошо известно, что плагиат – это «воровство» контента и «присваивание» авторских прав, а, с точки зрения поисковой оптимизации, – это еще и проблемы с индексацией сайта в виде появления дублей его страниц.

Решение. Решение проблемы здесь одно – письмо с жалобой о нарушении авторских прав, и, соответственно, законодательства РФ, в службу поддержки поисковой системы, хостеру «сайта-плагиатчика», либо непосредственно самому «виновному».


3.  Некорректное управление индексацией

Можно запретить индексацию отдельных страниц или целых разделов сайта, либо, если это необходимо, всего сайта полностью. Данные для запрета индексации размещают или в специальном файле инструкций роботам поисковых систем – robots.txt, или при помощи мета-тега «Robots», используя атрибут «noindex». У каждого метода есть свои преимущества и недостатки. С помощью инструкций в файле robots.txt (публикация мастер-класса «Что такое robots.txt? Зачем и как его использовать» ожидается в январе) можно запретить как одну страницу, так и группу страниц, любой каталог и подкаталоги документов, при этом роботы даже не будут запрашивать эти файлы с сервера, в отличие от использования мета-тегов.

Также можно управлять индексацией зеркал при помощи инструкции «Host» файла robots.txt. Например, чтобы не было проблем с индексацией основного хоста, на зеркалах и основном сайте www.site.ru, используем данную инструкцию: «Host: www.site.ru». Тем самым мы даем понять поисковой системе, какой сайт индексировать, а какой нет.

Подытоживая вышесказанное, отметим, что в данном случае, проблемы с индексацией сайта могут возникнуть лишь при некорректном использовании инструкций для поисковых систем.

4.  Скриптовые элементы

Известно, что поисковые системы не индексируют коды скриптов (JavaScript, VBScript) и файлы апплетов (Java-приложений), а вариантов реализации различных выпадающих меню, навигаций, реализованных с их помощью, существует множество. Поэтому, чтобы избежать проблем при индексации сайта роботами поисковых систем, следует разрабатывать такие варианты навигации, где в меню стоят прямые ссылки, индексируемые роботами.

5. Заключение

В идеале - технические аспекты взаимодействия сайта с роботами поисковых систем нужно продумывать и пытаться реализовать еще на этапе проектирования сайта. Если же по каким-либо причинам этого сделать не удалось – наш мастер-класс создан, чтобы помочь сделать это сейчас!

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Кейс: как продвинуть сайт производителя мебели на заказ в Москве
    Иван Стороженко
    16
    комментариев
    0
    читателей
    Полный профиль
    Иван Стороженко - Примерный бюджет 150 000 руб.
    Рейтинг «Известность бренда SEO-компаний 2017»: народное голосование
    Гость
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость - 1) Ingate 2) Ашманов 3) Кокос 4) Russian Promo 5) Netpeak
    «Баден-Баден»: как выйти из-под фильтра
    Александр Кравцов
    1
    комментарий
    0
    читателей
    Полный профиль
    Александр Кравцов - Всем привет Вот ещё пациент www.gdebar.ru Под фильтром с 20 декабря, прошёл месяц, сегодня обновилось, что можете нажать сново проверить сайт и ждать 59 дней.Может кто сталкивался и сможет как то подсказать? Аудитом например или ещё как то проверить, что стоит подправить,скайп мой icejhell. Готов так же к совместному общению по решению проблемы. Всем успехов )
    Второе дыхание ссылочного продвижения
    Rookee.ru
    24
    комментария
    0
    читателей
    Полный профиль
    Rookee.ru - Еще лучше, когда продвижение осуществляется комплексно :)
    Исследование: влияние smart-ссылок на продвижение по СЧ-запросам
    Анатолий Шевчик
    1
    комментарий
    0
    читателей
    Полный профиль
    Анатолий Шевчик - +1097988
    «Прямая линия» с Александром Алаевым («АлаичЪ и Ко»): отвечаем на вопросы
    Александр Алаев
    13
    комментариев
    0
    читателей
    Полный профиль
    Александр Алаев - Роман. Тут ответ очень простой. Каждый запрос можно четко разделить на коммерческий или некоммерческий. "Купить слона" и его длинные хвосты - коммерческий. "Как выбрать слона" и подобные - информационные. Вот под коммерческие ключи должны быть страницы услуг или каталога товаров. А под информационку - блог. Очень важно не путать их, тем более несоответствующая коммерческим факторам страниц просто не продвинется, то есть по запросу с "купить" блог никогда не будет показываться в выдаче, так же как и страница услуги/товаров не покажется по "как выбрать". Понятно примерно?
    Западные специалисты выяснили, как повысить позиции ресурса в выдаче Google
    Максим Мирошник
    2
    комментария
    0
    читателей
    Полный профиль
    Максим Мирошник -
    Кейс: продвигаем бизнес по продаже пластиковых окон в Москве
    Иван Стороженко
    16
    комментариев
    0
    читателей
    Полный профиль
    Иван Стороженко - 1. По началу вообще не использовали, сейчас уже много каналов используется. 2. Все может быть, в принципе сайты должны быть удобны для пользователя, для этого и нужна схожесть между собой. Честно говоря старались брать все самое интересное у конкурентов + подкреплять своими идеями.
    Контекст под SEO. Как поисковая реклама помогает позициям в органической выдаче
    Сергей Дембицкий «Sima-Land.ru»
    22
    комментария
    0
    читателей
    Полный профиль
    Сергей Дембицкий «Sima-Land.ru» - Боже мой, неужели SEO-маги вернулись??? Открыть в роботс utm-метки для индексации и наплодить дублей...что? А расчеты в конце статьи про бюджет на SEO и контекст...откуда эти пропорции? Как по мне, SEO-магия вне Хогвартс. Спасибо, развеселили!
    Все, что нужно SEO-специалисту. Обзор инструментов
    Назар
    2
    комментария
    0
    читателей
    Полный профиль
    Назар - SE Ranking еще бывают траблы со съемом позиций, бывает запросы недогружает....
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    317
    Комментариев
    262
    Комментариев
    232
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    85
    Комментариев
    80
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    57
    Комментариев
    55
    Комментариев
    54
    Комментариев
    52

    Отправьте отзыв!
    Отправьте отзыв!