Рекламные кампании для вашего бизнеса
Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:

Проблемы с индексацией сайта роботами поисковых систем

Россия +7 (495) 960-65-87
Шрифт:
0 3131

1. Введение
2.  Дубликаты страниц
3.  Некорректное управление индексацией
4. Скриптовые элементы
5. Заключение

1. Введение

Зачастую, работая в сфере поискового продвижения сайтов, приходится сталкиваться с проблемами индексирования сайтов поисковыми системами, временных «выпадений» некоторых страниц сайтов, и, как следствие, потерей позиций по ключевым словам. Происходит это, в подавляющем большинстве случаев, из-за ошибок веб-мастеров. Ведь далеко не все понимают, что, на первый взгляд, даже незначительная ошибка или упущение может привести к «значительным» последствиям – потере позиций в выдаче мировых поисковых систем. В данном мастер-классе постараемся подробно описать все существующие ошибки, влекущие за собой проблемы с индексацией сайтов.

2.  Дубликаты страниц

Дубликаты или дубли страниц – это очень похожие как по структуре, так и по текстовому содержанию страницы или даже одна и та же страница, доступная по разным адресам URL. Появление таких страниц связано со многими факторами. Приведем наиболее часто встречающиеся из них.


Сессии

Проблема. Робот поисковой системы получает одну и ту же страницу с разными идентификаторами сессий. Поисковая система «видит» это как разные страницы.

Описание.

На некоторых сайтах принято использовать идентификатор сессии, то есть каждый посетитель при заходе на сайт получает уникальный параметр &session_id=, который добавляется к адресу каждой посещаемой страницы сайта.

Использование идентификатора сессии позволяет более удобно собирать статистику о поведении посетителей сайта и может использоваться для некоторых других целей, то есть механизм сессий позволяет сохранять информацию о пользователе при переходе от одной страницы сайта к другой, чего не позволяет делать протокол HTTP. Идентификатор хранится у пользователя в Cookie или добавляется как параметр в адрес страницы.

Однако, так как роботы поисковых систем не принимают Cookies, идентификатор сессии добавляется в адрес страницы, при этом робот может найти большое количество копий одной и той же страницы с разными идентификаторами сессий. Проще говоря, для поискового робота страница с новым адресом – это новая страница, при каждом заходе на сайт, робот будет получать новый идентификатор сессии, и, посещая те же самые страницы, что и раньше, будет воспринимать их как новые страницы сайта.

Известно, что поисковые системы имеют алгоритмы «склейки» «зеркал» (частичных или полных копий сайта) и страниц с одинаковым содержанием, поэтому сайты, использующие идентификаторы сессий, все же будут проиндексированы. Однако индексация таких сайтов затруднена и в некоторых случаях может пройти некорректно, поэтому использование на сайте идентификаторов сессий не рекомендуется.

Решение. Решение данной проблемы довольно простое и очевидное – настроить сервер так, чтобы в адреса страниц не добавлялись идентификаторы сессий. Так же, как вариант, в настройках сервера можно указать различные для пользователей и роботов способы адресации, но этот способ для поисковой системы не является «честным», поэтому использовать его не рекомендуется.

Динамические страницы и ссылки на директорию и индексный файл

Проблема. Робот поисковой системы получает одну и ту же страницу с различными адресами. Поисковая система «видит» это как разные страницы.

Описание.

На некоторых сайтах существуют динамические страницы с различным порядком параметров, например index.php?id=3&show=for_print и index.php?show=for_print&id=3. Для пользователей – это одна и та же страница, а для поисковых систем – страницы разные. Также можно привести пример со страницей сайта: «версия для печати» с адресом, например index.htm?do=print и самой главной страницей index.htm. По структуре и текстовому наполнению эти страницы практически одинаковы. Однако для поисковой системы – это разные страницы, которые будут «склеены», и, вместо, например, продвигаемой главной страницы в выдаче поисковика будет страница «для печати»…

Схожая проблема возникает при использовании ссылок на директорию и на файл по умолчанию в директории, например /root/ и /root/index.htm. Для пользователей решается она при использовании директивы «DirectoryIndex /index.htm» файла .htaccess, либо настройками сервера. Поисковые машины же решают данную проблему сами: с течением времени «склеивают» индексную страницу с «корнем» директории.

Решение. Нужно закрывать страницы для печати и другие дубликаты в файле robots.txt , либо с помощью атрибута мета-тега noindex. Другое решение - заранее создавать функционал сайта, который бы не генерировал динамические страницы с различным порядком параметров.

Неверная обработка 404 статуса

Проблема. Ошибки в обработке 404 статуса сервером, когда вместо 404 кода (страница не существует), сервер отдает код 200 и стандартную страницу ошибки.

Описание.

Вообще говоря, обрабатывать 404 ошибку можно по-разному, но смысл остается один. Основной и самый простой вариант обработки данной ошибки – создание страницы, например 404.htm и запись в файле .htaccess «ErrorDocument 404 /404.htm». Однако так поступают не все веб-мастера, многие настраивают сервер на выдачу главной страницы сайта при 404 ошибке. Вот здесь-то и спрятан «подводный камень». В случае некорректных настроек сервера, для страницы с ошибкой 404 (т.е. в данном случае отданной главной), сервер возвращает 200 OK. Таким образом, можно получить стопроцентный дубликат главной страницы, вследствие чего робот поисковика может «склеить» ее с любой другой страницей сайта.

Решение. Выход из данной проблемы прост: грамотная настройка сервера и обработка 404 кода через файл .htaccess путем создания отдельной страницы под обработку ошибки.

Плагиат

Проблема. Размещение материалов сайта на других сайтах, а, как следствие, – «склеивание» и потеря позиций.

Описание.

Описание данной проблемы заключено в ее названии, и в современном Интернете всем хорошо известно, что плагиат – это «воровство» контента и «присваивание» авторских прав, а, с точки зрения поисковой оптимизации, – это еще и проблемы с индексацией сайта в виде появления дублей его страниц.

Решение. Решение проблемы здесь одно – письмо с жалобой о нарушении авторских прав, и, соответственно, законодательства РФ, в службу поддержки поисковой системы, хостеру «сайта-плагиатчика», либо непосредственно самому «виновному».


3.  Некорректное управление индексацией

Можно запретить индексацию отдельных страниц или целых разделов сайта, либо, если это необходимо, всего сайта полностью. Данные для запрета индексации размещают или в специальном файле инструкций роботам поисковых систем – robots.txt, или при помощи мета-тега «Robots», используя атрибут «noindex». У каждого метода есть свои преимущества и недостатки. С помощью инструкций в файле robots.txt (публикация мастер-класса «Что такое robots.txt? Зачем и как его использовать» ожидается в январе) можно запретить как одну страницу, так и группу страниц, любой каталог и подкаталоги документов, при этом роботы даже не будут запрашивать эти файлы с сервера, в отличие от использования мета-тегов.

Также можно управлять индексацией зеркал при помощи инструкции «Host» файла robots.txt. Например, чтобы не было проблем с индексацией основного хоста, на зеркалах и основном сайте www.site.ru, используем данную инструкцию: «Host: www.site.ru». Тем самым мы даем понять поисковой системе, какой сайт индексировать, а какой нет.

Подытоживая вышесказанное, отметим, что в данном случае, проблемы с индексацией сайта могут возникнуть лишь при некорректном использовании инструкций для поисковых систем.

4.  Скриптовые элементы

Известно, что поисковые системы не индексируют коды скриптов (JavaScript, VBScript) и файлы апплетов (Java-приложений), а вариантов реализации различных выпадающих меню, навигаций, реализованных с их помощью, существует множество. Поэтому, чтобы избежать проблем при индексации сайта роботами поисковых систем, следует разрабатывать такие варианты навигации, где в меню стоят прямые ссылки, индексируемые роботами.

5. Заключение

В идеале - технические аспекты взаимодействия сайта с роботами поисковых систем нужно продумывать и пытаться реализовать еще на этапе проектирования сайта. Если же по каким-либо причинам этого сделать не удалось – наш мастер-класс создан, чтобы помочь сделать это сейчас!

internet-dlya-biznesa
Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Поделиться 
Поделиться дискуссией:
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
23 действительно эффективных совета по продвижению интернет-магазина
Гость - Троль Гуру паНгинации - Что такое паНгинация?))))
Конкурс: угадайте пятерку лидеров рейтинга «SEO глазами клиентов 2016»
Марина
1
комментарий
0
читателей
Полный профиль
Марина - Ingate i-Media SEO.RU Netpeak 1PS.RU
Анализ ссылок: сравнение многофункциональных платформ по размеру их баз
Михаил - Хватит пениться на каждый аргументированный отзыв. Это не придает вашей компании чести.
Как создать интернет-магазин: сколько стоит открытие?
Гость - да у битрикса что ни обновление - то сплошные баги. недавно знакомый обновился на лицензии интернет-магазина, про***лись заказы за последнюю неделю, слетели все связи по складам. одним словом, жопа. при этом обновился на сразу, а спустя месяц после выкатывания, надеялся, успеют все поправить
Как упростить продвижение вечными ссылками?
Coursh - Зарегестрировался. Накинули 1100 рубликов за пополнение на 10к. Очень неплохо!
Вопрос недели: почему сайт хорошо ранжируется в Google и не интересует Яндекс?
Nina S.Dzh. - У вас достаточно конкурентная тематика для рунета и по главной странице домена расположена англоязычная версия. Полагаю, в этих двух фактах вся проблема. Поскольку Яндекс в данном случае считает английскую версию сайта приоритетной, а среди ваших конкурентов в выдаче достаточно много хороших русскоязычных сайтов, то он и не ранжирует ваш сайт высоко. Грубо говоря, ему есть что предложить пользователю и без вашего сайта. На мой взгляд, в данном случае версии нужно разводить по разным доменам, русскую вешать на RU и продвигать там.
Кому и зачем нужен маркетплейс от Яндекса
Дарья Калинская
0
комментариев
0
читателей
Полный профиль
Дарья Калинская - Максим, спасибо, рада, что статья оказалась полезной )
Конкурс: угадай победителя рейтинга «Известность бренда SEO-компаний»
Андрей
1
комментарий
0
читателей
Полный профиль
Андрей - Оптимизм Дэмис Кокос Ашманов и Партнеры Раш эдженси
ТОП-10 автоматизированных сервисов контекстной рекламы
Жанна Рожкова
155
комментариев
0
читателей
Полный профиль
Жанна Рожкова - Научитесь отличать рекламу от PR-активности. Если следовать вашей логике, на этом сайте (и на всех остальных информационных ресурсах в принципе) кроме рекламы ничего и нет. Так что насчет статьи от понимающего эксперта? Будем рады, если подготовите
Экспериментальное SEO: «Дырявые носочки панды»
Adrian - Испания и Португалия находятся в Европе и участвовали в чемпионате Европы. Одна из этих стран даже стала победителем. А Южная и Центральная Америка здесь при том, что там разговаривают на испанском и португальском языках. Сына, учите географию.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
285
Комментариев
262
Комментариев
200
Комментариев
171
Комментариев
155
Комментариев
137
Комментариев
123
Комментариев
97
Комментариев
97
Комментариев
93
Комментариев
80
Комментариев
70
Комментариев
67
Комментариев
60
Комментариев
55
Комментариев
52
Комментариев
49
Комментариев
45
Комментариев
44

Отправьте отзыв!
Отправьте отзыв!