Многофункциональная SEO-платформа
для профессионалов
Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:

Проблемы с индексацией сайта роботами поисковых систем

Россия +7 (495) 960-65-87
Шрифт:
0 3396

1. Введение
2.  Дубликаты страниц
3.  Некорректное управление индексацией
4. Скриптовые элементы
5. Заключение

1. Введение

Зачастую, работая в сфере поискового продвижения сайтов, приходится сталкиваться с проблемами индексирования сайтов поисковыми системами, временных «выпадений» некоторых страниц сайтов, и, как следствие, потерей позиций по ключевым словам. Происходит это, в подавляющем большинстве случаев, из-за ошибок веб-мастеров. Ведь далеко не все понимают, что, на первый взгляд, даже незначительная ошибка или упущение может привести к «значительным» последствиям – потере позиций в выдаче мировых поисковых систем. В данном мастер-классе постараемся подробно описать все существующие ошибки, влекущие за собой проблемы с индексацией сайтов.

2.  Дубликаты страниц

Дубликаты или дубли страниц – это очень похожие как по структуре, так и по текстовому содержанию страницы или даже одна и та же страница, доступная по разным адресам URL. Появление таких страниц связано со многими факторами. Приведем наиболее часто встречающиеся из них.


Сессии

Проблема. Робот поисковой системы получает одну и ту же страницу с разными идентификаторами сессий. Поисковая система «видит» это как разные страницы.

Описание.

На некоторых сайтах принято использовать идентификатор сессии, то есть каждый посетитель при заходе на сайт получает уникальный параметр &session_id=, который добавляется к адресу каждой посещаемой страницы сайта.

Использование идентификатора сессии позволяет более удобно собирать статистику о поведении посетителей сайта и может использоваться для некоторых других целей, то есть механизм сессий позволяет сохранять информацию о пользователе при переходе от одной страницы сайта к другой, чего не позволяет делать протокол HTTP. Идентификатор хранится у пользователя в Cookie или добавляется как параметр в адрес страницы.

Однако, так как роботы поисковых систем не принимают Cookies, идентификатор сессии добавляется в адрес страницы, при этом робот может найти большое количество копий одной и той же страницы с разными идентификаторами сессий. Проще говоря, для поискового робота страница с новым адресом – это новая страница, при каждом заходе на сайт, робот будет получать новый идентификатор сессии, и, посещая те же самые страницы, что и раньше, будет воспринимать их как новые страницы сайта.

Известно, что поисковые системы имеют алгоритмы «склейки» «зеркал» (частичных или полных копий сайта) и страниц с одинаковым содержанием, поэтому сайты, использующие идентификаторы сессий, все же будут проиндексированы. Однако индексация таких сайтов затруднена и в некоторых случаях может пройти некорректно, поэтому использование на сайте идентификаторов сессий не рекомендуется.

Решение. Решение данной проблемы довольно простое и очевидное – настроить сервер так, чтобы в адреса страниц не добавлялись идентификаторы сессий. Так же, как вариант, в настройках сервера можно указать различные для пользователей и роботов способы адресации, но этот способ для поисковой системы не является «честным», поэтому использовать его не рекомендуется.

Динамические страницы и ссылки на директорию и индексный файл

Проблема. Робот поисковой системы получает одну и ту же страницу с различными адресами. Поисковая система «видит» это как разные страницы.

Описание.

На некоторых сайтах существуют динамические страницы с различным порядком параметров, например index.php?id=3&show=for_print и index.php?show=for_print&id=3. Для пользователей – это одна и та же страница, а для поисковых систем – страницы разные. Также можно привести пример со страницей сайта: «версия для печати» с адресом, например index.htm?do=print и самой главной страницей index.htm. По структуре и текстовому наполнению эти страницы практически одинаковы. Однако для поисковой системы – это разные страницы, которые будут «склеены», и, вместо, например, продвигаемой главной страницы в выдаче поисковика будет страница «для печати»…

Схожая проблема возникает при использовании ссылок на директорию и на файл по умолчанию в директории, например /root/ и /root/index.htm. Для пользователей решается она при использовании директивы «DirectoryIndex /index.htm» файла .htaccess, либо настройками сервера. Поисковые машины же решают данную проблему сами: с течением времени «склеивают» индексную страницу с «корнем» директории.

Решение. Нужно закрывать страницы для печати и другие дубликаты в файле robots.txt , либо с помощью атрибута мета-тега noindex. Другое решение - заранее создавать функционал сайта, который бы не генерировал динамические страницы с различным порядком параметров.

Неверная обработка 404 статуса

Проблема. Ошибки в обработке 404 статуса сервером, когда вместо 404 кода (страница не существует), сервер отдает код 200 и стандартную страницу ошибки.

Описание.

Вообще говоря, обрабатывать 404 ошибку можно по-разному, но смысл остается один. Основной и самый простой вариант обработки данной ошибки – создание страницы, например 404.htm и запись в файле .htaccess «ErrorDocument 404 /404.htm». Однако так поступают не все веб-мастера, многие настраивают сервер на выдачу главной страницы сайта при 404 ошибке. Вот здесь-то и спрятан «подводный камень». В случае некорректных настроек сервера, для страницы с ошибкой 404 (т.е. в данном случае отданной главной), сервер возвращает 200 OK. Таким образом, можно получить стопроцентный дубликат главной страницы, вследствие чего робот поисковика может «склеить» ее с любой другой страницей сайта.

Решение. Выход из данной проблемы прост: грамотная настройка сервера и обработка 404 кода через файл .htaccess путем создания отдельной страницы под обработку ошибки.

Плагиат

Проблема. Размещение материалов сайта на других сайтах, а, как следствие, – «склеивание» и потеря позиций.

Описание.

Описание данной проблемы заключено в ее названии, и в современном Интернете всем хорошо известно, что плагиат – это «воровство» контента и «присваивание» авторских прав, а, с точки зрения поисковой оптимизации, – это еще и проблемы с индексацией сайта в виде появления дублей его страниц.

Решение. Решение проблемы здесь одно – письмо с жалобой о нарушении авторских прав, и, соответственно, законодательства РФ, в службу поддержки поисковой системы, хостеру «сайта-плагиатчика», либо непосредственно самому «виновному».


3.  Некорректное управление индексацией

Можно запретить индексацию отдельных страниц или целых разделов сайта, либо, если это необходимо, всего сайта полностью. Данные для запрета индексации размещают или в специальном файле инструкций роботам поисковых систем – robots.txt, или при помощи мета-тега «Robots», используя атрибут «noindex». У каждого метода есть свои преимущества и недостатки. С помощью инструкций в файле robots.txt (публикация мастер-класса «Что такое robots.txt? Зачем и как его использовать» ожидается в январе) можно запретить как одну страницу, так и группу страниц, любой каталог и подкаталоги документов, при этом роботы даже не будут запрашивать эти файлы с сервера, в отличие от использования мета-тегов.

Также можно управлять индексацией зеркал при помощи инструкции «Host» файла robots.txt. Например, чтобы не было проблем с индексацией основного хоста, на зеркалах и основном сайте www.site.ru, используем данную инструкцию: «Host: www.site.ru». Тем самым мы даем понять поисковой системе, какой сайт индексировать, а какой нет.

Подытоживая вышесказанное, отметим, что в данном случае, проблемы с индексацией сайта могут возникнуть лишь при некорректном использовании инструкций для поисковых систем.

4.  Скриптовые элементы

Известно, что поисковые системы не индексируют коды скриптов (JavaScript, VBScript) и файлы апплетов (Java-приложений), а вариантов реализации различных выпадающих меню, навигаций, реализованных с их помощью, существует множество. Поэтому, чтобы избежать проблем при индексации сайта роботами поисковых систем, следует разрабатывать такие варианты навигации, где в меню стоят прямые ссылки, индексируемые роботами.

5. Заключение

В идеале - технические аспекты взаимодействия сайта с роботами поисковых систем нужно продумывать и пытаться реализовать еще на этапе проектирования сайта. Если же по каким-либо причинам этого сделать не удалось – наш мастер-класс создан, чтобы помочь сделать это сейчас!

Есть о чем рассказать? Тогда присылайте свои материалы в редакцию.


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Поделиться 
Поделиться дискуссией:
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Как построить качественную ссылочную массу сайта
Айрат Рахимзянов
38
комментариев
0
читателей
Полный профиль
Айрат Рахимзянов - Спасибо Кирилл. Сейчас восстановилась работа сервиса: take.ms/ttXrw
Анализ ссылок: сравнение многофункциональных платформ по размеру их баз
Андрей Ольшевский - Очень неточная статистика, объясню почему. Довольно часто делаю анализ сайтов на качество и объём ссылочной массы. Всегда делаю выгрузку из трех источников – Вебмастера Яндекса, сервиса Мегаиндекс, сервиса Линкпад. Потом с помощи алгоритмов и функции Excel отсеиваются много дублей, битых ссылок, несуществующих урл и тп. Как показала практика, вебмастера Яндекса вполне достаточно, там вся информация и она самая актуальная, в других сервисах куча мусора, а нового, чтоб было найдено и проиндексировано ПС - очень мало. Поэтому мирятся количеством в данном анализе не профессионально.
Как создать интернет-магазин: сколько стоит открытие?
Пришел посмеяться
1
комментарий
0
читателей
Полный профиль
Пришел посмеяться - Я просто посмеюсь :D Даже не хочу ничего особо говорить :D Смех, а не статья.
ТОП-10 автоматизированных сервисов контекстной рекламы
Гость - Действительно, очень плохая статья. А у редактора Блондинки видимо слишком много свободного времени.
Кому и зачем нужен маркетплейс от Яндекса
Дарья Калинская
212
комментария
0
читателей
Полный профиль
Дарья Калинская - Максим, спасибо, рада, что статья оказалась полезной )
Конкурс: угадай победителя рейтинга «Известность бренда SEO-компаний»
Андрей
1
комментарий
0
читателей
Полный профиль
Андрей - Оптимизм Дэмис Кокос Ашманов и Партнеры Раш эдженси
Инструкция по применению: обзор сервиса обратного звонка Callbackhunter
Полина Ковальчук
1
комментарий
0
читателей
Полный профиль
Полина Ковальчук - Возможно, но не советую экономить на этом сервисе, функционал то тоже круче, чем у аналогов. Вы создаете сайт для получения денег и чем качественнее Вы выстроите продвижение, тем больше лидов Вы получите!
Тест: Какой ты интернет-маркетолог?
Петр - Мда уж, есть ряд очень и очень субъективных вопросов, например с картинками и ctr или с несколькими вариантами ответа, когда из 5 пунктов надо выбрать 4, что несерьезно. Поэтому, как минимум, к этому тесту нельзя относиться серьезно. Его надо очень серьезно дотягивать, а не вываливать отсебятину.
Комплексный аудит от А до Я: анализируем интернет-магазин напольных покрытий и межкомнатных дверей
Ivan Kutas
1
комментарий
0
читателей
Полный профиль
Ivan Kutas - Иногда сайты выгружают данные из GA в SimilarWeb. В Казахстане некоторые крупные новостники регулярно это делают.
Чек-лист: SEO для B2B-бизнеса
Антон Зозуля
8
комментариев
0
читателей
Полный профиль
Антон Зозуля - Ваша цель вывести страницу, на которой будет только ваш товар (обычно это фильтр бренд/производитель в нужном каталоге) по СЧ запросам в ТОП. Например, вы продаете "велосипеды Елочка". В каталоге дилера велосипеды, вы выбираете Бренд - "Елочка" и должны получить страницу "велосипеды Елочка". Она должна быть на уникальном урл, иметь уникальные метатеги, лучше, чтобы был SEO-текст. После этого ваша задача получить на нее трафик по запросам: идеально: купить велосипед, цена велосипед хуже: велосипед дешево, китайский велосипед еще хуже (меньше трафика и ниже конверсия, но они есть): велосипед + [регион], велосипед + [фильтр другой]. Тут трудно без прямого влияния на содержимое страницы (метатеги и текст). ПС бренд елочка выдуман. :)
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
285
Комментариев
262
Комментариев
212
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
123
Комментариев
97
Комментариев
97
Комментариев
95
Комментариев
80
Комментариев
71
Комментариев
67
Комментариев
60
Комментариев
55
Комментариев
52
Комментариев
50
Комментариев
45
Комментариев
44

Отправьте отзыв!
Отправьте отзыв!