Управление индексацией страниц

Россия+7 (495) 960-65-87
Шрифт:
0 3649

1. Введение
2. Управление индексацией при помощи файла robots.txt
3. Мета-теги
4. Другие способы.
5. Заключение

1. Введение

Количество ресурсов, проиндексированных поисковыми системами, постоянно растет. Чтобы ресурс мог попасть в базу поисковой системы, поисковику, как минимум, необходимо сообщить о существовании вашего ресурса. Узнать о нем поисковик может, если вы зарегистрируетесь в поисковой системе, либо перейдя на ваши страницы по ссылке с ресурсов, уже проиндексированных системой. После этого поисковый робот будет время от времени возвращаться на ваши страницы, обновляя информацию о них. Постоянная индексация ресурса – один из важнейших элементов в работе поисковых систем. Но здесь могут возникнуть некоторые сложности.

О том, как помочь поисковым машинам регулярно посещать сайт, пойдет речь в данном мастер-классе. Мы постараемся охватить все аспекты этого процесса, рассмотрев способы управления индексацией страниц сайта.

2. Управление индексацией при помощи файла robots.txt

Файл robots.txt, который находится на сервере, сообщает поисковым роботам, какие файлы им следует индексировать, а какие нет.Robots.txt состоит из записей. Каждая запись – как минимум из двух строк: строки с названием клиентского приложения – User-agent, и одной или нескольких строк, начинающихся с директивы Disallow. Пустые строки в файле robots.txt являются значимыми, они разделяют записи, содержащие разные строки.

User-agent

Служит для указания робот какой поисковой системы не должен индексировать следующие странцы:

  • Google – «googlebot»;
  • Яндекса – «Yandex»;
  • Рамблера – «StackRambler»;
  • Yahoo! – «Yahoo! Slurp»;
  • MSN – «msnbot».

Символ подстановки «*» используется в случае, если надо запретить индексацию страниц для роботов всех поисковиков:

User-agent: *

Disallow

Директива, сообщающая роботу, какие файлы и/или папки запрещено индексировать.

Например, запрет индексировать и файл «catalog.html», и папку «catalog» выглядит следующим образом:

Disallow: /catalog

Если директива Disallow пустая, это значит, что робот может индексировать все файлы. Одна директива Disallow должна присутствовать для каждого поля User-agent как минимум, чтобы robots.txt был корректно воспринят поисковыми системами. Составленный с ошибками robots.txt может спровоцировать некорректную индексацию станиц сайта. Полностью пустой robots.txt означает то же самое, что и его отсутствие на сервере.

Правильно составленные robots.txt:

Всем поисковым системам разрешено полностью индексировать сайт:

User-agent: *
Disallow:

Индексация сайта запрещена всеми поисковыми системами:

User-agent: *
Disallow: /

Запрет на индексацию папки «image» всеми поисковыми системами:

User-Agent: *
Disallow: /image/

Любой текст от знака решетки “#” до конца строки считается комментарием и поисковыми ботами игнорируется.
Нестандартная директива Host. Необходима, чтобы указать поисковому роботу, какое зеркало сайта индексировать.

User-Agent: *
Disallow: /image/
Host: www.site.com

3. Мета-теги

С помощью мета-тегов тоже можно управлять индексацией страниц сайта.META-теги должны находиться в заголовке HTML-документа (между тегами

и ). Они имеют два возможных атрибута:

< meta http-equiv="имя" content="содержимое">
< meta name="имя" content="содержимое">

NAME

META-теги с атрибутом NAME используются в случаях, когда поля не соотносятся с HTTP-заголовками.
Наиболее полезные МЕТА-теги, которые помогут поисковикам правильно индексировать страницы вашего сайта:

  • expires" CONTENT="Wed, 01 Aug 2006 08:21:57 GMT"> – указывает, когда информация на документе устареет, и браузер должен будет взять новую копию, а не грузить из кэша.
  • < meta http-equiv="pragma" content="no-cache"> – контроль кэширования для HTTP/1.0. Не позволяет кэшировать страницы.
  • < meta http-equiv="refresh" content="7, URL=http:www.server.compage.html"> – определение задержки в секундах, после которой браузер автоматически обновляет документ. Если вместо "7", например, указать "1", то это будет редирект. URL может быть как глобальным, так и локальным.
  • < meta name="robots" content="all"> или < meta name="Robots" content="NOINDEX,FOLLOW"> – управление индексацией страниц для поисковых роботов. В данном случае, указывает поисковому роботу, чтобы он индексировал все страницы.
  • < meta name="description" content="Описание страницы или сайта"> – необходим для поисковых систем (и для вас), чтобы в выдаче сайта в результатах поиска, в качестве названия брать не заголовок страницы или первые попавшиеся на странице слова, а достаточно полное описание. Допустимо использовать в описании до 100 символов.
  • < meta name="keywords" content="ключевые, слова, о, вашей, странице, через, запятую"> – повышает вероятность нахождения страницы поисковиком.
  • < meta name="document-state" content="dynamic"> – управление индексацией страницы для поисковых роботов. Определяет частоту индексации. В данном случае указывается, что ваш документ является динамичным и роботу следует индексировать его регулярно.

Нет гарантии, что поисковые системы учитывают содержимое мета-тегов, индексируя сайт. Тем более нет гарантии, что эта информация будет учитываться при ранжировании сайта в выдаче. Но мета-теги полезны хотя бы тем, что при индексации страниц позволяют поисковикам получить необходимую информацию о ресурсе.

4. Другие способы.

1) Проблема нерегулярной индексации страниц сайта может быть связана с организацией структуры сайта. Для лучшей индексации страниц их url должен иметь статический или псевдостатический вид.

http://www.site.ru/cat.htm

Значительно хуже индексируются динамические страницы:

http://www.site.ru/index.php?option=content&task=view&id=7&Itemid=31

Существует некоторые программные способы, чтобы на запрос динамической страницы выдавать другой (псевдостатический) URL. Но лучше не надеяться на такие методы и изначально формировать полностью статическую структуру своего сайта. Это намного упрощает работу поисковиков, а также улучшает восприятие страниц непосредственными пользователями. В конце концов, статические URL выглядят «эстетичнее» и подчеркивают хороший стиль разработки.
Если страница динамическая, то это говорит поисковику, что содержимое на этой странице может изменяться неоднократно даже в течение дня. Следовательно, может возникнуть проблема, когда в выдаче появляется страница с уже устаревшим содержимым.
Необходимо следить, чтобы на сайте не присутствовали идентификаторы сессий в URL страниц. В противном случае существует опасность "склеивания" страниц. Такие страницы впоследствии невозможно индексировать.

2) Существуют системы, с помощью которых происходит управление сайтом – CMS. Такие системы позволяют создать сайт, осуществлять его продвижение, контроль и поддержку.
В основном это платные системы. Чаще всего они содержат такие функции:

    a. Удобный и быстрый доступ ко всему текстовому содержимому сайта.
    b. URL страниц сайта без специальных символов, которые могут некорректно распознаваться поисковыми системами.
    c. Ручной контроль над тегами Title, Keywords, Description, имеющими ключевое значение для продвижения сайта.
    d. Удобная установка специальных текстовых блоков и счетчиков.

3) Многие разработчики при проектировании структуры сайта не учитывают, что поисковики не могут анализировать слишком сложный код.
Например, бесспорно, что флеш-навигация очень привлекательна для пользователей. Но не все поисковики могут пройти по находящимся там элементам.
Приведем несколько советов по организации структуры сайта для лучшей индексации его поисковиками.

  • Страницы сайта должны быть хорошо доступны. Для этого на сайте необходима качественная ссылочная структура (текстово-ссылочная). На сайте должны присутствовать ссылки на внутренние страницы сайта. Надо постоянно осуществлять контроль на наличие неработающих ссылок.
  • Умеренное использование графики.
  • Не использовать фреймовую структуру. Она неудобна в использовании как поисковиками, так и пользователями.
  • Не использовать на страницах сайта слишком много ссылок на внешние ресурсы. Т.к. это может спровоцировать то, что робот уйдет на этот ресурс и проиндексирует не все страницы сайта.
  • Следить за техническим состоянием сайта, чтобы роботы, неоднократно наткнувшиеся на неработающий сайт, не перестали вообще его посещать. Для этого необходимо тщательно выбирать хостинг для вашего ресурса.

5. Заключение

В среде оптимизаторов имеют место многочисленные попытки манипулирования процессами как ссылочного, так и текстового ранжирования. Но все эти действия абсолютно бесполезны, если робот поисковой системы не ходит по страницам сайта. Чтобы не потерять «драгоценную» возможность находится «под крылом» поисковика, оптимизаторы должны следовать всем правилам пользования поисковыми системами, постоянно контролировать их посещаемость, выявлять и устранять проблемы, улучшать структуру сайта, если это не было сделано до выпуска сайта в плавание по Интернету.

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    SEOnews и Serpstat запускают конкурс для интернет-маркетологов
    Marina Lagutina
    1
    комментарий
    0
    читателей
    Полный профиль
    Marina Lagutina - Добрый день! Видимо я из тех, кто пытается последней вскочить в уходящий поезд. Ночью написала статью на тему "обзор инструментов контент-маркетинга". Своего блога нет. Отправила вам не мейл. Я еще могу у вас разместиться или искать, кто возьмет статью к себе в блог?
    «Я оптимизировал сайт, а он не в ТОП! Что делать?»
    Павел Горбунов
    7
    комментариев
    0
    читателей
    Полный профиль
    Павел Горбунов - Как можно в инструменте tools.pixelplus.ru/tools/text-natural сравнить текст со страницы конкурента и со своей страницы? Я вижу возможность только для проверки одного урла.
    Монетизация сайта. Как, когда, сколько?
    Гость2
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость2 - Руслан! Спасибо за ваш сервис и за данную статью в частности! С апреля являюсь вашим пользователем - очень доволен как сервисом, так и уровнем заработка! Еще раз спасибо, удачи вашему проекту!
    Мир глазами поисковых систем
    Александр Рунов
    7
    комментариев
    0
    читателей
    Полный профиль
    Александр Рунов - Какой регион, если не секрет? В Мск, в ряде ВК тематик (в тех же "окнах" или "колесах"), без работы с внешними факторами по ВЧ запросам в ТОП не выплывешь. Хотя в большинстве направлений вполне реально.
    Влияние HTTPS на ранжирование региональных поддоменов в Яндексе
    Екатерина Иванова
    1
    комментарий
    0
    читателей
    Полный профиль
    Екатерина Иванова - Посмотрите на сколько упал трафик и на сколько потом вырос:упал на 10-20% на 1 месяц, а вырос в итоге в 5 раз. Одним мартовским трафиком всё падение перекрыли. Или можно ждать Яндекс неопределённое количество времени со стартовым уровнем трафика. Упущенные возможности и всё-такое.
    День рождения SEOnews: 12 лет в эфире!
    Анна Макарова
    308
    комментариев
    0
    читателей
    Полный профиль
    Анна Макарова - Ура )
    7 причин не работать на биржах копирайтинга
    Dasha Shkaruba
    6
    комментариев
    0
    читателей
    Полный профиль
    Dasha Shkaruba - Спасибо за мнение! Кстати, на бирже главреда прием анкет закрыт
    Google.ru внесли в реестр запрещенных сайтов
    Гость
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость - Гон, все работает и будет работать. Да и пусть банят, будет как с рутрекером.
    Инфографика: самые распространенные SEO-ошибки Рунета
    Alex Wise
    3
    комментария
    0
    читателей
    Полный профиль
    Alex Wise - Спасибо, Женя, за рекомендацию! :) Андрей, чтобы понять, какой программой пользоваться, нужно сделать несколько вещей: 1. Попробовать обе: у нас в Netpeak Spider бесплатный триал на 14 дней с полным функционало; у SFSS до 500 URL всегда бесплатно, но с ограниченным функционалом. 2. Понять свой стиль работы – если вы любите полный контроль и из-за этого более высокую скорость пробивки, тогда выбирайте Netpeak Spider. Если для вас не так важна скорость и количество пробитых URL, то можно остановиться на SFSS. 3. Определиться с нужными функциями: их в обоих программах очень много и как в Netpeak Spider есть уникальные, так и в SFSS есть свои уникальные. Мы всегда ориентируемся на то, чтобы быстро и чётко показать ошибки – для этого у нас вся таблица красится в соответствующие цвета. Думайте!) И, если что, обращайтесь с вопросами – мы будем рады помочь!)
    Конкурс: угадайте пятерку лидеров рейтинга «SEO глазами клиентов 2017»
    Оля
    1
    комментарий
    0
    читателей
    Полный профиль
    Оля - 1 Ingate 2 Wezom 3 Bynjg vtlbf 4 seo energy 5 директ лайн
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    308
    Комментариев
    262
    Комментариев
    224
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    80
    Комментариев
    77
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    55
    Комментариев
    53
    Комментариев
    52
    Комментариев
    46

    Отправьте отзыв!
    Отправьте отзыв!