×
Россия +7 (495) 139-20-33

Индексация сайта как процесс

Россия +7 (495) 139-20-33
Шрифт:
1 9548

Индексация сайта

Николай Евдокимов Немного истории
С увеличением объема информации, представленной в интернете, возник вопрос эффективного и быстрого поиска необходимых данных. Вначале данную функцию выполняли веб-каталоги - упорядоченные по тематике списки ссылок. Их составляли вручную, нередко привлекая в качестве модераторов добровольцев. От качества и количества представленных в каталоге сайтов зависела его популярность. С течением времени люди придумали более эффективный способ искать информацию - при помощи поисковых систем.

Интернет - это гипертекстовая среда, и можно предположить, что все страницы и документы связаны между собой ссылками. Если есть сайт, то хотя бы одна ссылка должна вести на него. Соответственно, переходя по ссылкам от одного сайта к другому и сохраняя представленную на них информацию, можно занести в базу данных все сведения, находящиеся в интернете. По этому принципу стали работать поисковые машины. Специальные программы - поисковые роботы - находили сайты и передавали их на обработку. На первом этапе создания поисковых машин вручную составлялись списки индексации, чтобы облегчить роботам нахождение всех значимых сайтов. В дальнейшем это перестало быть необходимым. В идеале, переходя по ссылкам, можно найти все документы. Но на практике так не получается. Содержание сети быстро меняется, и отслеживать все изменения в режиме реального времени не удается. Базы данных даже самых крупных поисковых систем охватывают максимум половину информации, представленной в сети.

Сергей БаировПрародителем поисковых роботов стала программа Archie (Арчи). Она сканировала анонимные FTP сервера и фиксировала названия находящихся там файлов. Арчи работал в интернете еще тогда, когда в глобальной паутине не было и сотни серверов HTTP! Первый поисковым роботом в современном значении этого слова стал Вандерер (Wanderer). А первые поисковые машины возникли в интернете в середине 90-х годов. Среди поисковиков того времени можно назвать Excite, Lycos, Infoseek. Самой популярной и совершенной считалась AltaVista. Она использовала собственного поискового робота и обладала удобным дизайном. Надо отметить, что дизайнерские решения, которые впервые применила AltaVista, в дальнейшем нашли свое отражение в большинстве популярных поисковых машин, включая Google.

Со временем поисковые машины начали конкурировать между собой, появились новые подходы к поиску информации. В частности, некоторые системы начали интегрировать результаты поиска по индексу и какому-либо популярному каталогу, например, Yahoo.Самая популярная ныне поисковая машина Google появилась в 1998 году. Российские поисковые машины также начали работать в середине 90-х годов. Например, Рамблер и Апорт открылись в 1996 году. Некоторое время каталог Рамблер Топ 100 был самым популярным ресурсом в Рунете. Поисковая машина "Яндекс" появилась в 1997. На сегодня данная система обладает самой большой базой документов среди аналогичных проектов в Рунете.

Типы поисковых машин
Важно отличать каталог от поисковой машины. В большинстве каталогов существует возможность поиска, но он ведется исключительно по базе сайтов, внесенных в каталог. И содержание ресурсов не учитывается - в расчет берется только категория, название и реже - описание сайта. Как правило, владельцы сайтов самостоятельно подают заявки на добавление своего проекта.

В каталогах все сайты представлены по рубрикам. Посетители могут находить интересующий их раздел и просматривать список сайтов в нем. Чаще всего кроме ссылок и названий каждый ресурс имеет краткое или подробное описание. В Интернете есть тысячи каталогов, но популярных и авторитетных не так много. К числу последних можно отнести каталоги Яндекса и DMOZ. Кроме повышения цитируемости сайта, они дают реальный трафик (переходы пользователей) на представленные в них ресурсы.Иначе работают поисковые машины. Они автоматически индексируют содержание ресурсов в интернете и формируют на этой основе базу данных (индекс). В ней содержится информация о содержании сайта, ссылках на конкретный ресурс и другие полезные сведения. Новые сайты поисковые машины находят по ссылкам. Таким образом, подавать заявку на добавление сайта в индекс поисковой машины не обязательно. Со временем поисковый робот сам найдет ваш ресурс. Хотя заявку можно добавить, например, для ускорения этого процесса.

Существуют также метапоисковые машины. Их основное отличие заключается в том, что они формируют результаты на основе выдачи нескольких поисковых машин.

Как проходит индексация
Индексация ресурса начинается с приходом на сайт поискового робота (спайдера, кроулера) - это специальная программа, которая обходит все ресурсы в интернете и передает их содержимое для обработки индексаторам. Иногда отдельно выделяют кроулеров - кроме поиска, данный тип роботов может самостоятельно анализировать, по какой ссылке в документе ему дальше идти.

Конечно, для анализа передаются не все данные. Чаще всего содержание ресурса очищается от ненужных тегов. Далее идет обработка, определение веса, частоты, плотности ключевых слов. Обработанная информация попадает в базу данных поисковой системы (индекс).

Такая "самостоятельность" поисковых роботов может привести к негативным последствиям. Например, если в индекс попадут документы, которые владелец ресурса не желает показывать по тем или иным причинам, либо страницы, которые сам владелец считает малоинформативными или техническими. Для избежания подобных ситуаций был создан протокол Robot Exclusion Protocol, который позволяет запретить индексацию всего сайта или его части. На практике команды прописываются в файле robots.txt , который помещают в корневой каталог сайта. Например, если адрес вашего сайта www.site.com, то текстовый файл должен лежать по адресу www.site.com/robots.txt. В противном случае поисковые роботы не найдут его и проиндексируют весь ресурс.

Подробно о Robots.txt

Файл robots.txt состоит из записей вида:
User-agent: *
Disallow: test.htm
Поле User-agent указывает на поискового робота, которому предписана команда. Каждый поисковый робот имеет собственное имя, например, бота Google "зовут" googlebot. Если в этой строке поставить звездочку (*), то команда распространится на всех поисковых роботов без исключения. В поле Disallow указано, что запрещено индексировать. В данном поле можно указать конкретный файл, директорию или типы файлов. Например:Disallow: test.htm - запрещено индексировать файл test.htmDisallow: /cgi-bin/ - запрещено индексировать содержимое папки cgi-binDisallow: /*.doc$ - запрещено индексировать файлы с расширением .docВ файл robots.txt можно записывать комментарии. Для этого вначале строки необходимо ввести знак #.

Запретить индексировать документ также можно с помощью meta-тегов. Например, данная срока запрещает поисковому роботу индексировать документ:
‹meta name="robots" content="noindex,follow"›
Существуют четыре типа команд:
INDEX,FOLLOW - роботы проиндексируют страницу и пройдут по ссылкам на ней
INDEX,NOFOLLOW - роботы проиндексируют страницу, но ссылки на странице будут проигнорированы
NOINDEX,FOLLOW - страница не будет проиндексирована, но роботы пройдут по ссылкам
NOINDEX,NOFOLLOW - содержимое страницы и ссылки на ней будут проигнорированы‹a href="http://site.com" rel="nofollow"›Текст ссылки‹/a›

Отечественные поисковые машины, в частности, Яндекс и Рамблер понимают еще один тег: ‹noindex›‹/noindex›. Все, что в нем содержится, игнорируется поисковыми роботами этих систем. Данный тег можно использовать, чтобы закрыть часть кода от индексации. Таким образом, можно повысить плотность ключевых слов на странице. Однако использовать ‹noindex› не рекомендуется, ведь многие поисковые машины его не воспринимают.

Если у вас небольшой сайт, состоящий из 10-20 страничек, файл robots.txt можно сделать вручную. Если проект большой, ручная работа может обернуться потерей времени и множеством ошибок. Из-за последних в индекс могут попасть лишние документы. Избежать этого можно, если воспользоваться программными средствами для автоматизации процесса.

Так, в программе Page Promoter для работы с файлом robots.txt предусмотрен визуальный редактор. В нем находятся две закладки. На первой можно выбрать поисковых роботов, на второй - запретить конкретным поисковым роботам индексировать часть сайта или весь ресурс. В программе находится информация о более чем 180 поисковых роботах, принадлежащих самым известным поисковым машинам мира. По каждому роботу можно посмотреть подробную информацию, в частности, название поискового сервиса, имя робота, страну и основной язык поисковика. Кроме того, программа Page Promoter позволяет импортировать файл robots.txt. Очень удобно, если вам необходимо исправить или проверить какой-либо файл.

Глава 5: "Процесс индексации"

Процесс индексации
К сожалению, не всегда индексация ресурса проходит идеально. Нередко возникают проблемы, которые препятствуют индексации части и даже всего веб-сайта. Либо ресурс полностью вылетает из индекса. Очень часто причиной таких явлений становятся ошибки, допущенные во время разработки проекта.
Специалисты выделают три типа ошибок, которые препятствуют нормальной индексации сайта:

Использование конструкций, препятствующих индексации
Засорение индекса дубликатами страниц
Препятствия индексированию сайта
К ошибкам первого типа относят использование скриптов и флэш для создания меню. Дело в том, что поисковые машины не умеют индексировать содержимое скриптов и Flash. Поэтому спрятанные в них ссылки они также не найдут и не перейдут по ним на другие документы. Если на вашем сайте использовано такое меню, выход - продублировать навигацию текстовыми ссылками, например, внизу страницы. Впрочем, ситуация с Flash сейчас немного лучше. Часть поисковые машин, к числу которых относятся Яндекс и Рамблер, научились индексировать Flash. Но остаются системы, которые не могут этого делать.

Популярная в прошлом ошибка - использование фреймов. Они позволяют разделить экран пользователя на несколько областей и в каждой открыть определенный документ. Использование фреймов замедляет индексацию документа. Также встает вопрос авторитетности того или иного документа. Если на главной странице открываются три разных html-файла, то неизвестно, какой из них поисковая машина посчитает главной страницей. Использование фреймов приносит множество проблем.

Осторожно следует подходить к использованию редиректа, который автоматически направляет посетителя с одной страницы на другую. Редирект на стороне клиента однозначно воспринимается поисковыми машинами как спам. Дело в том, что такой редирект часто используют владельцы дорвеев. Редирект на стороне сервера не относится к запрещенным технологиям, но также может вызвать проблемы. Например, с учетом внешних ссылок на документ.

Не всегда поисковые машины корректно индексируют динамические страницы. К их числу относятся страницы, в адресе которых находится знак вопроса, либо их разрешение отлично от .htm или .html. Некоторые поисковые системы накладывают ограничения на индексацию подобных документов и учет ссылок на них.

Засорение индекса дубликатами страниц происходит чаще всего при использовании идентификаторов сессии. В случае их применения каждому посетителю присваивается уникальный код, который дублируется в адресе страницы. Идентификаторы позволяют собирать информацию о поведении посетителей на сайте, но в то же время затрудняют индексацию ресурса. При каждом визите поисковый робот получает одни и те же страницы с разными адресами (из-за идентификаторов) и в поисковой машине копятся дубликаты страниц. В итоге сайт могут пессимизировать либо удалить из индекса большую часть документов. Сегодня идентификаторы потеряли свою актуальность - существует множество других инструментов для сбора статистики. Тем не менее, если на вашем сайте используются идентификаторы, необходимо избавиться от них или прописать запрет на присвоение идентификаторов поисковым роботам.Ошибки возникают в случае неправильно настроенного сервера. При обращении поискового робота к документу сервер сообщает в заголовке код, например, 200 (все OK). Есть другие коды: 301 (документ перемещен), 302 (временно перемещен), 404 (не найден). Проблемы возникают, если сервер передает код 200 (все ОК) для несуществующих страниц.

В случае очень крупных сайтов возникает еще одна проблема. Поисковые роботы за один визит индексируют определенное количество документов. Если ресурс содержит тысячи страниц, то на их индексацию потребуется несколько визитов ботов и соответственно больше времени. Владельцу сайта, наоборот, хочется увидеть все страницы в индексе как можно скорее. Решить проблему можно созданием поддоменов, например, отдельного поддомена для форума. Для каждого поддомена выделяется своя квота индексации и в итоге за один визит обрабатывается больше документов. Другое решение - запретить для индексации малоинформативные страницы. Тогда в индекс попадут только самые интересные для посетителей и поисковых машин документы.

Как добавить

Процесс индексации можно ускорить, если вручную подать заявку на добавление сайта в поисковую систему. Ниже приведены ссылки на страницы добавления сайтов в наиболее популярных поисковых системах:

Поисковая системаЯзыкСтранаСтраница для добавления нового сайта
Яндекс Русский Россия http://webmaster.yandex.ru/
Рамблер Русский Россия http://www.rambler.ru/doc/add_site.shtml
Апорт Русский Россия http://catalog.aport.ru/rus/add/AddUrl.aspx
LiveInternet.ru Русский Россия http://www.liveinternet.ru/add
Meta.uaРусский/УкраинскийУкраинаhttp://meta.ua/webmaster/addurl.asp
Google.ruМногоязыковойИнтернациональныйhttp://www.google.com/addurl/?continue=/addurl
Yahoo.comМногоязыковойИнтернациональныйhttp://search.yahoo.com/info/submit.html
MSN.comМногоязыковойИнтернациональныйhttp://search.msn.com/docs/submit.aspx
AltaVista.comМногоязыковойИнтернациональныйhttp://www.altavista.com/addurl/default
AOL.comМногоязыковойИнтернациональныйhttp://search.aol.co.uk/web_idx?help=add_sites
Looksmart.comМногоязыковойИнтернациональныйhttps://adcenter.looksmart.com/quick_start/ad_description
Lycos.comМногоязыковойИнтернациональныйhttp://insite.lycos.com/
Dogpile.comМногоязыковойИнтернациональныйhttps://client.enhance.com/ols/index.do?network=dogpile

При добавлении сайтов в поисковые машины необходимо учитывать ряд их особенностей. Например, для добавления сайта в поисковую систему Google необходимо, чтобы на ресурс стояла хотя бы одна внешняя ссылка. Тогда поисковый робот Google сам найдет ваш ресурс. Некоторые поисковые машины используют алгоритмы других поисковиков, а также учитывают наличие сайтов в определенных каталогах. Например, тот же Google и ряд других поисковых машин используют базу данных каталога DMOZ (http://dmoz.org/). Отечественная поисковая машина Mail.ru использует алгоритмы Яндекса.
(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Екатерина
    1
    комментарий
    0
    читателей
    Екатерина
    больше года назад
    Жду уже месяц индексацию и просто ничего. Может знает кто, платформа симпла называется, может это из-за нее? Или из-за домена на русском? Сайт  чистотаикрасота.рф
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
#SEOnews14: мы празднуем – вы получаете подарки!
Анна Макарова
0
комментариев
0
читателей
Полный профиль
Анна Макарова - Гость, добрый день! С победителями мы связывались сразу после розыгрыша. Если мы вам не написали, значит, ваш номер не выпал. Но не расстраивайтесь, у нас обязательно будут новые розыгрыши!
Google Data Studio: делаем красивые отчеты по контекстной рекламе для клиентов
Светлана Зубрицкая
1
комментарий
0
читателей
Полный профиль
Светлана Зубрицкая - Нужно убрать пробелы между строк и заменить кавычки на вот такие "
Как ускорить сайт на WordPress, чтобы получить 100/100 в Google PageSpeed Insights
Георгий
1
комментарий
0
читателей
Полный профиль
Георгий - Все что рекомендуется в этой статье есть у w.tools. Ни разу не пожалел что подключился. Своя CDN сеть, кеш статики и динамики, минификация js\css и кешируемого html, оптимизация всех типов картинок и еще куча всего полезного. Сайт летает и я не знаю проблем. Могу рекомендовать от души.
Война с дубликатами. Как нужно и как не нужно канонизировать URL
Ann Yaroshenko
5
комментариев
0
читателей
Полный профиль
Ann Yaroshenko - Дмитрий, добрый день! Если вы проставили на странице с автозапчастями rel=canonical ( а я вижу в коде, что не проставили) или в HTTP хедере, то бот, как правило: выберит ту страницу главной, которую вы указали в rel=canonical ссылке. Eсли же вы этого не сделали, то бот сам выберит оригинал (алгоритмы, по которым бот это делает, скрыты Googl-ом)
«Аудит, чтобы ты заплакала…», или Что делать, когда получил сторонний аудит сайта
Евгений
1
комментарий
0
читателей
Полный профиль
Евгений - Воообще, на самом деле здесь двоякое впечатление от таких аудитов. Конечно, для полного глубокого анализа и подготовки рекомендаций по сайту - нужны доступы к системам аналитики и инструментам вебмастера. Но если оценивать подобные аудиты с точки зрения чистого SEO (которое все больше и больше становится лишь малой частью digital-маркетинга, лишь одним из каналов) - они имеют место быть. Но с оговоркой, что они сделаны с учетом анализа конкурентов/отрасли. Современные инструменты и алгоритмы позволяют делать это маркетологам в автоматическом режиме, и даже давать рекомендации - возможностями машинного обучения уже никого не удивишь. Да, полное перечисление "мифического" списка ошибок, построенного по предикативным правилам, да еще и с учетом устаревших особенностей ПС - это явный признак некачественного аудита. В первую очередь потому, что эти "ошибки" следует рассматривать в качестве рекомендаций от ПС (как и говорится в справочнике вебмастера у Яндекса/Google). Однако если эти данные даются с отсылкой на данные о конкурентах, об отрасли, используются методы ML и Natural language processing для обработки исходных данных, кластеризации запросов, классификации страниц/запросов/сайтов, определения структуры документа - такие отчеты имеют право на существование. Но ключевым моментом является то, что подобные инструменты достаточно сложны в разработке, а значит требуют квалифицированных специалистов для их разработки. Которых просто нет у студий рассылающих подобные "сео отчеты". Подобные отчеты по "ошибках" тоже неплохой источник информации, но лишь на 0 этапе анализа сайта. И в принципе, теоретически, возможно почти полное составление "хороших аудитов" без участия маркетолога, на основе лишь открытых данных сайта/внешних источников, но только при соответствующем применении всех современных возможностей анализа данных и рекомендательных систем. И в любом случае подобный "хороший отчет" требует конечного заключения от эксперта.
От мечты стать юристом к собственному SMM-агентству. Как найти себя в современном цифровом мире
Виктор Брухис
5
комментариев
0
читателей
Полный профиль
Виктор Брухис - Статья выглядит так, как пожелали редакторы и интервьюер) Вопросы к интервью подбирал не я)) Хотя, в целом я согласен с вашим видением. А за пожелание удачи большое спасибо!
BDD 2019: Как перестать убивать время на сбор и обработку тонны данных для SEO-аудита
Kosta Bankovski
4
комментария
0
читателей
Полный профиль
Kosta Bankovski - Спасибо за приятные слова! Буду и дальше делиться наработками ;)
Как провести анализ содержания страниц товаров и категорий
Никита Седнин
3
комментария
0
читателей
Полный профиль
Никита Седнин - Спасибо!
Как вывести сайт в ТОП 10 Google в 2019 году
Ирина
8
комментариев
0
читателей
Полный профиль
Ирина - Работают. Как естественные, так и закупные. >Мои сайты в первую очередь заточены на яндекс Соболезную. >Насколько поисковые алгоритмы с гугловскими у него. Разница в 10 лет. Вон в Яше все долбят на ключи, на вхождения и прочий трэш из древностей. А у Гугла, вон почитайте про eat, ymyl Не все понятно но спасибо за ответы. Я так понимаю что с ссылками деть никто точно не знает) Ну это и хорошо вообщем. Самому разбираться как то интересней. Но не всегда. Есть к примеру 2captcha.com/ru и на него 100к ссылок есть. Ну а смысл какой?
Как построить качественный ссылочный профиль на основе конкурентов
Ирина
8
комментариев
0
читателей
Полный профиль
Ирина - Давно сотрудничаю с megaindex.com и считаю данный сервис одним из лучших в сео сегменте рунета да и не только рунета. Пользуюсь их инструментами для аналитики своих работ и выявлению своих и чужих ошибок. Да и ссылочный профиль, как и говорится в данной статье сделать гораздо проще и правильней при помощи как раз мегаиндекса. Добавлю еще что инструмент для поиска конкурентов у мегаиндекса очень удобный и простой в применении.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
360
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
107
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
79
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
55

Отправьте отзыв!
Отправьте отзыв!