×
Россия +7 (495) 139-20-33

Индексация сайта как процесс

Россия +7 (495) 139-20-33
Шрифт:
1 12404
Подпишитесь на нас в Telegram

Индексация сайта

Николай Евдокимов Немного истории
С увеличением объема информации, представленной в интернете, возник вопрос эффективного и быстрого поиска необходимых данных. Вначале данную функцию выполняли веб-каталоги - упорядоченные по тематике списки ссылок. Их составляли вручную, нередко привлекая в качестве модераторов добровольцев. От качества и количества представленных в каталоге сайтов зависела его популярность. С течением времени люди придумали более эффективный способ искать информацию - при помощи поисковых систем.

Интернет - это гипертекстовая среда, и можно предположить, что все страницы и документы связаны между собой ссылками. Если есть сайт, то хотя бы одна ссылка должна вести на него. Соответственно, переходя по ссылкам от одного сайта к другому и сохраняя представленную на них информацию, можно занести в базу данных все сведения, находящиеся в интернете. По этому принципу стали работать поисковые машины. Специальные программы - поисковые роботы - находили сайты и передавали их на обработку. На первом этапе создания поисковых машин вручную составлялись списки индексации, чтобы облегчить роботам нахождение всех значимых сайтов. В дальнейшем это перестало быть необходимым. В идеале, переходя по ссылкам, можно найти все документы. Но на практике так не получается. Содержание сети быстро меняется, и отслеживать все изменения в режиме реального времени не удается. Базы данных даже самых крупных поисковых систем охватывают максимум половину информации, представленной в сети.

Сергей БаировПрародителем поисковых роботов стала программа Archie (Арчи). Она сканировала анонимные FTP сервера и фиксировала названия находящихся там файлов. Арчи работал в интернете еще тогда, когда в глобальной паутине не было и сотни серверов HTTP! Первый поисковым роботом в современном значении этого слова стал Вандерер (Wanderer). А первые поисковые машины возникли в интернете в середине 90-х годов. Среди поисковиков того времени можно назвать Excite, Lycos, Infoseek. Самой популярной и совершенной считалась AltaVista. Она использовала собственного поискового робота и обладала удобным дизайном. Надо отметить, что дизайнерские решения, которые впервые применила AltaVista, в дальнейшем нашли свое отражение в большинстве популярных поисковых машин, включая Google.

Со временем поисковые машины начали конкурировать между собой, появились новые подходы к поиску информации. В частности, некоторые системы начали интегрировать результаты поиска по индексу и какому-либо популярному каталогу, например, Yahoo.Самая популярная ныне поисковая машина Google появилась в 1998 году. Российские поисковые машины также начали работать в середине 90-х годов. Например, Рамблер и Апорт открылись в 1996 году. Некоторое время каталог Рамблер Топ 100 был самым популярным ресурсом в Рунете. Поисковая машина "Яндекс" появилась в 1997. На сегодня данная система обладает самой большой базой документов среди аналогичных проектов в Рунете.

Типы поисковых машин
Важно отличать каталог от поисковой машины. В большинстве каталогов существует возможность поиска, но он ведется исключительно по базе сайтов, внесенных в каталог. И содержание ресурсов не учитывается - в расчет берется только категория, название и реже - описание сайта. Как правило, владельцы сайтов самостоятельно подают заявки на добавление своего проекта.

В каталогах все сайты представлены по рубрикам. Посетители могут находить интересующий их раздел и просматривать список сайтов в нем. Чаще всего кроме ссылок и названий каждый ресурс имеет краткое или подробное описание. В Интернете есть тысячи каталогов, но популярных и авторитетных не так много. К числу последних можно отнести каталоги Яндекса и DMOZ. Кроме повышения цитируемости сайта, они дают реальный трафик (переходы пользователей) на представленные в них ресурсы.Иначе работают поисковые машины. Они автоматически индексируют содержание ресурсов в интернете и формируют на этой основе базу данных (индекс). В ней содержится информация о содержании сайта, ссылках на конкретный ресурс и другие полезные сведения. Новые сайты поисковые машины находят по ссылкам. Таким образом, подавать заявку на добавление сайта в индекс поисковой машины не обязательно. Со временем поисковый робот сам найдет ваш ресурс. Хотя заявку можно добавить, например, для ускорения этого процесса.

Существуют также метапоисковые машины. Их основное отличие заключается в том, что они формируют результаты на основе выдачи нескольких поисковых машин.

Как проходит индексация
Индексация ресурса начинается с приходом на сайт поискового робота (спайдера, кроулера) - это специальная программа, которая обходит все ресурсы в интернете и передает их содержимое для обработки индексаторам. Иногда отдельно выделяют кроулеров - кроме поиска, данный тип роботов может самостоятельно анализировать, по какой ссылке в документе ему дальше идти.

Конечно, для анализа передаются не все данные. Чаще всего содержание ресурса очищается от ненужных тегов. Далее идет обработка, определение веса, частоты, плотности ключевых слов. Обработанная информация попадает в базу данных поисковой системы (индекс).

Такая "самостоятельность" поисковых роботов может привести к негативным последствиям. Например, если в индекс попадут документы, которые владелец ресурса не желает показывать по тем или иным причинам, либо страницы, которые сам владелец считает малоинформативными или техническими. Для избежания подобных ситуаций был создан протокол Robot Exclusion Protocol, который позволяет запретить индексацию всего сайта или его части. На практике команды прописываются в файле robots.txt , который помещают в корневой каталог сайта. Например, если адрес вашего сайта www.site.com, то текстовый файл должен лежать по адресу www.site.com/robots.txt. В противном случае поисковые роботы не найдут его и проиндексируют весь ресурс.

Подробно о Robots.txt

Файл robots.txt состоит из записей вида:
User-agent: *
Disallow: test.htm
Поле User-agent указывает на поискового робота, которому предписана команда. Каждый поисковый робот имеет собственное имя, например, бота Google "зовут" googlebot. Если в этой строке поставить звездочку (*), то команда распространится на всех поисковых роботов без исключения. В поле Disallow указано, что запрещено индексировать. В данном поле можно указать конкретный файл, директорию или типы файлов. Например:Disallow: test.htm - запрещено индексировать файл test.htmDisallow: /cgi-bin/ - запрещено индексировать содержимое папки cgi-binDisallow: /*.doc$ - запрещено индексировать файлы с расширением .docВ файл robots.txt можно записывать комментарии. Для этого вначале строки необходимо ввести знак #.

Запретить индексировать документ также можно с помощью meta-тегов. Например, данная срока запрещает поисковому роботу индексировать документ:
‹meta name="robots" content="noindex,follow"›
Существуют четыре типа команд:
INDEX,FOLLOW - роботы проиндексируют страницу и пройдут по ссылкам на ней
INDEX,NOFOLLOW - роботы проиндексируют страницу, но ссылки на странице будут проигнорированы
NOINDEX,FOLLOW - страница не будет проиндексирована, но роботы пройдут по ссылкам
NOINDEX,NOFOLLOW - содержимое страницы и ссылки на ней будут проигнорированы‹a href="http://site.com" rel="nofollow"›Текст ссылки‹/a›

Отечественные поисковые машины, в частности, Яндекс и Рамблер понимают еще один тег: ‹noindex›‹/noindex›. Все, что в нем содержится, игнорируется поисковыми роботами этих систем. Данный тег можно использовать, чтобы закрыть часть кода от индексации. Таким образом, можно повысить плотность ключевых слов на странице. Однако использовать ‹noindex› не рекомендуется, ведь многие поисковые машины его не воспринимают.

Если у вас небольшой сайт, состоящий из 10-20 страничек, файл robots.txt можно сделать вручную. Если проект большой, ручная работа может обернуться потерей времени и множеством ошибок. Из-за последних в индекс могут попасть лишние документы. Избежать этого можно, если воспользоваться программными средствами для автоматизации процесса.

Так, в программе Page Promoter для работы с файлом robots.txt предусмотрен визуальный редактор. В нем находятся две закладки. На первой можно выбрать поисковых роботов, на второй - запретить конкретным поисковым роботам индексировать часть сайта или весь ресурс. В программе находится информация о более чем 180 поисковых роботах, принадлежащих самым известным поисковым машинам мира. По каждому роботу можно посмотреть подробную информацию, в частности, название поискового сервиса, имя робота, страну и основной язык поисковика. Кроме того, программа Page Promoter позволяет импортировать файл robots.txt. Очень удобно, если вам необходимо исправить или проверить какой-либо файл.

Глава 5: "Процесс индексации"

Процесс индексации
К сожалению, не всегда индексация ресурса проходит идеально. Нередко возникают проблемы, которые препятствуют индексации части и даже всего веб-сайта. Либо ресурс полностью вылетает из индекса. Очень часто причиной таких явлений становятся ошибки, допущенные во время разработки проекта.
Специалисты выделают три типа ошибок, которые препятствуют нормальной индексации сайта:

Использование конструкций, препятствующих индексации
Засорение индекса дубликатами страниц
Препятствия индексированию сайта
К ошибкам первого типа относят использование скриптов и флэш для создания меню. Дело в том, что поисковые машины не умеют индексировать содержимое скриптов и Flash. Поэтому спрятанные в них ссылки они также не найдут и не перейдут по ним на другие документы. Если на вашем сайте использовано такое меню, выход - продублировать навигацию текстовыми ссылками, например, внизу страницы. Впрочем, ситуация с Flash сейчас немного лучше. Часть поисковые машин, к числу которых относятся Яндекс и Рамблер, научились индексировать Flash. Но остаются системы, которые не могут этого делать.

Популярная в прошлом ошибка - использование фреймов. Они позволяют разделить экран пользователя на несколько областей и в каждой открыть определенный документ. Использование фреймов замедляет индексацию документа. Также встает вопрос авторитетности того или иного документа. Если на главной странице открываются три разных html-файла, то неизвестно, какой из них поисковая машина посчитает главной страницей. Использование фреймов приносит множество проблем.

Осторожно следует подходить к использованию редиректа, который автоматически направляет посетителя с одной страницы на другую. Редирект на стороне клиента однозначно воспринимается поисковыми машинами как спам. Дело в том, что такой редирект часто используют владельцы дорвеев. Редирект на стороне сервера не относится к запрещенным технологиям, но также может вызвать проблемы. Например, с учетом внешних ссылок на документ.

Не всегда поисковые машины корректно индексируют динамические страницы. К их числу относятся страницы, в адресе которых находится знак вопроса, либо их разрешение отлично от .htm или .html. Некоторые поисковые системы накладывают ограничения на индексацию подобных документов и учет ссылок на них.

Засорение индекса дубликатами страниц происходит чаще всего при использовании идентификаторов сессии. В случае их применения каждому посетителю присваивается уникальный код, который дублируется в адресе страницы. Идентификаторы позволяют собирать информацию о поведении посетителей на сайте, но в то же время затрудняют индексацию ресурса. При каждом визите поисковый робот получает одни и те же страницы с разными адресами (из-за идентификаторов) и в поисковой машине копятся дубликаты страниц. В итоге сайт могут пессимизировать либо удалить из индекса большую часть документов. Сегодня идентификаторы потеряли свою актуальность - существует множество других инструментов для сбора статистики. Тем не менее, если на вашем сайте используются идентификаторы, необходимо избавиться от них или прописать запрет на присвоение идентификаторов поисковым роботам.Ошибки возникают в случае неправильно настроенного сервера. При обращении поискового робота к документу сервер сообщает в заголовке код, например, 200 (все OK). Есть другие коды: 301 (документ перемещен), 302 (временно перемещен), 404 (не найден). Проблемы возникают, если сервер передает код 200 (все ОК) для несуществующих страниц.

В случае очень крупных сайтов возникает еще одна проблема. Поисковые роботы за один визит индексируют определенное количество документов. Если ресурс содержит тысячи страниц, то на их индексацию потребуется несколько визитов ботов и соответственно больше времени. Владельцу сайта, наоборот, хочется увидеть все страницы в индексе как можно скорее. Решить проблему можно созданием поддоменов, например, отдельного поддомена для форума. Для каждого поддомена выделяется своя квота индексации и в итоге за один визит обрабатывается больше документов. Другое решение - запретить для индексации малоинформативные страницы. Тогда в индекс попадут только самые интересные для посетителей и поисковых машин документы.

Как добавить

Процесс индексации можно ускорить, если вручную подать заявку на добавление сайта в поисковую систему. Ниже приведены ссылки на страницы добавления сайтов в наиболее популярных поисковых системах:

Поисковая системаЯзыкСтранаСтраница для добавления нового сайта
Яндекс Русский Россия http://webmaster.yandex.ru/
Рамблер Русский Россия http://www.rambler.ru/doc/add_site.shtml
Апорт Русский Россия http://catalog.aport.ru/rus/add/AddUrl.aspx
LiveInternet.ru Русский Россия http://www.liveinternet.ru/add
Meta.uaРусский/УкраинскийУкраинаhttp://meta.ua/webmaster/addurl.asp
Google.ruМногоязыковойИнтернациональныйhttp://www.google.com/addurl/?continue=/addurl
Yahoo.comМногоязыковойИнтернациональныйhttp://search.yahoo.com/info/submit.html
MSN.comМногоязыковойИнтернациональныйhttp://search.msn.com/docs/submit.aspx
AltaVista.comМногоязыковойИнтернациональныйhttp://www.altavista.com/addurl/default
AOL.comМногоязыковойИнтернациональныйhttp://search.aol.co.uk/web_idx?help=add_sites
Looksmart.comМногоязыковойИнтернациональныйhttps://adcenter.looksmart.com/quick_start/ad_description
Lycos.comМногоязыковойИнтернациональныйhttp://insite.lycos.com/
Dogpile.comМногоязыковойИнтернациональныйhttps://client.enhance.com/ols/index.do?network=dogpile

При добавлении сайтов в поисковые машины необходимо учитывать ряд их особенностей. Например, для добавления сайта в поисковую систему Google необходимо, чтобы на ресурс стояла хотя бы одна внешняя ссылка. Тогда поисковый робот Google сам найдет ваш ресурс. Некоторые поисковые машины используют алгоритмы других поисковиков, а также учитывают наличие сайтов в определенных каталогах. Например, тот же Google и ряд других поисковых машин используют базу данных каталога DMOZ (http://dmoz.org/). Отечественная поисковая машина Mail.ru использует алгоритмы Яндекса.

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Екатерина
    1
    комментарий
    0
    читателей
    Екатерина
    больше года назад
    Жду уже месяц индексацию и просто ничего. Может знает кто, платформа симпла называется, может это из-за нее? Или из-за домена на русском? Сайт  чистотаикрасота.рф
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Накрутка поведенческих факторов: дорого, сложно, но можно. Если очень хочется
Oleg_bobr2012
1
комментарий
0
читателей
Полный профиль
Oleg_bobr2012 - Мда...Может Анне сразу в Яндекс написать кейсы по накрутке ПФ. Я бы такого сотрудника гнал вон.
28 способов повысить конверсию интернет-магазина
Татьяна
1
комментарий
0
читателей
Полный профиль
Татьяна - Очень действенные рекомендации представлены в статье! Всё четко расписано и легко внедряемо в работу интернет-магазинов.Удобство и наглядность+различные бонусы и скидки-именно то, что и цепляет покупателя.
Создали ресурс для металлургов, который позволяет следить за аналитикой рынка и осуществлять продажи
Наталья Сталь
3
комментария
0
читателей
Полный профиль
Наталья Сталь -
Какие сайты лидировали в поиске Яндекса и Google в 2023 году
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Если что по рейтингу вы не правы, есть ядро по которому производиться оценка и вы можете по нему самостоятельно все посмотреть. Единственный объективный рейтинг по SEO. Других не знаю Ну я вам скажу что это не так и в предыдущие года сайт моего клиента попадал в рейтинг, при чем несколько раз. И я прекрасно знал еще до объявления результатов кто лидер - рейтинг прозрачный, есть фразы по которым набираются баллы. В этом году наш сайт не попал в рейтинг например и это было понятно, что не попадет (по статистике позиций)
5 способов увидеть сайт глазами поисковика: анализируем скрытый контент и cloaking
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Сейчас клоаку прячут, так что под нее можно глянуть только с гуггловских ip. Сейчас только гуггл сервисами можно глянуть
Простые SEO-работы, которые могут увеличить прибыль компании. Часть 1
roma.lisov
1
комментарий
0
читателей
Полный профиль
roma.lisov - Воспользовался советом по проверке и настройке картинок на сайте – реально дельный совет. Вот вроде и просто, казалось бы, а мне в голову раньше не пришло. А такие нюансы, конечно, нужно знать)
Как продвигать сайт на Tilda: особенности продвижения и рекомендации специалистов
Konstantin Bulgakov
15
комментариев
0
читателей
Полный профиль
Konstantin Bulgakov - Спасибо за рекомендации, полезно. Но кажется, что тематика в кейсе не самая конкурентная + часть запросов в продвижение брендовые, там и без сео позиции будут в топе.
Простые SEO-работы, которые могут увеличить прибыль компании. Часть 2
dayitrix
1
комментарий
0
читателей
Полный профиль
dayitrix - Ну да, для начала важно хотя бы необходимый минимум работ провести, настроить все как положено. А уже потом в более далекие дебри SEO-оптимизации лезть. А то многие ни с того начинают и потом удивляются, почему результата нет.
Яндекс встроил нейросети в свой Браузер
RasDva
12
комментариев
0
читателей
Полный профиль
RasDva - О дааааа)
Как мы увеличили поисковый трафик на 30% с помощью ChatGPT
Светлана Светлана
23
комментария
0
читателей
Полный профиль
Светлана Светлана - Я сама работаю в маркетинге и недавно решила еще дополнительно пройти курсы по интернет маркетингу astobr.com/services/povyshenie-kvalifikatsii/menedzhment-upravlenie/internet-marketing/ , как по мне эти знания которые я получила, очень помогают мне в работе
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
387
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
120
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
64
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!