Зеркало сайта: что такое главное зеркало и как провести поиск зеркал сайта

Россия+7 (495) 960-65-87
Шрифт:
0 19419

1. Введение
2. Что такое «зеркало сайта»?
3. Как считается индекс цитирования зеркал?
4. Как с этим бороться?
5. Заключение

1. Введение

Поисковые системы, прежде всего, стремятся на запрос пользователя выдавать уникальную информацию. Сегодня по этой причине возникает достаточно проблем с повторяющимися документами. Поисковым машинам невыгодно:

  • во-первых, хранить повторяющиеся документы в своей базе;
  • во-вторых, засорять свою выдачу одинаковыми документами.
Поэтому как пользователи, так и поисковики очень негативно относятся к так называемым «дублям» и/или «зеркалам».

Качество поиска, а также размер индексной базы являются основными показателями, характеризующими любую поисковую систему. В качестве примера можно привести стремительный рост популярности поисковой машины Google (не только за рубежом, но и нашей стране), который идет пропорционально увеличению объема её индексной базы.

Что же касается Яндекса, то кроме технических проблем, которые он успешно решает за счет размещения своей индексной базы на нескольких независимых серверах (так называемая кластерная структура), ему постоянно приходится сталкиваться с проблемой дубликатов документов, происхождение которых разнообразно. Один и тот же документ может быть представлен в различных кодировках и форматах, может содержать незначительные включения в виде даты публикации, рекламы или ремарок другого автора. Постоянному копированию подвергаются новостные ленты, различные юридические и финансовые документы, отдельно взятые статьи.

2. Что такое «зеркало сайта»?

Зеркало – полная или частичная (более 80% совпадений) копия Интернет-ресурса (нередко расположенного на другом хосте). Возникать зеркала могут по совершенно разным причинам. С одной стороны – переезд сайта (изменение доменного имени), закрепление за одним и тем же содержанием нескольких доменных имен, вынесение кодировок на поддомены и пр. С другой стороны наличие дубликатов ресурса бывает необходимо владельцам высокопосещаемых Интернет-ресурсов для повышения надежности и доступности их сервиса (например, для разгрузки основного сайта).

Иногда, правда, «зеркала» получаются из-за неправильного определения домена на сервере. Ваш администратор сервера может определить домен domain.ru как *.domain.ru, что в последующем облегчит его жизнь при создании поддоменов третьего уровня. В дальнейшем, при определенных условиях, у вас может получиться неопределенное количество «зеркал» вашего сайта в виде ранее созданных доменов третьего уровня.

Например, на сервере Apache подобная ошибка возникает фактически самопроизвольно (при настройках по умолчанию) – при определении домена третьего уровня для вспомогательных целей.

Поисковой же системе хранить дублированные документы в базе, а также засорять выдачу почти одинаковыми документами не рационально – это и трата собственных ресурсов, и падение авторитета в глазах пользователей. Технология Яндекса по выявлению дубликатов постоянно меняется. Это необходимо учитывать, соблюдая при этом определенные правила, например: если сайт имеет несколько «зеркал», то первым индексацию в Яндексе должно пройти главное из них, т.к. остальные идентичные сайты зачастую игнорируются.

Например, если на сайте размещаются статьи, взятые с других Интернет-ресурсов, то, чтобы избежать попадания страницы в дубликат и исключения из результатов поиска, можно разбить текст статьи на отдельные части или включить больше ремарок редактора, перекрестных ссылок на материалы подобной тематики на этом же ресурсе и т.д. И наоборот, если ресурс продвигается за счет публикуемых на нем статей, чтобы после появления статьи на других Интернет-ресурсах не была идентифицирована Яндексом в качестве дубликата, не желательно ставить с данной страницы сайта ссылки на страницы-дублеры, а, наоборот, ссылаться с них на исходную статью.

Каждая поисковая машина использует свои собственные механизмы по выявлению и объединению (склейки) зеркал, но они не всегда срабатывают, а зачастую срабатывают не так, как хотелось бы: главным выбирается не то зеркало, которое нужно вам.

3. Как считается индекс цитирования зеркал?

Случается же, что технологии поисковых машин (и, в частности, Яндекса) по выявлению зеркал сайта дают сбой и может возникнуть ситуация, когда в индексах поисковиков хранится несколько копий одинаковых документов. Это негативно сказывается на ссылочные показатели, индекс цитирования (ТИЦ, ВИЦ), PR Интернет-ресурса.

Индексы цитирования так называемых зеркал (алиасов) объединяются, то есть все неповторяющиеся ссылки на зеркальные адреса суммируются под главным адресом. Главный адрес определяется автоматически и не может быть изменен.

При этом зеркалами считаются только сайты, абсолютно идентичные по структуре и содержанию. Если в интернете существует сайт и по нему проставляется редирект, в этом случае его CY никак не будет участвовать при подсчете индекса цитирования основного сайта.

Служба поддержки Яндекса советует: «Если вы хозяин ресурса и считаете, что ваш индекс цитирования получился заниженным по одной из этих причин, напишите, пожалуйста, письмо на support@catalog.yandex.ru».

4. Как с этим бороться?

Как было сказано, большое количество зеркал засоряет индексные базы поисковых машин и приводит к появлению дубликатов в результатах поиска. Например, когда робот Яндекса (Yandex/1.01.001 (compatible; Win16; H) – робот, определяющий зеркала сайтов) обнаруживает несколько зеркал сайта, он выбирает одно из них в качестве основного, остальные же из индекса удаляются. Если не управлять и не следить за индексированием зеркал, поисковая система самостоятельно выберет понравившееся ей зеркало, и оно может быть не тем, которое вам больше нравится. Преимущественно, главным зеркалом становится домен второго уровня (в сравнении с доменом третьего уровня) и тот домен, на который стоят ссылки с его зеркала. Поэтому на нем крайне не желательно устанавливать список ссылок «Зеркала сайта».

Что же делать, если сайт появляется в результатах поиска не с тем доменным именем? Как это исправить? И как самостоятельно осуществить поиск зеркал сайта?

Есть несколько решений:
  1. удалите все зеркала вашего сайта;
  2. разместите на главных страницах неглавных зеркал тег < meta name="robots" content="noindex, nofollow">, запрещающий их индексацию и обход по ссылкам;
  3. измените код главных страниц на неглавных зеркалах так, чтобы все внутренние ссылки были абсолютными и вели на основное зеркало.
Также для того, чтобы индексировалось выбранное вами зеркало, достаточно полностью запретить индексацию всех остальных зеркал при помощи файла robots.txt .

При этом есть несколько способов указать роботам поисковых машин на то, какое зеркало нужно считать главным.

Директива Host в robots.txt

Это можно сделать, используя нестандартное расширение стандарта robots.txt – указывать в конце секции директиву Host (нестандартное расширение от Яндекса), в качестве параметра которой указать имя основного зеркала. Если www.domain.ru – главное зеркало, то robots.txt должен выглядеть примерно следующим образом:

User-Agent: *
Disallow: /admin/
Host: www.domain.ru
Параметр директивы Host обязан состоять из одного допустимого имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и корректного номера порта (по умолчанию – 80), отделенным от имени хоста двоеточием:
Host: www.domain.ru:80
Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие директивы Disallow: /, т.е. полный запрет индексации (но при наличии хотя бы одной корректной директивы Host). Некорректно составленные строчки, содержащие директиву Host, игнорируются.

В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Host необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после записей Disallow (например, поисковая система Google полностью игнорирует секцию, в которой встречается директива Host).

Поэтому, если вы запрещаете индексирование каких-то страниц, для Яндекса есть смысл создать отдельную секцию, например:
User-Agent: *
Disallow: /admin/

User-Agent: Yandex
Disallow: /admin/
Host: www.domain.ru
Стоит заметить, что данный метод срабатывает, если все зеркала физически располагаются на одном сервере.

Абсолютные ссылки

Если вы на своем Интернет-ресурсе будете ссылаться со страницы на страницу с указанием полного адреса главного зеркала, например,

Текст ссылки
а не
Текст ссылки
поисковые системы смогут правильно определить главное зеркало.

Использование директив SSI

Если все зеркала сайта являются абсолютными копиями друг друга и существует возможность динамически формировать robots.txt (с использованием директив SSI), можно использовать robots.txt следующего вида:


User-Agent: *
Disallow: /

В данном случае роботу запрещен обход всех хостов, кроме www.domain.ru.

Как включать SSI, можно прочесть в документации по вашему серверу или обратиться к вашему системному администратору.

Серверный редирект

Предлагаемый метод является наиболее правильным и эффективным, но требует поддержки mod_rewrite (в большинстве случаев поддерживается только платными хостингами). В файл .htaccess в корне вашего сайта напишите:

RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} !^www.mainsite.ru$
RewriteRule ^ http://www.mainsite.ru/%{REQUEST_URI} [R=301,L]
После реализации одного из вышеперечисленных методов ваше главное зеркало будет автоматически изменено по мере обхода робота.

5. Заключение

При переезде накопленную популярность сайта можно сохранить только в системе Яндекс (т.е. сохранить ТИЦ и ВИЦ сайта). Поэтому имеет смысл поддерживать и старую версию Интернет-ресурса, если вы также работаете с иностранными поисковыми системами. Если со всех страниц сайта стоит серверный редирект на новые страницы, то новый домен будет считаться главным, а старый со временем будет удален из индексной базы.

Если же при очередной переиндексации будут найдены какие-либо отличия в содержимом различных зеркал, эти зеркала «расклеиваются» поисковыми системами – начинают считаться различными сайтами (каждый с отдельно взятым индексом цитируемости). Но стоит заметить, что при «расклейке» суммарная посещаемость каждого из зеркал (например, зеркала ВКонтакте) может существенно уменьшиться.

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Рейтинг «Известность бренда SEO-компаний 2017»: народное голосование
    Иван
    1
    комментарий
    0
    читателей
    Полный профиль
    Иван - 1) IT-Agency 2) Пиксели 3) 1ps 4) Ингейт 5) Нетпики
    «Баден-Баден»: как выйти из-под фильтра
    Сергей Дембицкий «Sima-Land.ru»
    16
    комментариев
    0
    читателей
    Полный профиль
    Сергей Дембицкий «Sima-Land.ru» - Скрины Метрики показывать не буду, но мы (sima-land.ru - 1,5 млн. стр. в поиске Яндекс) в сентябре загремели под ББ, в разгар сезона и вышли из-под фильтра, спустя 50 дней, удалив все тексты с сайта: категории + карточки товаров (описание). Трафик с Google только вырос. Тексты возвращать собираемся, но процесс будет длительный, тексты будем теперь писать исключительно полезные, т.к. было больно :-))
    Второе дыхание ссылочного продвижения
    Автопилот
    14
    комментариев
    0
    читателей
    Полный профиль
    Автопилот - Еще лучше, когда продвижение осуществляется комплексно :)
    Кейс: продвигаем бизнес по продаже пластиковых окон в Москве
    Иван Стороженко
    5
    комментариев
    0
    читателей
    Полный профиль
    Иван Стороженко - 1. По началу вообще не использовали, сейчас уже много каналов используется. 2. Все может быть, в принципе сайты должны быть удобны для пользователя, для этого и нужна схожесть между собой. Честно говоря старались брать все самое интересное у конкурентов + подкреплять своими идеями.
    «Прямая линия» с Александром Алаевым («АлаичЪ и Ко»): отвечаем на вопросы
    Александр Алаев
    13
    комментариев
    0
    читателей
    Полный профиль
    Александр Алаев - Роман. Тут ответ очень простой. Каждый запрос можно четко разделить на коммерческий или некоммерческий. "Купить слона" и его длинные хвосты - коммерческий. "Как выбрать слона" и подобные - информационные. Вот под коммерческие ключи должны быть страницы услуг или каталога товаров. А под информационку - блог. Очень важно не путать их, тем более несоответствующая коммерческим факторам страниц просто не продвинется, то есть по запросу с "купить" блог никогда не будет показываться в выдаче, так же как и страница услуги/товаров не покажется по "как выбрать". Понятно примерно?
    Инфографика: самые распространенные SEO-ошибки Рунета
    Dmitro Grunt
    2
    комментария
    0
    читателей
    Полный профиль
    Dmitro Grunt - Кстати, у проектов которые продвигает Нетпик все тайтлы не более 65 символов? Или вы надеетесь что кто то послушает советов и отдаст вам часть трафика? :-)
    Сердитый маркетолог: как вы сами хороните свой сайт, или 16 принципов, которые нужно усвоить заказчикам SEO
    Анна Макарова
    313
    комментария
    0
    читателей
    Полный профиль
    Анна Макарова - Artem Sergeev, ваш комментарий удален за агрессивный настрой и безосновательные обвинения. Держите себя в руках!
    День рождения SEOnews: 12 лет в эфире!
    Анна Макарова
    313
    комментария
    0
    читателей
    Полный профиль
    Анна Макарова - Ура )
    7 причин не работать на биржах копирайтинга
    Dasha Shkaruba
    6
    комментариев
    0
    читателей
    Полный профиль
    Dasha Shkaruba - Спасибо за мнение! Кстати, на бирже главреда прием анкет закрыт
    «Прямая линия» с Артуром Латыповым: отвечаем на вопросы
    God Koss
    1
    комментарий
    0
    читателей
    Полный профиль
    God Koss - Добрый день! Есть сайты одной компании продвигающиеся в разных странах. .ru .com .net. На российском сайте два языка ru и en, на остальных до 10 языков. Недавно сайт ru по основному брендовому запросу выпал из выдачи Яндекс но после апа вернулся на вторую позицию. На вопрос аффилирования в тех поддержку, получит ответ, что всё в порядке и сайт com не учавствует в выдаче. Но он есть и занимает 1 место. Как быть в данной ситуации? Так же, после возврата в топ 10 по этому запросу зашла еще одна внутренняя страница. Могло ли это случиться из-за каннибализации запроса? Немного изменил description на внутренней, исключил вхождения брендового запроса. Жду апа. Хотел бы услышать ваше мнение. Заранее благодарю!
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    313
    Комментариев
    262
    Комментариев
    229
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    80
    Комментариев
    77
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    55
    Комментариев
    54
    Комментариев
    52
    Комментариев
    49

    Отправьте отзыв!
    Отправьте отзыв!