Зеркало сайта: что такое главное зеркало и как провести поиск зеркал сайта

Россия+7 (495) 960-65-87
Шрифт:
0 20634

1. Введение
2. Что такое «зеркало сайта»?
3. Как считается индекс цитирования зеркал?
4. Как с этим бороться?
5. Заключение

1. Введение

Поисковые системы, прежде всего, стремятся на запрос пользователя выдавать уникальную информацию. Сегодня по этой причине возникает достаточно проблем с повторяющимися документами. Поисковым машинам невыгодно:

  • во-первых, хранить повторяющиеся документы в своей базе;
  • во-вторых, засорять свою выдачу одинаковыми документами.
Поэтому как пользователи, так и поисковики очень негативно относятся к так называемым «дублям» и/или «зеркалам».

Качество поиска, а также размер индексной базы являются основными показателями, характеризующими любую поисковую систему. В качестве примера можно привести стремительный рост популярности поисковой машины Google (не только за рубежом, но и нашей стране), который идет пропорционально увеличению объема её индексной базы.

Что же касается Яндекса, то кроме технических проблем, которые он успешно решает за счет размещения своей индексной базы на нескольких независимых серверах (так называемая кластерная структура), ему постоянно приходится сталкиваться с проблемой дубликатов документов, происхождение которых разнообразно. Один и тот же документ может быть представлен в различных кодировках и форматах, может содержать незначительные включения в виде даты публикации, рекламы или ремарок другого автора. Постоянному копированию подвергаются новостные ленты, различные юридические и финансовые документы, отдельно взятые статьи.

2. Что такое «зеркало сайта»?

Зеркало – полная или частичная (более 80% совпадений) копия Интернет-ресурса (нередко расположенного на другом хосте). Возникать зеркала могут по совершенно разным причинам. С одной стороны – переезд сайта (изменение доменного имени), закрепление за одним и тем же содержанием нескольких доменных имен, вынесение кодировок на поддомены и пр. С другой стороны наличие дубликатов ресурса бывает необходимо владельцам высокопосещаемых Интернет-ресурсов для повышения надежности и доступности их сервиса (например, для разгрузки основного сайта).

Иногда, правда, «зеркала» получаются из-за неправильного определения домена на сервере. Ваш администратор сервера может определить домен domain.ru как *.domain.ru, что в последующем облегчит его жизнь при создании поддоменов третьего уровня. В дальнейшем, при определенных условиях, у вас может получиться неопределенное количество «зеркал» вашего сайта в виде ранее созданных доменов третьего уровня.

Например, на сервере Apache подобная ошибка возникает фактически самопроизвольно (при настройках по умолчанию) – при определении домена третьего уровня для вспомогательных целей.

Поисковой же системе хранить дублированные документы в базе, а также засорять выдачу почти одинаковыми документами не рационально – это и трата собственных ресурсов, и падение авторитета в глазах пользователей. Технология Яндекса по выявлению дубликатов постоянно меняется. Это необходимо учитывать, соблюдая при этом определенные правила, например: если сайт имеет несколько «зеркал», то первым индексацию в Яндексе должно пройти главное из них, т.к. остальные идентичные сайты зачастую игнорируются.

Например, если на сайте размещаются статьи, взятые с других Интернет-ресурсов, то, чтобы избежать попадания страницы в дубликат и исключения из результатов поиска, можно разбить текст статьи на отдельные части или включить больше ремарок редактора, перекрестных ссылок на материалы подобной тематики на этом же ресурсе и т.д. И наоборот, если ресурс продвигается за счет публикуемых на нем статей, чтобы после появления статьи на других Интернет-ресурсах не была идентифицирована Яндексом в качестве дубликата, не желательно ставить с данной страницы сайта ссылки на страницы-дублеры, а, наоборот, ссылаться с них на исходную статью.

Каждая поисковая машина использует свои собственные механизмы по выявлению и объединению (склейки) зеркал, но они не всегда срабатывают, а зачастую срабатывают не так, как хотелось бы: главным выбирается не то зеркало, которое нужно вам.

3. Как считается индекс цитирования зеркал?

Случается же, что технологии поисковых машин (и, в частности, Яндекса) по выявлению зеркал сайта дают сбой и может возникнуть ситуация, когда в индексах поисковиков хранится несколько копий одинаковых документов. Это негативно сказывается на ссылочные показатели, индекс цитирования (ТИЦ, ВИЦ), PR Интернет-ресурса.

Индексы цитирования так называемых зеркал (алиасов) объединяются, то есть все неповторяющиеся ссылки на зеркальные адреса суммируются под главным адресом. Главный адрес определяется автоматически и не может быть изменен.

При этом зеркалами считаются только сайты, абсолютно идентичные по структуре и содержанию. Если в интернете существует сайт и по нему проставляется редирект, в этом случае его CY никак не будет участвовать при подсчете индекса цитирования основного сайта.

Служба поддержки Яндекса советует: «Если вы хозяин ресурса и считаете, что ваш индекс цитирования получился заниженным по одной из этих причин, напишите, пожалуйста, письмо на support@catalog.yandex.ru».

4. Как с этим бороться?

Как было сказано, большое количество зеркал засоряет индексные базы поисковых машин и приводит к появлению дубликатов в результатах поиска. Например, когда робот Яндекса (Yandex/1.01.001 (compatible; Win16; H) – робот, определяющий зеркала сайтов) обнаруживает несколько зеркал сайта, он выбирает одно из них в качестве основного, остальные же из индекса удаляются. Если не управлять и не следить за индексированием зеркал, поисковая система самостоятельно выберет понравившееся ей зеркало, и оно может быть не тем, которое вам больше нравится. Преимущественно, главным зеркалом становится домен второго уровня (в сравнении с доменом третьего уровня) и тот домен, на который стоят ссылки с его зеркала. Поэтому на нем крайне не желательно устанавливать список ссылок «Зеркала сайта».

Что же делать, если сайт появляется в результатах поиска не с тем доменным именем? Как это исправить? И как самостоятельно осуществить поиск зеркал сайта?

Есть несколько решений:
  1. удалите все зеркала вашего сайта;
  2. разместите на главных страницах неглавных зеркал тег < meta name="robots" content="noindex, nofollow">, запрещающий их индексацию и обход по ссылкам;
  3. измените код главных страниц на неглавных зеркалах так, чтобы все внутренние ссылки были абсолютными и вели на основное зеркало.
Также для того, чтобы индексировалось выбранное вами зеркало, достаточно полностью запретить индексацию всех остальных зеркал при помощи файла robots.txt .

При этом есть несколько способов указать роботам поисковых машин на то, какое зеркало нужно считать главным.

Директива Host в robots.txt

Это можно сделать, используя нестандартное расширение стандарта robots.txt – указывать в конце секции директиву Host (нестандартное расширение от Яндекса), в качестве параметра которой указать имя основного зеркала. Если www.domain.ru – главное зеркало, то robots.txt должен выглядеть примерно следующим образом:

User-Agent: *
Disallow: /admin/
Host: www.domain.ru
Параметр директивы Host обязан состоять из одного допустимого имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и корректного номера порта (по умолчанию – 80), отделенным от имени хоста двоеточием:
Host: www.domain.ru:80
Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие директивы Disallow: /, т.е. полный запрет индексации (но при наличии хотя бы одной корректной директивы Host). Некорректно составленные строчки, содержащие директиву Host, игнорируются.

В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Host необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после записей Disallow (например, поисковая система Google полностью игнорирует секцию, в которой встречается директива Host).

Поэтому, если вы запрещаете индексирование каких-то страниц, для Яндекса есть смысл создать отдельную секцию, например:
User-Agent: *
Disallow: /admin/

User-Agent: Yandex
Disallow: /admin/
Host: www.domain.ru
Стоит заметить, что данный метод срабатывает, если все зеркала физически располагаются на одном сервере.

Абсолютные ссылки

Если вы на своем Интернет-ресурсе будете ссылаться со страницы на страницу с указанием полного адреса главного зеркала, например,

Текст ссылки
а не
Текст ссылки
поисковые системы смогут правильно определить главное зеркало.

Использование директив SSI

Если все зеркала сайта являются абсолютными копиями друг друга и существует возможность динамически формировать robots.txt (с использованием директив SSI), можно использовать robots.txt следующего вида:


User-Agent: *
Disallow: /

В данном случае роботу запрещен обход всех хостов, кроме www.domain.ru.

Как включать SSI, можно прочесть в документации по вашему серверу или обратиться к вашему системному администратору.

Серверный редирект

Предлагаемый метод является наиболее правильным и эффективным, но требует поддержки mod_rewrite (в большинстве случаев поддерживается только платными хостингами). В файл .htaccess в корне вашего сайта напишите:

RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} !^www.mainsite.ru$
RewriteRule ^ http://www.mainsite.ru/%{REQUEST_URI} [R=301,L]
После реализации одного из вышеперечисленных методов ваше главное зеркало будет автоматически изменено по мере обхода робота.

5. Заключение

При переезде накопленную популярность сайта можно сохранить только в системе Яндекс (т.е. сохранить ТИЦ и ВИЦ сайта). Поэтому имеет смысл поддерживать и старую версию Интернет-ресурса, если вы также работаете с иностранными поисковыми системами. Если со всех страниц сайта стоит серверный редирект на новые страницы, то новый домен будет считаться главным, а старый со временем будет удален из индексной базы.

Если же при очередной переиндексации будут найдены какие-либо отличия в содержимом различных зеркал, эти зеркала «расклеиваются» поисковыми системами – начинают считаться различными сайтами (каждый с отдельно взятым индексом цитируемости). Но стоит заметить, что при «расклейке» суммарная посещаемость каждого из зеркал (например, зеркала ВКонтакте) может существенно уменьшиться.

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    32 инструмента в помощь SEO-специалисту
    Игорь
    1
    комментарий
    0
    читателей
    Полный профиль
    Игорь - отличная подборка, сам многим из этих сервисов пользуюсь (ETXT, TEXT.RU, Адаптивность, Pingdom Website Speed Test, Google PageSpeed Tools, 2IP, Whois, Букварикс) Правда не мог найти достойного кластеризатора, но потом наткнулся на вот этот seoquick.com.ua/keyword-grouping/ не сочтите за рекламу:) Было бы интересно услышать ваше мнение о нем. Мне очень даже зашел, из-за скорости работы. Как говорит автор - 100 000 запросов за несколько минут. Я с такими цифрами правда не работал, обычно это до 30 000 точно, но работает очень быстро и в правду. Ну и бесплатно, думаю, это был еще один решающий фактор для меня
    Исследование: влияние smart-ссылок на продвижение по СЧ-запросам
    Анатолий Шевчик
    1
    комментарий
    0
    читателей
    Полный профиль
    Анатолий Шевчик - +1097988
    Все, что нужно SEO-специалисту. Обзор инструментов
    Администратор Сайта
    1
    комментарий
    1
    читатель
    Полный профиль
    Администратор Сайта - Шаришь в seo! Сервис реально хороший
    Не очень удачный кейс продвижения сайта по услуге «Трезвый водитель» в Москве
    Александр Селенков
    1
    комментарий
    0
    читателей
    Полный профиль
    Александр Селенков - Работа проделана огромная. Интересный кейс, все детально и понятно изложено.
    Два идеальных способа разориться на старте интернет-магазина
    Стас
    4
    комментария
    0
    читателей
    Полный профиль
    Стас - Seonews в последнее время такую чушь несет! Где вы таких афторов находите? Статья ничего не стоит и несет чушь! Кто хоть немного понимает в этом так вам и скажет, и такие де комментаторы горе-сеошники, просто смешно читать, вы хоть модерируете ваши статьи или просто для воды на сайте?! Бред сивой кобылы эта статья до самой последней точки!!!
    SEO глазами клиентов 2018
    Мария Рогачева
    2
    комментария
    0
    читателей
    Полный профиль
    Мария Рогачева - Никита, в этом вы правы. В каком-то смысле мы оказались заложниками названия. Когда запускали рейтинг, было одно сплошное SEO, сейчас же сложно найти агентства, которые специализируются только на SEO. Не учитывать другие каналы продвижения стало просто неправильно.  Активно думаем в этом направлении.  Спасибо вам за отзыв и внимание к рейтингу! 
    4 способа быстро собрать теги для сайта
    Рустем Низамутинов
    5
    комментариев
    0
    читателей
    Полный профиль
    Рустем Низамутинов - Расписал и закинул в Google Docs, а то здесь в комментариях ссылки на активны. docs.google.com/document/d/1r0TZLNrQyYLdIzDQsD5YKlMG41HUGQgEep3bxE_ij-M/edit?usp=sharing
    Яндекс перестал индексировать сайты, созданные на Wix
    Константин Даткунас
    3
    комментария
    0
    читателей
    Полный профиль
    Константин Даткунас - Было бы интересно посмотреть саму выборку из 10 000 и методику анализа.
    Как мы разработали и вывели в ТОП сайт курсов рисования
    Иван Стороженко
    25
    комментариев
    0
    читателей
    Полный профиль
    Иван Стороженко - Добрый день. 1)Чаще всего основная проблема заключается, в согласовании с клиентом добавляемого контента и то как он будет отображаться. На данном сайте фото и услуги конечно предоставлял клиент, все остальное уже делали мы. 2)Да в принципе, когда есть команда и понимание, что нужно делать, все идет быстро (опять же основная заминка идет на согласовании с клиентом) 3)Смысла делать новый в данном случает нет. В принципе доделывался полноценный сайт. 4)Когда клиент уже не предоставляет информацию, приходится искать у конкурентов (например с других стран или регионов). Но чаще всего клиент, хоть что-то "подкидывает".
    Яндекс: как мы модерируем объявления
    Гость
    5
    комментариев
    0
    читателей
    Полный профиль
    Гость - Это ж Яндекс, чего вы ожидали-то? Коммерческая структура с раздутым штатом, задачей которой является заработать больше денег. Любыми методами. Задача всех пользователей посадить на Директ, даже если придется разрушить суть рунета, реализуется по полной программе. Все возражающие караются и выпиливаются. И каждый из сотрудников делает все возможное и невозможное, чтобы реализовать любую дурацкую идею - за это еще и премию выхватить можно. Даже если потом придется выполнять "откат", премиальные уже заплачены. Так было с одним из фильтров Яндекса, так было с купленным им сайтом Кинопоиска, который из русскоязычной энциклопедии кино был превращен за безумные деньги в банальный платный онлайн-кинотеатр.
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    329
    Комментариев
    262
    Комментариев
    235
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    86
    Комментариев
    80
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    57
    Комментариев
    55
    Комментариев
    54
    Комментариев
    53

    Отправьте отзыв!
    Отправьте отзыв!