Противодействие парсингу, или Как защитить свои данные от копирования

Россия+7 (495) 960-65-87
Шрифт:
3 4184

Вы наверняка слышали выражение, что в интернете ничего не пропадает. Звучит почти как «рукописи не горят». Однако смысл имеет самый прямой. Любая поисковая система работает за счет того, что находит, обрабатывает и хранит все данные, которые в интернете появились. С одной стороны, это хорошо, потому что мы имеем к этим данным доступ. С другой стороны, это проблема, потому что созданный нами интернет-ресурс – тоже ни что иное, как данные. А значит, их нетрудно сканировать и скачать оттуда всю информацию. Использовать ее потом как угодно. Делается это при помощи программ парсинга. Риск того, что ваш сайт подвергнется этому процессу, есть всегда. Как к этому относиться и что с этим делать? Давайте посмотрим.

Как работает парсинг

Для пользователя интернет-магазин (как и любой сайт) – это совокупность картинок, текстов, видео – то есть всего того, что предназначено для человеческих органов восприятия. Для компьютера сайт – это совокупность данных, предназначенных для обработки и преобразования в определенный формат. Чтобы извлеченные данные перевести на языки программирования (PHP, Perl, Ruby, Python и т.д.), работают разные программы (скрипты). Они наделяют каждую страницу сайта своей структурой. В зависимости от этой структуры страница может получить формат. Такой как .html, .xml, .sql, .txt и прочие.

Сначала скрипты выполняют свою работу на локальном компьютере – непосредственно во время наполнения сайта контентом. Когда сайт появляется в интернете, это делают боты поисковых систем. Они проводят анализ, разбор и преобразование содержимого сайта, чтобы пользователь интернета увидел в поисковой выдаче ссылку на интересующий его запрос. Этот процесс и называется парсинг.

Пока содержимое сайта в необходимом для последующей обработки виде доступно только поисковым системам, все прекрасно. Программа-парсер позволяет вычленить со страницы именно ту информацию, которая нужна пользователю. Собственно, благодаря этому на сайт переходят посетители из поиска. Но спарсить содержимое сайта можно и в других интересах. В частности, чтобы заполучить и использовать контент.

Парсинг контента для использования на другом сайте – это реальность, с которой приходится иметь дело любому владельцу интернет-магазина. Ведь специфика такого сайта – сотни и тысячи однотипных описаний товаров, технических характеристик и другого контента. В отличие от других видов сайтов, контент, например, интернет-магазина формализован и унифицирован. А значит, легко поддается воспроизведению. Пользователю ведь все равно, какой сайт является первоисточником – он делает запрос товара и переходит по любой ссылке, которую предлагает выдача либо реклама.

Можно как угодно порицать использование чужого контента, однако мы живем в мире, где понятие интеллектуальной собственности сильно изменилось. К тому же технические описания и характеристики товара – это контент, который глупо переписывать другими словами. А значит, он не является ничьей собственностью. Но создание полной копии чужого магазина – это уже воровство. Равно как и частичное использование того контента, на который у вас есть права. Кстати, есть и другой термин, граббинг (от англ. «grab», т.е. использовать, перехватывать) – сбор информации по определенным параметрам. 

Мы все занимаемся граббингом, когда скачиваем что-либо с торрентов. Но не считаем себя ворами до тех пор, пока нас не уличат в коммерческом использовании чужой интеллектуальной собственности.

Как парсинг мешает работать вам

Есть несколько видов проблем, которые создает парсинг (граббинг) контента: технические, коммерческие, психологические.

Техническая проблема заключается в том, что боты и сканнеры – это бесполезный трафик, который увеличивает нагрузку на сервер. Порой статистика показывает на сайте всплеск посещаемости и «космическую» глубину просмотра, но вряд ли это повод для радости. Скорей всего, это работает скрипт, его сканнеры и боты. Если у вас хостинг с ограничениями, то превышение нагрузки – это и проблема, и реальный повод начать следствие: кто вас парсит.

Коммерческая проблема очевидна: если парсер запускает ваш конкурент, собирает базу товаров с вашего интернет-магазина и начинает продавать те же товары по меньшей цене, то вы теряете покупателей.

Психологически проблему можно описать одним восклицанием: «Ну как так-то!». Собственно, любой вид воровства нам именно эту эмоцию и приносит. Особенно когда мы не знаем, удастся ли наказать виновника.

Поиск вредителей

Для начала посмотрим на вещи реалистично. Пока не существует способа блокировать и наказывать за парсинг и граббинг со стопроцентной эффективностью. Поэтому создавать рядовой магазин с рядовым контентом – это всегда риск. Если же ваш магазин популярен, то паразитный трафик должен послужить для вас поводом развивать бизнес в том направлении, которое легче защитить. Здесь большую роль играет человеческий фактор: он позволяет создать интеллектуальный продукт, который хоть и можно скопировать, но его авторство легко доказать, а воров – как минимум отвадить.

И все же, что делать, если вы решили бороться с парсингом? Есть несколько видов мер: технические, юридические, психологические.

Технические меры

На специализированных форумах развернуты ветки обсуждений, как же бороться с парсерами техническими способами. Хорошая новость — решения есть, плохая — они могут в перспективе принести больше вреда, чем пользы.

Итак, самый простой и работающий метод – это вычислять, с какого IP вас парсят и закрывать для него доступ. Для этого нужна таблица логов, куда записываются данные пользователя и время обращения к странице. Один из способов идентификации — время между запросами. Если обращается слишком часто (то есть отклонение от среднего значения дельты у 80% запросов меньше 10 секунд), значит парсер. Другой способ идентификации — проверка на скачивание контента, к примеру, изображений или стилей CSS. Полезные боты вряд ли их будут скачивать.

Следующий шаг — определить, полезный или бесполезный бот посещает ваш ресурс. Это сложно, так как многие боты маскируются под вполне себе нормальные поисковые боты либо под браузеры. Таких ботов можно выявить только по совокупности факторов, и это требует разработки специфического самописного ПО.

Тут проблема в том, что без учета разных факторов можно заблокировать бота поисковика или еще какого-то безвредного бота – не все они правильно представляются по user-agent. Да и частоту обращений вредители сейчас научились снижать для маскировки.

Блокировка IP вообще резонна только в самых очевидных злостных случаях, потому что IP может быть динамически выделенным. Однако добавить ограничение на частоту обращений и заданное количество вхождений будет нелишней мерой. И все это, напоминаем, относится только к одному методу.

Другой метод – использовать различные сервисы, которые защищают от DDOS-атак. Эти сервисы пытаются определить степень загрузки вашего сайта. При высокой частоте подключений в секунду работа парсера рассматривается как аналогичная DDOS-атаке. На мониторе возникает задержка и предупреждающая надпись. При использовании такого подхода мы предполагаем, что парсер создает нагрузку в несколько потоков и не делает пауз между закачкой страниц. В ряде случаев это может помочь, но только против самых простых парсинговых ботов.

Третий метод – активное использование различных JavaScript на странице. Эти скрипты могут существенно затруднить работу парсера, так как многие парсеры не в состоянии их интерпретировать. Однако недостаток этого метода в том, что «хорошим» ботам это тоже осложняет работу. Неаккуратное использование подобных скриптов может запросто привести к тому, что ваш сайт выпадет из поисковой выдачи или просядет в ней.

Четвертый метод – нелюбимая всеми капча. Метод можно было бы считать действенным, если бы не два отрицательных момента:

  • капча раздражает вашего пользователя и мешает ему, чем снижает его лояльность по отношению к вашему ресурсу;
  • существуют сервисы по распознаванию капчи, они постоянно совершенствуются.

А значит, результаты ее применения сомнительны в свете возможной потери заинтересованнности в вашем сайте.

Более полезно использовать ReCAPTCHA, так как она пытается определить, человек ли путешествует по сайту или нет.

Более изощренные подходы требуют больше усилий: сначала нужно каким-то образом определить, что сайт посещает парсер, потом его идентифицировать и далее либо «разрешить» работу, либо ее «запретить». В целом использование технических мер похоже на борьбу человека с литературным или мифологическим персонажем: Лернейской гидрой, например, или ветряными мельницами. Пытаться можно, но вероятность навредить себе выше.

И наконец, метод, который хоть частично, но помогает без ущерба и регулярных усилий. Если мы не можем защититься от ботов, то хотя бы можем затруднить использование собственного контента. Основную его ценность могут составлять фото товаров. Используйте на изображениях водяные знаки, которые трудно удалить. Ведь автоматическим способом это сделать сложно, а восстановление исходного изображения сильно усложняет использование его на чужом ресурсе.

Организационные меры

Важная организационная мера – обеспечить быстрое индексирование новых страниц сайта, пока их не успели спарсить. Сделайте в поиске запрос «авторство в Google и Yandex» и используйте все методы оповещения поисковых ботов о новых страницах. Естественно, метод сработает, только если ваш контент оригинален.

Мониторинг интернета на предмет заимствования ваших материалов (ручные запросы в поиске, системы антиплагиата) может открыть вам глаза на тот факт, что ваш контент скопировали. В случае если вами установлен факт заимствования, вы можете пробовать договориться с владельцем другого ресурса. В зависимости от успеха переговоров можно дойти и до юридических претензий.

При этом важно понимать свойства информации в интернете:

  • Информация распространяется быстро — поэтому доказать, что ваш ресурс является первоисточником, может быть сложно технически;
  • Большая часть информации в интернете — это не авторские материалы, а различные компиляции из них. В этом отношении авторское право может оказаться бессильным;
  • Правовые вопросы относительно интернета не так хорошо проработаны, и дополнительная судебная волокита может только усложнить дело, а вовсе не решить его, тем более в вашу пользу;
  • Существует множество юридических лазеек, которыми пользуются такие гиганты ИТ-отрасли, как поисковые системы. Не исключено, что ими будут пользоваться и те, кто собирает ваш контент.
  • Претензии по незаконному использованию фотографий и другого контента, авторское право на который легко доказать, предъявлять можно. И начать прямо с жалобы поисковым системам. Как минимум, это вернет сайту преимущество первоисточника. Но в норме по жалобе наказывают: например, Google может наказать за единственную картинку.

Насколько далеко можно зайти в организации противодействия парсингу, зависит от конкретной ситуации и того, что находится на кону. Одна из оправданных предпосылок для обязательной борьбы с парсерами — если парсеры пытаются собрать с вашего ресурса персональные данные. Утечка таких данных дискредитирует ваш ресурс. Снижение доверия, как правило, сразу же отражается и на посещаемости, и на прибыли. В некоторых случаях может обернуться противостоянием с исполнительными органами власти.

Однако в большинстве случаев судебные тяжбы относительно заимствования контента ни к чему хорошему не приводят. Они требуют времени и внимания, а результат может и вовсе не окупиться.

Психологические меры

В данном случае их можно рассматривать исходя из вашего настроя и целесообразности. Проведем аналогию «плохой следователь – хороший следователь». Если вы настроены сурово, то вам не обойтись без технических и юридических мер, цель которых – показать, что лучше найти другой сайт, чем воевать с вами.

Если вы считаете, что с парсероводами проще договориться, предложите им сотрудничество. Суть в том, что, если информация с вашего ресурса востребована, всегда найдутся желающие ее спарсить. Парсер соберет всю необходимую информацию и сформирует выгрузку. Это может быть формат Excel, XML или YML. На всякий случай, YML-файл – это документ, который обрабатывает Яндекс для своего Маркета. Как говорится, если вы не можете бороться с явлением, можете организовать его.

Предложите партнерские программы, программы сотрудничества с вами, организуйте интерфейс экспорта данных и получайте прибыль. Ваши вчерашние заказчики парсеров станут вашими клиентами, и вы сможете с ними договориться на взаимовыгодных условиях. Конечно, это сработает только в определенном рыночном сегменте и при определенных видах бизнеса. Однако организованные вами партнерские программы могут увеличить у вас количество посетителей или продаж.

Резюмируем

  • Любое препятствие для парсинга можно обойти, это лишь вопрос нужности вашей информации.
  • Стоимость получения ваших данных другой стороной зависит от трудности их получения, то есть от цены, в которую вам обойдется защита от парсинга. Так что оценивайте целесообразность и необходимую сложность запутываний исходя из ценности контента, который у вас есть.
  • Стоимость вашей защиты может включать не только цену настройки системы противодействию парсинга, а дополнительно еще и риски ее некорректной работы. Большинство инвестиций в SEO могут вовсе не окупиться, если система защиты будет блокировать поисковых ботов. Это наихудший сценарий развития ситуации. Пользователи тоже не будут в восторге от замедления работы, случайных блокировок и необходимости ввода капчи.
  • Проблемы с поисковыми системами могут оказаться дороже, чем попытка защитить свои данные. Может, имеет смысл подумать, как зарабатывать на своем ресурсе больше, а к потерям от парсинга относиться как к реалиям нашего времени, например, сетевому пиратству?

В недалеком будущем может быть наступит эра семантического веба, который так давно активно обсуждается. В этой новом будущем парсеры станут совсем другими, и это создаст совершенно другие проблемы. А пока что мы еще находимся в преддверии семантического веба, не имеет смысла в большинстве случаев создавать себе дополнительные трудности.

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Кирилл Шуринов
    7
    комментариев
    1
    читатель
    Кирилл Шуринов
    2 недели назад
    очень много лирики ;)
    Все знают, что если захотят украсть контент, то его украдут.
    -
    1
    +
    Ответить
  • Pogrebnoy Alexandr
    1
    комментарий
    0
    читателей
    Pogrebnoy Alexandr
    2 недели назад
    Хорошая статья. Только я не понял как  ReCAPTCHA поможет от парсинга?
    -
    1
    +
    Ответить
  • virs
    3
    комментария
    0
    читателей
    virs
    2 недели назад
    Не тратьте время короче, спарсить можно абсолютно все, что видит пользователь.
    -
    7
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Рейтинг «Известность бренда SEO-компаний 2017»: народное голосование
Иван
1
комментарий
0
читателей
Полный профиль
Иван - 1) IT-Agency 2) Пиксели 3) 1ps 4) Ингейт 5) Нетпики
«Баден-Баден»: как выйти из-под фильтра
Сергей Дембицкий «Sima-Land.ru»
16
комментариев
0
читателей
Полный профиль
Сергей Дембицкий «Sima-Land.ru» - Скрины Метрики показывать не буду, но мы (sima-land.ru - 1,5 млн. стр. в поиске Яндекс) в сентябре загремели под ББ, в разгар сезона и вышли из-под фильтра, спустя 50 дней, удалив все тексты с сайта: категории + карточки товаров (описание). Трафик с Google только вырос. Тексты возвращать собираемся, но процесс будет длительный, тексты будем теперь писать исключительно полезные, т.к. было больно :-))
Второе дыхание ссылочного продвижения
Автопилот
14
комментариев
0
читателей
Полный профиль
Автопилот - Еще лучше, когда продвижение осуществляется комплексно :)
«Прямая линия» с Александром Алаевым («АлаичЪ и Ко»): отвечаем на вопросы
Александр Алаев
13
комментариев
0
читателей
Полный профиль
Александр Алаев - Роман. Тут ответ очень простой. Каждый запрос можно четко разделить на коммерческий или некоммерческий. "Купить слона" и его длинные хвосты - коммерческий. "Как выбрать слона" и подобные - информационные. Вот под коммерческие ключи должны быть страницы услуг или каталога товаров. А под информационку - блог. Очень важно не путать их, тем более несоответствующая коммерческим факторам страниц просто не продвинется, то есть по запросу с "купить" блог никогда не будет показываться в выдаче, так же как и страница услуги/товаров не покажется по "как выбрать". Понятно примерно?
Кейс: продвигаем бизнес по продаже пластиковых окон в Москве
Иван Стороженко
5
комментариев
0
читателей
Полный профиль
Иван Стороженко - 1. По началу вообще не использовали, сейчас уже много каналов используется. 2. Все может быть, в принципе сайты должны быть удобны для пользователя, для этого и нужна схожесть между собой. Честно говоря старались брать все самое интересное у конкурентов + подкреплять своими идеями.
Инфографика: самые распространенные SEO-ошибки Рунета
Dmitro Grunt
2
комментария
0
читателей
Полный профиль
Dmitro Grunt - Кстати, у проектов которые продвигает Нетпик все тайтлы не более 65 символов? Или вы надеетесь что кто то послушает советов и отдаст вам часть трафика? :-)
Google.ru внесли в реестр запрещенных сайтов
Гость
1
комментарий
0
читателей
Полный профиль
Гость - Гон, все работает и будет работать. Да и пусть банят, будет как с рутрекером.
Сердитый маркетолог: как вы сами хороните свой сайт, или 16 принципов, которые нужно усвоить заказчикам SEO
Анна Макарова
313
комментария
0
читателей
Полный профиль
Анна Макарова - Artem Sergeev, ваш комментарий удален за агрессивный настрой и безосновательные обвинения. Держите себя в руках!
«Прямая линия» с Артуром Латыповым: отвечаем на вопросы
God Koss
1
комментарий
0
читателей
Полный профиль
God Koss - Добрый день! Есть сайты одной компании продвигающиеся в разных странах. .ru .com .net. На российском сайте два языка ru и en, на остальных до 10 языков. Недавно сайт ru по основному брендовому запросу выпал из выдачи Яндекс но после апа вернулся на вторую позицию. На вопрос аффилирования в тех поддержку, получит ответ, что всё в порядке и сайт com не учавствует в выдаче. Но он есть и занимает 1 место. Как быть в данной ситуации? Так же, после возврата в топ 10 по этому запросу зашла еще одна внутренняя страница. Могло ли это случиться из-за каннибализации запроса? Немного изменил description на внутренней, исключил вхождения брендового запроса. Жду апа. Хотел бы услышать ваше мнение. Заранее благодарю!
Западные специалисты выяснили, как повысить позиции ресурса в выдаче Google
Serhii Diachenko
1
комментарий
0
читателей
Полный профиль
Serhii Diachenko - Спасибо Бернис!
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
313
Комментариев
262
Комментариев
229
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
97
Комментариев
97
Комментариев
95
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
55
Комментариев
54
Комментариев
52
Комментариев
49

Отправьте отзыв!
Отправьте отзыв!