П

Парсинг

Парсинг — это автоматический сбор информации с какого-либо источника с целью его дальнейшей обработки и преобразования. Чаще всего парсинг осуществляется с использованием PHP, Perl или другого скриптового, сервисного языка программирования. Программа, которая используется для анализа и обработки данных, называется парсером. Готовые данные, как правило, выкладываются в базу данных, представляются в виде файла или в формате XML.

Примером парсинга может быть, к примеру, обработка сайта интернет-магазина, результатом которой является список товаров, представленных в каждой категории. Для сферы SEO можно привести собственный пример — так, поисковые роботы занимаются парсингом, анализируя страницы и сохраняя полученные данные о них в собственной базе. Эти данные затем используются поисковой системой для ранжирования проанализированных сайтов и формирования выдачи. Также парсинг лежит в основе любых сервисов для SEO-специалистов и маркетологов, позволяющих анализировать сайты из поисковой выдачи.

Однако бывает и так, что целью парсинга является не получение каких-то данных из обработанного контента, а сам контент, представленный в удобоваримой форме.

Фазы парсинга

Программы-парсеры работают по единому принципу, действуя в три этапа.

Сбор информации с одного или нескольких источников. В соответствии с заданными настройками программа обходит заданные источники информации в Сети. Поскольку чаще всего этими источниками являются веб-страницы, парсер обрабатывает их исходный HTML-код.

Получение и преобразование информации. Данные, которые были собраны на первом этапе, обрабатываются средствами парсера — чаще всего с использованием регулярных выражений. При необходимости на данной стадии информация может преобразовываться в нужный формат.

Генерация результатов. Итоговый этап, после которого программа выдает результат в заданном виде. Данные выводятся или записываются в удобной для пользователя форме.

Существует схожее, но не аналогичное понятие — граббинг. Этот процесс также предполагает сбор информации с различных веб-источников (HTML-страницы, RSS-лент, XML-документов) в одну базу данных. Разница заключается в том, что в результате граббинга пользователь получает данные в том же виде, что и в исходнике, в то время как парсинг дает возможность вычленить только нужную информацию и преподносить ее в другом формате.




Читать дальше

Синонимы: нет
Все термины на букву «П»
Все термины в глоссарии

Ссылки по теме

... Screaming Frog SEO Spider . Я буду показывать пример работы, основываясь на взаимодействии с данным инструментом. 3.1. Парсим данные с сайта Перед началом парсинга отключаем все бесполезные функции, которые нам не понадобятся (Configuration — Spider): Проверку изображений; Проверку ресурсов (js, css и swf); ...

Руслан Руслан Фатхутдинов
06 Декабря
8 5227

... данные. А значит, их нетрудно сканировать и скачать оттуда всю информацию. Использовать ее потом как угодно. Делается это при помощи программ парсинга. Риск того, что ваш сайт подвергнется этому процессу, есть всегда. Как к этому относиться и что с этим делать? Давайте посмотрим. Как ...

Алексей Алексей Дурнев
22 Ноября
3 4414

... запросы, показывающие нулевой результат. Получившийся список запросов пропустили через Google. 5. Отобрали итоговые запросы вручную В результате парсинга в списке у нас остались самые востребованные запросы. Среди них могут попадаться запросы с одинаковым количеством результатов,...

Сергей Сергей Сухоплюев
09 Октября
6 13548

... проще и приятнее. Минусы: Не по всем вопросам такую инфу легко найти. Часто спасает поиск по PDF, расширенный поиск по тематическим порталам и парсинг комментов к тематическим статьям. Способ 3. Не для всех, но работает хорошо. 2,5+ часа на 1000 слов. Имя способу – перевод. Ищем источник ...

Иван Иван Тюхов
15 Сентября
4 13715

Когда при парсинге HTML Google встречает ошибки в коде или нераспознаваемые атрибуты, то обычно игнорирует их Джон Мюллер, специалист по качеству поиска ...

Алина Алина Назарова
21 Августа
0 3054
Отправьте отзыв!