П

Парсинг

Парсинг — это автоматический сбор информации с какого-либо источника с целью его дальнейшей обработки и преобразования. Чаще всего парсинг осуществляется с использованием PHP, Perl или другого скриптового, сервисного языка программирования. Программа, которая используется для анализа и обработки данных, называется парсером. Готовые данные, как правило, выкладываются в базу данных, представляются в виде файла или в формате XML.

Примером парсинга может быть, к примеру, обработка сайта интернет-магазина, результатом которой является список товаров, представленных в каждой категории. Для сферы SEO можно привести собственный пример — так, поисковые роботы занимаются парсингом, анализируя страницы и сохраняя полученные данные о них в собственной базе. Эти данные затем используются поисковой системой для ранжирования проанализированных сайтов и формирования выдачи. Также парсинг лежит в основе любых сервисов для SEO-специалистов и маркетологов, позволяющих анализировать сайты из поисковой выдачи.

Однако бывает и так, что целью парсинга является не получение каких-то данных из обработанного контента, а сам контент, представленный в удобоваримой форме.

Фазы парсинга

Программы-парсеры работают по единому принципу, действуя в три этапа.

Сбор информации с одного или нескольких источников. В соответствии с заданными настройками программа обходит заданные источники информации в Сети. Поскольку чаще всего этими источниками являются веб-страницы, парсер обрабатывает их исходный HTML-код.

Получение и преобразование информации. Данные, которые были собраны на первом этапе, обрабатываются средствами парсера — чаще всего с использованием регулярных выражений. При необходимости на данной стадии информация может преобразовываться в нужный формат.

Генерация результатов. Итоговый этап, после которого программа выдает результат в заданном виде. Данные выводятся или записываются в удобной для пользователя форме.

Существует схожее, но не аналогичное понятие — граббинг. Этот процесс также предполагает сбор информации с различных веб-источников (HTML-страницы, RSS-лент, XML-документов) в одну базу данных. Разница заключается в том, что в результате граббинга пользователь получает данные в том же виде, что и в исходнике, в то время как парсинг дает возможность вычленить только нужную информацию и преподносить ее в другом формате.




Синонимы: нет
Все термины на букву «П»
Все термины в глоссарии

Ссылки по теме

... обнаружить дубликаты страниц — множество. В данной статье рассмотрим несколько основных методов, которые используются в работе чаще всего. 1. Парсинг сайта в сервисе При парсинге сайта в каком-либо сервисе (в последнее время чаще всего используют сервис Screaming Frog) наглядно можно увидеть ...

Виктория Виктория Григорьева
23 Марта
0 11846

... использования нескольких каналов будет возможность задания разных правил для каждого из них, а также снижение и распределение нагрузки при парсинге поисковыми ботами, особенно при больших объемах информации. Подготовка RSS-канала для Турбо Контент Турбо-страниц берется не со страниц ...

Виталий Виталий Леонтьев
27 Февраля
4 14126

... сервиса платные. Arsenkin Tools Набор бесплатных инструментов для работы SEO-специалиста от arsenkin.ru . По нашей теме предлагает сразу два сервиса: «Парсинг подсветок Яндекса» и «Парсинг тегов H1–H6». Первый поможет подобрать сопутствующие запросы, второй — проанализировать структуру ...

Алексей Алексей Семёнов
13 Февраля
2 25634

... просто; не требуются дополнительные программы; хорошо подходит для сайтов с нестандартной URL-структурой. Минусы: больше ручной работы. 2. Парсинг программой Screaming Frog SEO Spider Для выполнения данного пункта потребуется программа Screaming Frog SEO Spider (платная). Настройка Рассмотрим пример ...

Рустем Рустем Низамутинов
30 Января
12 22988

... сайта из-за действия алгоритма «Минусинск» от «Яндекса», который определяет сайты, использующие покупку seo-ссылок для продвижения сайта. Парсинг подсказок из выдачи «Яндекса». Выгрузка сайтов с первой страницы «Яндекса». Визуальный HTML-редактор. Парсинг заголовков конкурентов ...

Александр Александр Плеханов
19 Января
15 46082
Отправьте отзыв!