Хочешь повысить отдачу от Директа?
Включи «Автопилот»
П

Парсинг

Парсинг — это автоматический сбор информации с какого-либо источника с целью его дальнейшей обработки и преобразования. Чаще всего парсинг осуществляется с использованием PHP, Perl или другого скриптового, сервисного языка программирования. Программа, которая используется для анализа и обработки данных, называется парсером. Готовые данные, как правило, выкладываются в базу данных, представляются в виде файла или в формате XML.

Примером парсинга может быть, к примеру, обработка сайта интернет-магазина, результатом которой является список товаров, представленных в каждой категории. Для сферы SEO можно привести собственный пример — так, поисковые роботы занимаются парсингом, анализируя страницы и сохраняя полученные данные о них в собственной базе. Эти данные затем используются поисковой системой для ранжирования проанализированных сайтов и формирования выдачи. Также парсинг лежит в основе любых сервисов для SEO-специалистов и маркетологов, позволяющих анализировать сайты из поисковой выдачи.

Однако бывает и так, что целью парсинга является не получение каких-то данных из обработанного контента, а сам контент, представленный в удобоваримой форме.

Фазы парсинга

Программы-парсеры работают по единому принципу, действуя в три этапа.

Сбор информации с одного или нескольких источников. В соответствии с заданными настройками программа обходит заданные источники информации в Сети. Поскольку чаще всего этими источниками являются веб-страницы, парсер обрабатывает их исходный HTML-код.

Получение и преобразование информации. Данные, которые были собраны на первом этапе, обрабатываются средствами парсера — чаще всего с использованием регулярных выражений. При необходимости на данной стадии информация может преобразовываться в нужный формат.

Генерация результатов. Итоговый этап, после которого программа выдает результат в заданном виде. Данные выводятся или записываются в удобной для пользователя форме.

Существует схожее, но не аналогичное понятие — граббинг. Этот процесс также предполагает сбор информации с различных веб-источников (HTML-страницы, RSS-лент, XML-документов) в одну базу данных. Разница заключается в том, что в результате граббинга пользователь получает данные в том же виде, что и в исходнике, в то время как парсинг дает возможность вычленить только нужную информацию и преподносить ее в другом формате.




Читать дальше

Синонимы: нет
Все термины на букву «П»
Все термины в глоссарии

Ссылки по теме

... запросы, показывающие нулевой результат. Получившийся список запросов пропустили через Google. 5. Отобрали итоговые запросы вручную В результате парсинга в списке у нас остались самые востребованные запросы. Среди них могут попадаться запросы с одинаковым количеством результатов,...

Сергей Сергей Сухоплюев
09 Октября
5 6650

... проще и приятнее. Минусы: Не по всем вопросам такую инфу легко найти. Часто спасает поиск по PDF, расширенный поиск по тематическим порталам и парсинг комментов к тематическим статьям. Способ 3. Не для всех, но работает хорошо. 2,5+ часа на 1000 слов. Имя способу – перевод. Ищем источник ...

Иван Иван Тюхов
15 Сентября
4 9726

Когда при парсинге HTML Google встречает ошибки в коде или нераспознаваемые атрибуты, то обычно игнорирует их Джон Мюллер, специалист по качеству поиска ...

Алина Алина Назарова
21 Августа
0 2848

... чтобы сделать качественное ядро, нужно проанализировать нишу, понять, чем занимается клиент, свести данные воедино, подготовить запросы для парсинга, вытащить множество запросов из источников, все это посмотреть по кластеризации по ТОПу, а потом еще вручную доанализировать, сгруппировать ...

Анастасия Анастасия Матвеева
16 Августа
6 4336

... Правда, пришлось еще потратить три дня на изучение всех кнопочек, но это не беда. Нашего героя все равно было уже не остановить. И начался парсинг. Повторюсь, что Саня не самый глупый парень и решил делать ядро кусками (сегментами), чтобы можно было первую готовую часть сразу отдать ...

Вадим Вадим Захаров
15 Августа
4 13173
Отправьте отзыв!