П

Парсинг

Парсинг — это автоматический сбор информации с какого-либо источника с целью его дальнейшей обработки и преобразования. Чаще всего парсинг осуществляется с использованием PHP, Perl или другого скриптового, сервисного языка программирования. Программа, которая используется для анализа и обработки данных, называется парсером. Готовые данные, как правило, выкладываются в базу данных, представляются в виде файла или в формате XML.

Примером парсинга может быть, к примеру, обработка сайта интернет-магазина, результатом которой является список товаров, представленных в каждой категории. Для сферы SEO можно привести собственный пример — так, поисковые роботы занимаются парсингом, анализируя страницы и сохраняя полученные данные о них в собственной базе. Эти данные затем используются поисковой системой для ранжирования проанализированных сайтов и формирования выдачи. Также парсинг лежит в основе любых сервисов для SEO-специалистов и маркетологов, позволяющих анализировать сайты из поисковой выдачи.

Однако бывает и так, что целью парсинга является не получение каких-то данных из обработанного контента, а сам контент, представленный в удобоваримой форме.

Фазы парсинга

Программы-парсеры работают по единому принципу, действуя в три этапа.

Сбор информации с одного или нескольких источников. В соответствии с заданными настройками программа обходит заданные источники информации в Сети. Поскольку чаще всего этими источниками являются веб-страницы, парсер обрабатывает их исходный HTML-код.

Получение и преобразование информации. Данные, которые были собраны на первом этапе, обрабатываются средствами парсера — чаще всего с использованием регулярных выражений. При необходимости на данной стадии информация может преобразовываться в нужный формат.

Генерация результатов. Итоговый этап, после которого программа выдает результат в заданном виде. Данные выводятся или записываются в удобной для пользователя форме.

Существует схожее, но не аналогичное понятие — граббинг. Этот процесс также предполагает сбор информации с различных веб-источников (HTML-страницы, RSS-лент, XML-документов) в одну базу данных. Разница заключается в том, что в результате граббинга пользователь получает данные в том же виде, что и в исходнике, в то время как парсинг дает возможность вычленить только нужную информацию и преподносить ее в другом формате.




Синонимы: нет
Все термины на букву «П»
Все термины в глоссарии

Ссылки по теме

... крайне редко, но имеет место быть. Отправляем запрос и парсим XML выдачу: Прописываем путь к файлу, куда запишем весь текст, полученный при парсинге страниц: Парсим полученные URL и записываем контент тега <p> результаты в один файл. Тут нужна небольшая, но важная оговорка, что ...

Иван Иван Бурмистров
5 дней назад
3 4837

... Вебинар 13:00–14:00 Бесплатно eLama Маркетинг на YouTube Вебинар 16:00–17:30 Бесплатно MyAcademy Таргетинг ВКонтакте: простая и эффективная настройка без парсинга аудиторий Вебинар 12:00–13:30 Бесплатно Нетология 10 августа Что надо знать при выборе подрядчика по контексту. Как оценить его эффективность ...

Дарья Дарья Калинская
05 Августа
0 8952

... еще пять других бесплатных скриптов. Плюсы работы с API Ускоряет работу в 10 раз. Даже самый дешевый план открывает доступ к API со скоростью парсинга 1 запрос/секунда. Максимальная скорость — 10 запросов/секунда. Сможете ли вы столько ввести руками? Разумеется, нет. Поэтому большие ...

Евгения Евгения Романчук
30 Июля
6 13561

... теорию. Итак, я зарегистрировал новый домен, создал сайт. Встал вопрос: где брать контент, если нет средств на копирайтеров? Ответ прост — парсинг. Но поскольку я ленив, то переписывать статьи и уникализировать тоже не стал. Итого, получил 300 неуникальных статей на совершенно ...

Максим Максим Новоселов
19 Июня
13 20218

... обнаружить дубликаты страниц — множество. В данной статье рассмотрим несколько основных методов, которые используются в работе чаще всего. 1. Парсинг сайта в сервисе При парсинге сайта в каком-либо сервисе (в последнее время чаще всего используют сервис Screaming Frog) наглядно можно увидеть ...

Виктория Виктория Григорьева
23 Марта
1 20671
Отправьте отзыв!