П

Парсинг

Парсинг — это автоматический сбор информации с какого-либо источника с целью его дальнейшей обработки и преобразования. Чаще всего парсинг осуществляется с использованием PHP, Perl или другого скриптового, сервисного языка программирования. Программа, которая используется для анализа и обработки данных, называется парсером. Готовые данные, как правило, выкладываются в базу данных, представляются в виде файла или в формате XML.

Примером парсинга может быть, к примеру, обработка сайта интернет-магазина, результатом которой является список товаров, представленных в каждой категории. Для сферы SEO можно привести собственный пример — так, поисковые роботы занимаются парсингом, анализируя страницы и сохраняя полученные данные о них в собственной базе. Эти данные затем используются поисковой системой для ранжирования проанализированных сайтов и формирования выдачи. Также парсинг лежит в основе любых сервисов для SEO-специалистов и маркетологов, позволяющих анализировать сайты из поисковой выдачи.

Однако бывает и так, что целью парсинга является не получение каких-то данных из обработанного контента, а сам контент, представленный в удобоваримой форме.

Фазы парсинга

Программы-парсеры работают по единому принципу, действуя в три этапа.

Сбор информации с одного или нескольких источников. В соответствии с заданными настройками программа обходит заданные источники информации в Сети. Поскольку чаще всего этими источниками являются веб-страницы, парсер обрабатывает их исходный HTML-код.

Получение и преобразование информации. Данные, которые были собраны на первом этапе, обрабатываются средствами парсера — чаще всего с использованием регулярных выражений. При необходимости на данной стадии информация может преобразовываться в нужный формат.

Генерация результатов. Итоговый этап, после которого программа выдает результат в заданном виде. Данные выводятся или записываются в удобной для пользователя форме.

Существует схожее, но не аналогичное понятие — граббинг. Этот процесс также предполагает сбор информации с различных веб-источников (HTML-страницы, RSS-лент, XML-документов) в одну базу данных. Разница заключается в том, что в результате граббинга пользователь получает данные в том же виде, что и в исходнике, в то время как парсинг дает возможность вычленить только нужную информацию и преподносить ее в другом формате.

Синонимы: нет
Все термины на букву «П»
Все термины в глоссарии

Ссылки по теме

Когда при парсинге HTML Google встречает ошибки в коде или нераспознаваемые атрибуты, то обычно игнорирует их Джон Мюллер, специалист по качеству поиска ...

0 1928

... чтобы сделать качественное ядро, нужно проанализировать нишу, понять, чем занимается клиент, свести данные воедино, подготовить запросы для парсинга, вытащить множество запросов из источников, все это посмотреть по кластеризации по ТОПу, а потом еще вручную доанализировать, сгруппировать ...

Анастасия Матвеева
16.08.17 в 16:42
5 2469

... Правда, пришлось еще потратить три дня на изучение всех кнопочек, но это не беда. Нашего героя все равно было уже не остановить. И начался парсинг. Повторюсь, что Саня не самый глупый парень и решил делать ядро кусками (сегментами), чтобы можно было первую готовую часть сразу отдать ...

Вадим Захаров
15.08.17 в 15:48
4 7210

... Саламаха поделился ссылками на полезные либы для работы с текстами. Они будут полезны тем, кто занимается автоматизированной разработкой: Парсинг текста - breadability - https://github.com/bookieio/breadability  Классификатор языка -  https://github.com/saffsd/langid.py Лемматизаторы (английский) -  http://www.clips.ua.ac.be/pages/pattern-en

Анастасия Матвеева
14.08.17 в 16:26
0 2356

... создать проект, нажимаем кнопку «Добавить проект». Далее переходим на новую страницу, где указываем название проекта, адрес домена, глубину парсинга и другие эксперт-опции, например, проверку позиции для конкретного URL. На втором шаге необходимо добавить запросы. Их можно группировать ...

0 5918
Отправьте отзыв!