RSS новости: некоторые способы импорта ленты новостей

Россия+7 (495) 960-65-87
Шрифт:
1 12946

1. Введение
2. Как подключить RSS
3. Способы получения RSS при помощи php
4. Способы обработки xml
5. Оптимизация работы с RSS
6. Некоторые проблемы при работе с RSS
7. Заключение

1. Введение

О том, как RSS может помочь продвижению – можно почитать здесь. В общем - данные ленты новостей позволяют часто обновлять контент на сайте, это приводит к тому, что роботы начинают чаще посещать сайт. В этом МК я постараюсь дать несколько способов внедрения данной технологии на странички сайта.

«Для начала, определимся с тем, что такое RSS. Кратко, RSS – это формат синдикации web-контента. Это обычный формат представления данных, основанный на языке XML. Первоначально этот формат был разработан специально для экспорта заголовков новостей. Однако область его применения может выходить далеко за рамки этой задачи. Вы с легкостью можете экспортировать любую информацию, любые материалы. Формат примечателен тем, что дает единство представления данных. Любая информация, оформленная в RSS должна соответствовать определенной структуре... Благодаря такой формализации, конечный пользователь получает информацию в стандартизированном виде, что упрощает чтение и работу с ней. Именно удобством работы и объясняется растущий интерес к этому формату и его всё большая популяризация».
(http://www.kanban.ru/info/webmaster/)

Подробнее о том, что такое RSS можно почитать здесь (http://blogs.law.harvard.edu/tech/rss, http://podolsk.biz/p147.htm, http://www.kanban.ru/info/webmaster/).

В начале данного мастер-класса я покажу, как можно внедрить RSS непосредственно на страницу (здесь будут рассмотрены способы подключения RSS только при помощи php). Затем – некоторые способы оптимизации работы с RSS. В заключении я расскажу о некоторых проблемах RSS и способах их решения.

2. Как подключить RSS

RSS - данные, представленные в виде xml определенной структуры. Общий принцип подключения RSS можно представить следующим образом:

  1. Получение RSS из определенного источника.
  2. Обработка RSS.
  3. Включение обработанной информации в текст страницы (это самый простой пункт. Достаточно сделать echo результата).

3. Способы получения RSS при помощи php

1. Cокетами

Пусть URL RSS = https://www.seonews.ru/rss/ (для всех остальных примеров).
Код получения rss новости будет примерно следующим:

< ?
$out = '';
$fp = fsockopen("www.seonews.ru", 80, $errno, $errstr, 1);
if ($fp) {
    $out = "GET /rss/ HTTP/1.1 ";
    $out .= "Host: www.seonews.ru ";
    $out .= "Connection: Close ";
    fwrite($fp, $out);
     $out = '';
     while (!feof($fp)) {
       $out .= fgets($fp, 128);
     }
    fclose($fp);
}
?>

Плюсы – Работает на всех версиях php, не требует дополнительных модулей.
Минусы – громоздкий код.

Возможные проблемы:

Одна из главных проблем – то, что контент скачивается с другого хоста. Соответственно, время загрузки основной страницы увеличивается на время загрузки RSS. Может быть такое, что канал будет забит, или сервер с новостью будет недоступен. Поэтому нужно ограничить время получения rss новости. Первое ограничение уже было сделано: последний параметр функции fsockopen установлен в 1 – это значит, что сокет будет открываться не дольше секунды, в случае неудачи переменная $out вернет пустую строку. Но есть еще одно «но»: сокет может открыться быстро, а данные будут скачиваться долго. Чтобы этого не произошло, перепишем код следующим образом:

< ?
$out= '';
$fp = fsockopen("www.seonews.ru", 80, $errno, $errstr, 1);
if ($fp) {
    $time = time();
    stream_set_timeout($fp, 1);
    $out = "GET /rss/ HTTP/1.1 ";
    $out .= "Host: www.seonews.ru ";
    $out .= "Connection: Close ";
    fwrite($fp, $out);
    $out = '';
    while (!feof($fp)) {
      $out .= fgets($fp, 128);
      if (time() - $time > 2) {
        $out = '';
        break;
      }
    }
    fclose($fp);
}
?>

Таким образом, в самом плохом случае задержка загрузки страницы из-за RSS не будет превышать 3 секунд: 1 секунда на открытие сокета и 2 секунды на получение данных. Функция stream_set_timeout($fp, 1); устанавливает максимальное время чтения из потока, а временем мы контролируем, чтобы вовремя выйти из цикла чтения из сокета данных.
О том, что делать, если данные не пришли – см. далее.

2. Curl

Это библиотека, которая позволяет взаимодействовать с различными серверами по различным протоколам.
Код с контролем времени будет выглядеть примерно следующим образом:

< ?
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "https://www.seonews.ru/rss/");
// вернуть значение а не вывести на страницу
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
// чтобы заголовок не входил в контент
curl_setopt($ch, CURLOPT_HEADER, 0);
// ограничение по времени получения
// (сюда уже входит и время открытия соединения
// и время получения данных)
curl_setopt($ch, CURLOPT_TIMEOUT, 3);

$out = curl_exec($ch);
curl_close($ch);
?>

Плюсы – достаточно компактный код, с возможностью быстрой модификации.
Минусы – необходимо наличие установленного расширения для php и библиотеки curl, а также версия php не ниже 4.0.2

3. Другие способы

PHP позволяет получить данные из сети и другими способами, например, при помощи include с перехватом буфера содержимого или file_get_contents. Но управлять временем получения данных будет не так просто, как в описанных выше случаях.

4. Способы обработки xml

После того как мы получили данные, их необходимо обработать. Данные RSS хранятся в xml файле определенной структуры. Поэтому чтобы вписать ленту в дизайн сайта, а также избавится от ненужной информации, данные необходимо обработать.

Для начала – общая структура RSS. Упрощенно, структура RSS-файла выглядит так:
< ?xml version="1.0" encoding="UTF-8" ?>


  
    < title >
    < link>
    < description>
   
     
      < link>
      < title >
   
   
   
      < title >
      < link>
      < description>
   

    . . .
  

Подробнее см., например, http://www.kanban.ru/info/webmaster/ или http://intenter.ru/rss_links.do. Зная структуру, можно вытащить необходимые данные. Ниже перечислено несколько способов.

1. xslt

Так как RSS – это xml, можно использовать xslt преобразование. Пусть у нас в переменной $out содержится полученная rss лента новостей в виде xml.
Пусть xslt шаблон находится в файле rss_temp.xsl, и содержит код, приведенный ниже:

< ?xml version="1.0" encoding="utf-8" ?>
< xsl:stylesheet
    version="1.0"
    xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
    < xsl:output method="html" />
    < xsl:template match="rss/channel">
     


        < h1>< xsl:value-of select="title" />< /h1>
        < xsl:apply-templates select="title" />
        < xsl:apply-templates select="item" />
     

    < /xsl:template>
    < xsl:template match="title">
     

        < xsl:value-of select="text()" />
     

    < /xsl:template>
    < xsl:template match="item">
     

       

          < xsl:value-of select="title" />
       

       

          < a href="{link}">Link - < xsl:value-of select="pubDate" /> - < a href="mailto:{author}">Email
       

       

          Описание: < xsl:value-of select="description" />
       

     

    < /xsl:template>
< /xsl:stylesheet>

Чтобы использовать данное преобразование, можно воспользоваться следующим кодом:

< ?
    $result="";
    $xslt = xslt_create();
    $result = xslt_process($xslt, "arg:/_xml", "arg:/_xsl", NULL, array('/_xml' => $out, '/_xsl' => file_get_contents('rss_temp.xsl')));
    xslt_free($xslt);
?>

В результате, в переменной $result будет содержаться готовый для вставки кусок кода.
Плюсы – достаточно поменять шаблон, чтобы получить новый вид отображения ленты; достаточно гибкая технология.
Минусы – необходимо наличие модуля и библиотек xslt преобразования (sablotron для 4 версии php). Для пятой версии php код будет выглядеть иначе, т.к в пятой версии используется другая библиотека xslt преобразований: libxslt. Как вариант решения данной проблемы – можно использовать код, описанный в статье http://alexandre.alapetite.net/doc-alex/xslt-php4-php5/

2. Другие способы

В интернете можно найти достаточно большое количество готового кода для обработки RSS и адаптировать под свои нужды, например, http://www.rss.net.ua/rss_doc018.html или http://danneo.com/forum/showthread.php?t=1178. Также можно использовать регулярные выражения, например, если хостинг не поддерживает работу с xml технологиями.

5. Оптимизация работы с RSS

Одна из проблем RSS, как было сказано выше, - это то, что они находятся на других серверах. Если у вашего сайта большая посещаемость, то для каждого пользователя, зашедшего на сайт, нужно повторно вытаскивать одинаковую информацию из интернета, что забивает канал и уменьшает скорость работы сервера, а вследствии – скорость загрузки страницы. У каждой ленты есть период обновления. Поэтому приходит мысль использовать одни и те же данные повторно, то есть – кэшировать. К тому же технология xslt, например – достаточно ресурсоемкая и каждый раз использовать преобразование – это также может повлиять на скорость работы сайта.

Первый способ – это полученный результат сохранять в файле, и проверять время модификации этого файла. Если разница между текущем временем и временем модификации файла превышает заданный интервал (например, час), то попытаться снова получить данные и после обработки – переписать файл.

< ?
// Это добавить перед получением и обработкой rss
$rss_cache = 'rss_cashe.inc';
// если нет файла или время последнего изменения файла > 3600 с (1ч),
// то получить и обработать rss
if (!file_exists($rss_cache) (time() - filemtime()) > 3600) {
   // код получения и обработки rss,
   // на выходе – переменная с готовым для
   // отображения содержанием ($result)
   ...
   // запишем в кэш
   $f = fopen($rss_cache, 'wt');
   fwrite($f, $result);
   fclose($f)
} else {
   $result = file_get_contents($rss_cache);
}
?>

Второй способ – это обрабатывать новости сторонним скриптом, который запускается, например, по crontab, а результат сохранять в файле. На страницу импортировать уже готовый файл.

< ?
// предполагаем, Что скрипт лежит там-же, Где лежит страница, которая будет забирать новость.
$rss_cache = dirname(__FILE__) . '/rss_cashe.inc';
// если нет файла или время последнего изменения файла > 3600 с (1ч),
// то получить и обработать rss
if (!file_exists($rss_cache) (time() - filemtime()) > 3600) {
   // код получения и обработки rss,
   ...
   // запишем в кэш
   $f = fopen($rss_cache, 'wt');
   fwrite($f, $result);
   fclose($f)
}
?>

Этот скрипт следует поместить в файл, который будет запускаться по crontab или еще какому-либо планировщику. А на странице только в нужном месте указать:

< ?
$rss_cache = 'rss_cashe.inc';
include($rss_cache);
?>

6. Некоторые проблемы при работе с RSS
  1. Во всех примерах не указаны способы обработки ошибок. А так как и получение данных из интернета, и обработка данных в данном случае могут вызвать ошибки, то необходимо предусмотреть, как будет вести себя скрипт. Например, используя кэширование (о чем было написано выше), можно показывать последнюю удачно обработанную информацию. Или вообще ничего не показывать.
  2. Некоторые ленты могут пропадать или менять свой адрес (например, редизайн сайта, или сайт прекратил существование). Поэтому, если возникают ошибки достаточно часто, то нужно сигнализировать об этом администратору.
  3. Кодировка новости иногда не совпадает с той, что прописана в заголовке. Особенно это актуально для русских кодировок. Решения могут быть различными: можно вручную определить кодировку и конвертировать в нужную нам, можно автоматически определять кодировку (http://ivr.webzone.ru/articles/defcod_2/index.htm).

7. Заключение

Данный мастер-класс показывает лишь некоторые способы использования и обработки RSS при помощи php. Более подробную информацию можно получить из указанных источников. Код, который расположен на внешних источниках, приведен в качестве примера, его работоспособность проверена лишь частично. Код, используемый в данной статье проверен, но все мы можем ошибаться. Поэтому, при обнаружении неточностей, или неработоспособности кода – просьба сообщить автору мастер-класса.

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Алексей
    больше года назад
    Call to undefined function xslt_create()
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
32 инструмента в помощь SEO-специалисту
Игорь
1
комментарий
0
читателей
Полный профиль
Игорь - отличная подборка, сам многим из этих сервисов пользуюсь (ETXT, TEXT.RU, Адаптивность, Pingdom Website Speed Test, Google PageSpeed Tools, 2IP, Whois, Букварикс) Правда не мог найти достойного кластеризатора, но потом наткнулся на вот этот seoquick.com.ua/keyword-grouping/ не сочтите за рекламу:) Было бы интересно услышать ваше мнение о нем. Мне очень даже зашел, из-за скорости работы. Как говорит автор - 100 000 запросов за несколько минут. Я с такими цифрами правда не работал, обычно это до 30 000 точно, но работает очень быстро и в правду. Ну и бесплатно, думаю, это был еще один решающий фактор для меня
Исследование: влияние smart-ссылок на продвижение по СЧ-запросам
Анатолий Шевчик
1
комментарий
0
читателей
Полный профиль
Анатолий Шевчик - +1097988
Не очень удачный кейс продвижения сайта по услуге «Трезвый водитель» в Москве
Александр Селенков
1
комментарий
0
читателей
Полный профиль
Александр Селенков - Работа проделана огромная. Интересный кейс, все детально и понятно изложено.
SEO глазами клиентов 2018
Evgenius Evgenius
1
комментарий
0
читателей
Полный профиль
Evgenius Evgenius - Хороший рейтинг. Постоянно совершенствуется. Предлагаю делить компании ещё и по городам. Хотя бы по основным. Тогда может получиться, что одна компания первая в Спб, вторая в Мск. Третья вторая в обоих городах. А четвёртая на 10 месте в целом по всему рейтингу. Так бы было интереснее для всех.
Два идеальных способа разориться на старте интернет-магазина
Стас
4
комментария
0
читателей
Полный профиль
Стас - Seonews в последнее время такую чушь несет! Где вы таких афторов находите? Статья ничего не стоит и несет чушь! Кто хоть немного понимает в этом так вам и скажет, и такие де комментаторы горе-сеошники, просто смешно читать, вы хоть модерируете ваши статьи или просто для воды на сайте?! Бред сивой кобылы эта статья до самой последней точки!!!
Яндекс перестал индексировать сайты, созданные на Wix
Константин Даткунас
3
комментария
0
читателей
Полный профиль
Константин Даткунас - Было бы интересно посмотреть саму выборку из 10 000 и методику анализа.
4 способа быстро собрать теги для сайта
Рустем Низамутинов
5
комментариев
0
читателей
Полный профиль
Рустем Низамутинов - Расписал и закинул в Google Docs, а то здесь в комментариях ссылки на активны. docs.google.com/document/d/1r0TZLNrQyYLdIzDQsD5YKlMG41HUGQgEep3bxE_ij-M/edit?usp=sharing
Яндекс: как мы модерируем объявления
Гость
5
комментариев
0
читателей
Полный профиль
Гость - Это ж Яндекс, чего вы ожидали-то? Коммерческая структура с раздутым штатом, задачей которой является заработать больше денег. Любыми методами. Задача всех пользователей посадить на Директ, даже если придется разрушить суть рунета, реализуется по полной программе. Все возражающие караются и выпиливаются. И каждый из сотрудников делает все возможное и невозможное, чтобы реализовать любую дурацкую идею - за это еще и премию выхватить можно. Даже если потом придется выполнять "откат", премиальные уже заплачены. Так было с одним из фильтров Яндекса, так было с купленным им сайтом Кинопоиска, который из русскоязычной энциклопедии кино был превращен за безумные деньги в банальный платный онлайн-кинотеатр.
Как мы разработали и вывели в ТОП сайт курсов рисования
Иван Стороженко
25
комментариев
0
читателей
Полный профиль
Иван Стороженко - Добрый день. 1)Чаще всего основная проблема заключается, в согласовании с клиентом добавляемого контента и то как он будет отображаться. На данном сайте фото и услуги конечно предоставлял клиент, все остальное уже делали мы. 2)Да в принципе, когда есть команда и понимание, что нужно делать, все идет быстро (опять же основная заминка идет на согласовании с клиентом) 3)Смысла делать новый в данном случает нет. В принципе доделывался полноценный сайт. 4)Когда клиент уже не предоставляет информацию, приходится искать у конкурентов (например с других стран или регионов). Но чаще всего клиент, хоть что-то "подкидывает".
Эксперимент: как уникальность контента влияет на продвижение сайта
Гоша
4
комментария
0
читателей
Полный профиль
Гоша - Ну да! Тырить легче, чем самому писать... Или хотя бы заказать. Ещё и хвастаемся. Поисковики - не дураки - найдется фильтр и на тех, что воруют чужой контент. Еще немного... еще чуть-чуть. Получается, если ты украл в магазине - ты вор, а если в интернете - ты предприниматель. Успеха!
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
329
Комментариев
262
Комментариев
235
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
97
Комментариев
97
Комментариев
95
Комментариев
86
Комментариев
80
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
55
Комментариев
54
Комментариев
53

Отправьте отзыв!
Отправьте отзыв!