Обзор поиска по блогам
В России блоги известны уже несколько лет, однако лишь в последнее время они стали по-настоящему массовым явлением: сегодня русскоязычные блоги исчисляются сотнями тысяч.
Согласно опубликованному Яндексом в апреле
Причем одновременно с количеством блогов растет и их толщина. В рекомендациях типа «как стать успешным блогером» рефреном повторяется “чтобы привлечь пользователей, надо писать не менее 3 постов в день”. Всё вместе это оборачивается сногсшибательным ростом количества информации, а значит, растет и необходимость ее быстрого и удобного поиска.
Искать по блогам в рунете можно с помощью поисковых систем Яндекс и Google. Или воспользоваться поиском, который предлагают блогхостинги – популярные сегодня западный “Живой Журнал” (LiveJournal) и российский LiveInternet, Блоги.Mail, Планета Рамблер.
В России популярностью пользуются два блогхостинга:
- | LiveJournal | LiveInternet |
Количество пользователей | 1 060 598 | 781 552 |
Количество сообществ | 65 269 | 45 337 |
Количество сообщений в день | Около 60 тысяч | Около 50 тысяч |
Поиск по ЖЖ осуществляется на основе Яндекс XML . В отличие от него, LiveInternet производит не поиск, а скорее фильтрацию запросов на основе географии, интересов и имен (ников). По словам медиа-директора LiveInternet Чачанова Руслана, хостинг планирует в ближайшее время ввести поиск по тексту. “Вероятнее всего, мы будем делать поиск по блогам самостоятельно”, - ответил Руслан на мой вопрос о возможности сотрудничества компании с каким-либо поисковиком.
Данные, по которым ищет и которые индексирует поиск по блогам в поисковых системах, имеют совершенно иную специфику и формат по сравнению с тем, чем занимается основной поиск. В поиске по блогам сообщения хорошо структурированы и невелики по объему, в то время как в основном поиске находится большое количество слабоструктурированной информации.
Так же сильно, как разнится выдача Google и Яндекса, поиск по блогам одного поисковика (Яндекс Поиск по блогам) отличается от другого (Google Blogsearch) . В первую очередь, различие заключается в учете параметров при формировании выдачи.
Время создания записи - тот параметр, по которому упорядочены записи Поиска по блогам Яндекса по умолчанию. Поиск по блогам Яндекса имеет собственный, отдельный от основного, индекс (при этом ссылки на блоги можно встретить и в основной выдаче Яндекса). В этом индексе сейчас более 200 млн. сообщений из 2 млн. источников - это около 8% от основного поиска Яндекса.
У Google – PageRank. В результаты поиска Google включены все блоги, а не только опубликованные с помощью программы Blogger, являющейся собственностью поисковика. Как сказал инженер компании Google Ринат Сафин,"поиск по Блогам Google – это самостоятельный вид поиска, использующий индексатор и алгоритмы, разработанные специально для сервиса и с учетом его особенностей. Блоги включаются в выдачу основного поиска Google и, как и все остальные сайты глобальной паутины, ранжируются с учетом сотен факторов, учитывающихся системой Google PageRank . Если вы будете совершать поиск на интересующую вас тематику на Google.ru или Google.com, то в результатах поиска тоже сможете увидеть ссылки на блоги, если они там будут уместны. Просто бывают случаи, когда пользователям необходимо найти информацию, которая может быть только в блогах, например, определенный политический комментарий на недавнее событие. В таких случаях поиск по блогам - это просто незаменимый инструмент, и именно для таких случаев мы его и создавали."
Из-за разных факторов ранжирования, выдача у поисковиков сильно отличается. По одному и тому же запросу обоих поисковиков на первой странице выдачи нельзя найти два одинаковых сайта. SEONEWS проверил работу поиска по блогам Яндекса и Google.
![http://blogs.yandex.ru/search.xml?how=tm&rd=2&text=%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D1%8F](/upload/analytics/3397.jpg)
![http://www.google.ru/blogsearch?hl=ru&ie=UTF-8&q=%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D1%8F&lr](/upload/analytics/3396.jpg)
В Яндексе справа расположена панель задач, где пользователь может выбрать, откуда должна формироваться выдача из
- популярных блогов,
- блогов (то есть всех блогов),
- форумов или
всего вышеперечисленного.
Блоговая выдача формируется на симбиозе релевантности и свежести. Но у Google, как всегда, свобода выбора: на экране слева в специальной панели можно задать временной промежуток поиска информации: 1 час, полдня, день неделя, и т.д.
Если ввести более конкретный запрос, например “Хиросима”, то Яндекс, в первую очередь, выдает ссылки на источники, где в последний раз упоминался этот город. Что вполне логично, ведь по умолчанию учитывается временной фактор. А вот найти что-либо о самой бомбардировке в предложенных поисковиком источниках сложно.
Google же, напротив, предоставляет ссылки на источники, из которых можно почерпнуть информацию о самом городе, дате бомбардировке и все, что последовало за этим.
Одна из самых интересных «фишек» поиска по социальной среде от Яндекса – это фильтрация по популярным блогам. Описания того, какие блоги Яндекс из своего
Чтобы оценить, с какой авторитетностью дневники попадают в выдачу по популярным блогам, SEONEWS провел небольшой эксперимент. В поиск по блогам вводился запрос, вероятность упоминания которого за последнее время была наименее вероятна. Затем оценивалась авторитетность последнего блога в выдаче.
Результаты:
Запрос | Количество предложенных страниц в обычном поиске по блогам | Количество страниц в выдаче по популярным блогам | Авторитетность последнего блога |
гиппопотам | 3542 | 361 | 11168 |
голограмма | 8736 | 455 | 4207 |
кукрыниксы | 15064 | 390 | 2978 |
кашалот | 3920 | 299 | 1026 |
киднеппинг | 588 | 46 | 1608 |
макраме | 3542 | 246 | 3536 |
примитив | 3458 | 542 | 3444 |
бормотуха | 3612 | 28 | 1490 |
морошка | 4984 | 277 | 5327 |
оруженосец | 6622 | 482 | 4146 |
Результаты эксперимента позволяют сделать вывод, что Яндекс отфильтровывает в поиске по популярным блогам дневники с авторитетностью не меньше 1000.
Ведение собственного блога – это не только самовыражение. Может быть, пятнадцать лет назад, когда только начали появляться первые блоги, это и было так. Теперь блог – это рекламная площадка для рекламодателей и для самого блогера. С помощью блога пользователь рассказывает о себе, пытается привлечь к себе внимание. Чем интереснее записи в блоге, тем больше посетителей. Как сказал Антон Носик, “способом продвижения моего блога является занятие мною разных заметных публике должностей. Если меня назначат премьер-министром РФ, то добавится человек 500 новых френдов. если приговорят к пожизненной каторге - тысяча”.
Больше посетителей – больше дохода для блогера от контекстной и баннерной рекламы. Однако, одними интересными постами пользователей не привлечь. На Западе уже давно известно, а в рунете только начинает свое развитие такое понятие как SMO – оптимизация под социальные медиа. Существует множество способов продвинуть свой блог, о многих из них SEONEWS не так давно уже писал. Но нельзя продвинуть свой блог под оба поиска по блогам Яндекса и Google.
Под какой же поисковик стоит продвигать свой блог? Я пришла к выводу, что под Яндекс. Несмотря на то, что основная выдача формируется по форумам, в российском поисковике существует фильтр поиска по блогам. Если пользователь хочет найти не просто свежую информацию, а именно то, каким образом те или иные блогеры отметили определенное событие, то логичнее будет воспользоваться Яндексом.
Выдачу Google пользователь сможет отфильтровать только по времени. А выбирать из того количества новостных сайтов, которое предоставляет поисковик, придется вручную.
Яндекс при использовании фильтра не только может сформировать выдачу по блогам, но и выдачу по популярным блогам. При этом ссылки на более популярные онлайн-дневники будут в выдаче выше стоять, чем на менее популярные. Однако наличие рейтинга приводит к тому, что пользователи сознательно начинают накручивать популярность блогов. Но это уже другая проблема.
Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой
-
Из чего состоит ППБ Яндекса.
Роман Иванов ака kukutz
Cтарье (лето 2006 года), но больше я этого ни где не находила.
1. Робот, который называется blogindexd. Робот скачивает RSS-потоки (его user-agent — YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot;) NN readers, где NN readers — количество подписчиков на этот поток в «Яндекс.Ленте» — эта информация может оказаться интересной для автора потока) и складывает их в хран...Из чего состоит ППБ Яндекса.
Роман Иванов ака kukutz
Cтарье (лето 2006 года), но больше я этого ни где не находила.
1. Робот, который называется blogindexd. Робот скачивает RSS-потоки (его user-agent — YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot;) NN readers, где NN readers — количество подписчиков на этот поток в «Яндекс.Ленте» — эта информация может оказаться интересной для автора потока) и складывает их в хранилище.
2. Хранилище для текста записей, называется bulca. Это основанное на файловой системе хранилище, разработка «Яндекса».
3. Хранилище для метаинформации (дата записи, id потока записи и т.п.). Для него используется mysql.
4. Полнотекстовый индекс и поисковая программа над этим индексом. Это, фактически, обычный «Яндекс.Сервер». Вообще говоря, индекс не один, он разбит на несколько — постоянные индексы, которые содержат архивы; статичные индексы, которые содержат записи последних недель и обновляются довольно редко, примерно раз в сутки, и динамические индексы, которые обновляются гораздо чаще, вплоть до раза в пять минут.
5. Планировщик, который, на основании истории потока, определяет, когда его нужно скачать в очередной раз. Это довольно интеллектуальная программа, цель которой состоит в том, чтобы качать потоки как можно чаще, но при этом не перегрузить сервера, с которых мы скачиваем потоки. В первые месяцы работы поиска по блогам бывало, что слишком активно качая RSS с Livejournal.com, мы «роняли» им сервера.
6. Большое количество дополнительных скриптов, которые отвечают за борьбу со спамом (а спам в блогах есть), отключение новостных потоков (в поиске по блогам мы стараемся оставлять только потоки, содержащие мнения — блоги, форумы, группы и т.п.) и многое другое.
Источник ( http://webeconomist.ru/2006/07/31/print:page,1,roman_ivanov_cilu_blogov_v_jandekse_priznali.html ) -
Балагодаря тому что этот сайт romankalugin.com пописан в рсс Гугла, главная страница индексируется ежечасно:)
![](/images/avatar/8.png)
![](/upload/resize_cache/main/40b/60_60_2/40ba9e6ccd40245b03725d4fb1487296.jpg)
![](/upload/resize_cache/main/713/60_60_2/713cf673b9cc25f51e3ab30512c44960.jpg)
![](/images/avatar/5.png)
![](/upload/resize_cache/main/713/60_60_2/713cf673b9cc25f51e3ab30512c44960.jpg)
![](/images/avatar/9.png)
![](/images/avatar/8.png)
![](/images/avatar/9.png)
![](/upload/resize_cache/main/076/60_60_2/07676f60d798d16ad8207d78bc007548.jpeg)
![](/upload/resize_cache/main/40b/60_60_2/40ba9e6ccd40245b03725d4fb1487296.jpg)
![](/images/avatar/3.png)
![](/images/avatar/4.png)
![](/images/avatar/7.png)
![](/upload/resize_cache/main/585/42_42_2/585f431424743e842039591d897b0018.jpg)
![](/upload/resize_cache/main/a7d/42_42_2/a7d58966649e99f3a4bc367b19fdace1.jpg)
![](/upload/resize_cache/main/713/42_42_2/713cf673b9cc25f51e3ab30512c44960.jpg)
![](/upload/resize_cache/main/a8f/42_42_2/a8fff0ebc3ae749f6c6e9235ee028d04.jpg)
![](/images/avatar/2.png)
![](/upload/resize_cache/main/517/42_42_2/5176ed0818edf65ffafd8091d485a4ef.png)
![](/images/avatar/9.png)
![](/upload/resize_cache/main/06d/42_42_2/06deae019622f209c1d2dbf0b02efa26.jpg)
![](/upload/resize_cache/main/c81/42_42_2/c816924d3b35c0fb60ed8597fcf48a5c.jpg)
![](/upload/resize_cache/main/802/42_42_2/802244fb8bbbdf42e704c3d7629712a7.jpg)
![](/upload/resize_cache/main/213/42_42_2/2131d1f6eb6785d43aa67c97635ba6a0.png)
![](/upload/resize_cache/main/d35/42_42_2/d3592bbe1f46c09319b2e411691696ae.jpg)
![](/upload/resize_cache/main/e73/42_42_2/e73ce1fffeff410ec230dab60b43bb2c.jpg)
![](/images/avatar/2.png)
![](/upload/resize_cache/main/974/42_42_2/9748368d2314dfb79ed5da3eaf65c5c4.jpg)
![](/upload/resize_cache/main/950/42_42_2/95075458576d86f53a212f253fa06fae.png)
![](/upload/resize_cache/main/0bc/42_42_2/0bc9321f23deb17434fdc831ed3f9242.jpg)
![](/upload/resize_cache/main/52c/42_42_2/52c72b135acd8f0d14938c084ad5c668.png)
![](/images/avatar/9.png)
![](/images/avatar/3.png)
![](/upload/resize_cache/main/527/42_42_2/5270eff60c8599d94be00b89d941c224.png)