Колдунщик умер, да здравствует колдун!
Колдунщик умер, да здравствует колдун!
новый анализатор весов слов готов стать достойной заменой колдунщику яндекса. Новый «персонаж» вывел в свет руководитель отдела продвижения РА MIRALAB Михаил Райцин. Знакомство состоялось накануне на
Сервис Miratools.ru, первой ласточкой которого стал инструмент для проверки весов слов, с таким близким сердцу названием – koldun, задумывался как собрание уникальных сервисов для SEO-специалистов. «В основу легли алгоритмы, разработанные нами для внедрения во внутренние системы поисковой аналитики», - говорит Михаил. Проверку бэклинков планируется запустить к концу декабря.
Всех тонкостей работы koldun создатели не раскрывают, но отмечают, что веса слов берутся из собственной базы, объем которой порядка 210 000 слов, а при проверке весов используется расчет по кворуму. Слова, которых нет в базе, ставятся в очередь - раз в сутки обрабатывается 1 000 новых слов. Но произошло форс-мажорное обстоятельство, по словам Михаила, «кто-то "скормил" сервису базу на 90 000 слов, из-за чего проверка затянулась. Мы не предусмотрели, что кто-то захочет прогнать собственные базы, используя наш сервис. Меры уже приняли, такого больше не повторится! Базу обновим к концу недели».
Точность и полноту алгоритма расчета весов разработчики Miratools.ru оценивают на 100%. Некоторая погрешность в расчете базы может появиться только в результате сбоя программного обеспечения или сбоев в выдаче Яндекса. База будет периодически обновляться и проверяться на соответствие реальным весам.
Дмитрий Рузанов, аналитик-проектировщик компании
«Скорее всего, такая точность достигается путем вычисления весов через формулу кворума. Т.е. решается обратная задача: задают Яндексу запрос из нескольких слов, где для всех слов, кроме искомого, заданы в явном виде веса (например, хочу::1000 & посчитать::10000 & вес). Далее, манипулируя весами других слов, ищут пороговую величину кворума, т.е. когда выдача по запросу присутствует, и когда в выдаче нет ни одного сайта.
Может быть, задача решается несколько иначе. Например, есть много-много текстов. По ним составляется обратный индекс. Для ряда слов уже известны веса. Тогда по обратному индексу определяется отношение частоты искомого слова и уже известного слова. Через пропорцию вычисляют вес искомого слова во всей коллекции документов. Потом уже более точно подбирают через формулу кворума.
Может, также используют значение количества сайтов в выдаче по запросу. Но все равно, как мне кажется, последняя стадия - это проверка непосредственно через сам кворум и выдачу Яндекса».
Однако у Дмитрия есть опасения, если Яндекс прикроет возможность задавать веса слов непосредственно в запросе, то данный сервис потеряет значительно в точности. «Хотя создатели сервиса набрали достаточную базу по весам слов. В общем, в любом случае они молодцы!».
Случилось что-то важное? Поделитесь новостью с редакцией.
-
Да, по формуле действительно так. Поспешил )
Проверил на реальной выдаче - получается вообще другое - порог вот такой (hfghfewhf::795 & ertert::411 seo::83725)//6
т.е. вес слова seo - 83725
Подставив в формулу кворума получаем, что значение степени должно измениться с 0,3798 до 0.5113
Если манипулировать мягкостью и весами других слов, то вроде бы выдача меняется, т.е. эти операторы - рабочие. Соответственно, скорее всего изменился вид формулы.
Да, по формуле действительно так. Поспешил )
Проверил на реальной выдаче - получается вообще другое - порог вот такой (hfghfewhf::795 & ertert::411 seo::83725)//6
т.е. вес слова seo - 83725
Подставив в формулу кворума получаем, что значение степени должно измениться с 0,3798 до 0.5113
Если манипулировать мягкостью и весами других слов, то вроде бы выдача меняется, т.е. эти операторы - рабочие. Соответственно, скорее всего изменился вид формулы.
-------------------------
А вообще интересно, надо будет на досуге заняться -
Блин, давно это было...
Но стратегия вроде бы следующая
Хотим проверить вес слова "seo"
Берем фразу (hfghfewhf::1 & ertert::1 seo)//6 - по этому запросу в выдаче есть сайты, т.к. при малых значениях весов первых двух слов одного слова seo достаточно для прохождения кворума. Увеличиваем веса первых двух слов... ну и т.д.
Пришли в следующему:
(hfghfewhf::795 & ertert::410 seo)//6 - в выдаче есть сайты
(hfghfewhf::795 & ertert::...Блин, давно это было...
Но стратегия вроде бы следующая
Хотим проверить вес слова "seo"
Берем фразу (hfghfewhf::1 & ertert::1 seo)//6 - по этому запросу в выдаче есть сайты, т.к. при малых значениях весов первых двух слов одного слова seo достаточно для прохождения кворума. Увеличиваем веса первых двух слов... ну и т.д.
Пришли в следующему:
(hfghfewhf::795 & ertert::410 seo)//6 - в выдаче есть сайты
(hfghfewhf::795 & ertert::411 seo)//6 - в выдаче нет сайтов
Через формулу кворума пересчитываем, что вес слов seo около 120000
Для повышения точности надо брать больше двух слов
------------------------
Это первая стратегия, которая приходит на ум.
Не знаю, может Михаил Райцин использует корпус документов, по которым считает IDF.