Россия+7 (495) 960-65-87

Эффективность ранжирования пассажей как одного из способов поиска информации в текстовых коллекциях

Россия+7 (495) 960-65-87
Шрифт:
2 6997

От редакции: Сегодня мы публикуем первую часть материала, посвященного методам ранжирования пассажей. Статья будет интересна как разработчикам поисковых систем, так и оптимизаторам. Так как авторы статьи австралийские ученые, некоторые употребляемые в материале термины являются дословным переводом с английского. Мы намеренно не стали заменять их близкими по смыслу терминами, употребляемыми в российском мире SEO, дабы сохранить изначальный смысл исследования.

Аннотация

Запросы в текстовые коллекции выполняются путем ранжирования документов в коллекции, пользователю предоставляются документы с наивысшей оценкой. Альтернативным поисковым методом является ранжирования пассажей (небольших фрагментов документа). Данный метод рассчитан улучшать эффективность выдачи и определять релевантность материала документов больших размеров. Однако метод ранжирования пассажей может значительно увеличить затраты на поиск. В данной работе будут рассмотрены альтернативные и разработаны новые способы оценки запросов. Экспериментально будет показано, что правильно выбранный способ поиска пассажей представляет собой конструктивное решение для ПК с ограниченным объемом памяти. Сравнив поиск пассажей с известными алгоритмами ранжирования документов, было определено, что новому алгоритму ранжирования пассажей \DO-TOS" необходима лишь часть источников.

Введение

Способы поиска документов из больших текстовых коллекций хорошо изучены. Эти способы используются в большинстве приложений, от простых запросов (в одно, два слова) обычных пользователей до комплексных запросов (направленных в специализированную базу данных) от специалистов поиска. В существующих системах традиционные булевые запросы были отчасти заменены упорядоченными по релевантности запросами, где каждому документу коллекции эвристически присвоен показатель, представляющий его сходство с запросом. Документ с самым высоким показателем (т.е. самый релевантный запросу) демонстрируется пользователю.

С появлением Интернета и онлайн-систем обработки документов, наблюдается стремительное увеличение количества пользователей, имеющих доступ к базе текстовых данных. Это привело к разработке новых, эффективных алгоритмов индексации и оценки релевантности запросов, которые позволяют выполнить запрос намного быстрее, используя меньшее количество источников, по сравнению технологиями прошлых лет. Новые методы предполагают уменьшение размера индекса и размера текста, использование методов сжатия, эвристических правил, что значительно уменьшает количество документов, которые могут стать возможными ответами на каждый запрос.

Не меньшее влияние на технологию системы поиска документов оказало изменение видов накопленных документов. Традиционные системы текстового поиска, используемые в библиотеках, индексируют ограниченный объем документов, например, краткое изложение докладов. В настоящее время используются алгоритмы, способные индексировать самые разнообразные документы, от коротких (газетные статьи, веб-страницы) до больших (журнальные статьи, книги, законодательные акты). Иногда документ может измеряться в мегабайтах или десятках мегабайт. Когда дело касается документов больших объемов, эвристические правила, применяемые для оценки релевантности документа и запроса, не всегда верны и могут привести к ошибочным результатам. К тому же применение эвристических правил для больших документов малоэффективно, т.к. сложно определить соответствие запроса документу.

Способ, который учитывает эти проблемы, называется «поиск по пассажам», где единицей поиска выступают блоки теста из накопленных документов. Пассажи могут основываться на логических компонентах документа, например, разделы, параграфы. Однако наиболее эффективной и надежной формой пассажей является определенная последовательность слов, встречающаяся в документе. В данной модели оценки запроса каждый документ рассматривается как большое количество пассажей, где каждый новый начинается с вхождения подходящего слова. Оценка запроса предполагает поиск в базе данных пассажа, наиболее релевантного запросу. Затем все документы, содержащие самые релевантные пассажи, выдаются пользователю, либо только пассажи с заголовком документа и информацией о его местонахождении в документе. Трудность использования метода пассажей в том, что для оценки запроса может понадобиться больше времени.

В данной работе, сначала рассматриваются базовые способы оценки запросов, включая document-ordered или DO processing, где инвертированные списки обрабатываются одновременно, term-ordered или TO processing, где каждый инвертированный список обрабатывается последовательно. А также skipping или TOS стратегии, предполагающие ограничение числа потенциальных документов, рассмотренных во время оценки запроса. Для ранжирования всего документа предыдущий анализ предполагает, что для ограниченного объема памяти DO оценка представляется более эффективной, чем TO. Используя MG прототип системы текстовой базы, экспериментально сравнили TO, TOS и DO. Результаты исследования показали, что для коротких запросов эффективнее DO, а не TO. Однако для других запросов предпочтительнее использовать способ DO, оценка запроса TO является более оперативной. Однако для ранжирования документов оба способа уступают способу оценки TOS.

В дальнейшем будет рассмотрено соответствие каждого способа оценки для поиска пассажей и предложены рекомендации по практическому поиску пассажей. На основе экспериментов, все способы будут оценены по степени результативности и степени экономичности. Результаты экспериментов докажут практическую полезность ранжирования пассажей для коротких запросов в больших коллекциях, оцененных в ограниченном объеме памяти за первые секунды. Для достаточной памяти, результативными представляются и TOS, и DO, для того, чтобы выполнить обычное поисковое задание – предоставить список из 10-20 документов, – объем памяти не должен быть большим. Также будет доказано, что для ранжирования всего документа и для длинных запросов затраты на оценку запроса способом DO увеличиваются быстрее, чем способом TOS. Для коротких запросов способ DO считается более эффективным. Мы рекомендуем использовать комбинированный метод DO-TOS, где DO processing используется для определения набора похожих документов, основанных на редких терминах запросов, а TOS processing упорядочивает заново данный набор документов.

Текстовый поиск

В поисковых системах документы ранжируются по функции эвристического подобия, определяющей степень релевантности документа запросу. Оценка осуществляется при помощи вычисления релевантности каждого документа запросу, после чего выдается k документов с наивысшей оценкой подобия. Было предложено много функций подобия, наиболее распространенной и эффективной является косинусная оценка:

C(q; d) = Pt2q^d(wq;t _ wd;t)
Wd
где q - запрос, d - документ,
Wd = pX
t2d
w2
d;t ;
wd;t = loge(fd;t + 1) ;
wq;t = loge(fq;t + 1) _ loge(N=ft + 1)

Показатель fx;t – это число вхождений термина t в x (запрос или документ в запросе); присутствует N документов; ft- число уникальных документов, содержащих t; уравнение (N=ft + 1) – «обратная частота документов», редкость нахождения t в коллекции. Сравнив с косинусными формулировками, где были сделаны такие улучшения как стандартизация длины сходных документов, было обнаружено, что в тестовых данных, представленных в данной работе, вышеуказанная формулировка достигает той же результативности.

Косинусная оценка служит примером обычных свойств более эффективных функций подобия. Она высоко оценивает документы с большим количеством терминов запросов; оценка возрастает, если термины документа универсальны, однако термины, встречающиеся в документе достаточно редко, оцениваются выше. Длина документа подвергается нормализации, т.к. в длинных документах содержится больше терминов (что приводит к более высокой оценке). Практическое преимущество данной формулировки в том, что длина документов не зависит от данных всей коллекции.

Оценка подобия может быть улучшена несколькими способами. Одним из них является использование фраз наряду с отдельными терминами. Например, вместо поиска документов с терминами «нефть» и «скважина», система представит документы, где данные термины сопредельны. Таким образом, документы, где термины в запросе расположены близко друг к другу, представляются более релевантными.

Следующим способом улучшения является использование релевантной обратной связи, где пользователям представлены небольшое количество ответов, из которого можно выбрать нужный. Система может эвристически выбрать из данных документов дополнительные термины запроса. Данный способ представляется удачным, т.к. одно и то же понятие может быть выражено по-разному, а релевантные запросу документы могут представить пользователю новые формулировки интересующего его понятия. Эксперименты показали, что расширение запроса приводит к улучшению выдачи. Однако на практике расширение запроса имеет недостатки: увеличивается число терминов запроса, что приводит к увеличению затрат на оценку запроса.

Поиск пассажей

Альтернативой текстовому поиску является поиск пассажей или небольших частей документа. Ранжирование может осуществляться либо по выборке документов, имеющих наиболее релевантные пассажи, либо по выборке самих пассажей. Несмотря на то, что поиск пассажей предполагает поиск только части документа, он имеет некоторые преимущества: в пассажах термины запроса могут быть приблизительными; нет проблемы нормализации, если пассажи одной длинны; пассажи являются указателями релевантности больших документов; пассажи удобны для презентации пользователю.

Использовать пассажи можно по-разному. Первый способ - предоставление только полных пассажей, что обеспечивает четкий ответ. Поиск пассажей может, например, стать основанием поиска информации в виде «вопросов-ответов». Следующий способ – использование пассажей как посредников документов, таким образом, документ оценивается в соответствии с оценкой его пассажей. Документ выбирается согласно запросу, а пассажи в нем расцениваются как ответы. На данный способ не влияют такие преимущества поиска пассажей, как механизм оценки запроса.

В литературе предложено много определений понятия «пассаж», включая пассажи, основанные: на разметке документа на разделы, параграфы и группы предложений; на последовательности параграфов одной длины; на словах в фиксированной по длине последовательности, которые могут рассматриваться по отдельности или комплексно. Некоторые из этих определений основаны на семантических свойствах, например, границы предложений. Можно предположить, что пассажи, основанные на блоках текста, обеспечат основу поиска. По результатам исследования, наибольшая поисковая результативность достигается с помощью пассажей, состоящих из фиксированной по длине последовательности слов. Также результаты демонстрируют, что, принимая во внимание даже простейшие структуры, например, абзацы и границы предложения, эффективность значительно снижается; использование подобной структуры предполагает ее точное определение и повторное представление проблем, таких как нормализация длины.

Для FR подраздела TREC (Text REtrieval Conference), которая состоит из документов различной длины (объема), было продемонстрировано, что использование совпадающих пассажей из 150-300 слов значительно улучшают эффективность. Для TREC были отмечены менее значительные, но последовательные улучшения. Как поисковый механизм первого уровня, данные результаты показывают, что пассажи являются лучшим способом оценки подобия целого документа. Доказано, что наивысшая эффективность достигается, если пассажи могут быть выбраны из любой части документа, если нет, то с интервалами в 25 слов, тогда ухудшения незначительные.

Подобный результат получается и для небольших запросов, если использовать способ разметки. Кларк (Clarke) использует булевые запросы для определения сегментов документов, которые удовлетворяют булевым условиям. Подобие документов основывается на самых коротких сегментах, подходящих булевому запросу, оценивающих сегменты текста по их абсолютной длине. Никаких статистических данных коллекции не требуется, однако на начальном этапе данного исследования был необходим ручной труд для введения булевых запросов. Все термины запроса обрабатывались эквивалентно. Способ, не предполагающий использование ручного труда, был представлен в 1998 на конференции TREC. Запросы на естественном языке использовались для генерации набора булевых запросов, выстроенных по уменьшению числа терминов: первый запрос – все слова, второй – все кроме слова с наивысшим IDF и т.д. Пока данный способ представляется эффективным для коротких запросов, и находится в стадии разработки.

Пассажи имеют лишь один недостаток: велики затраты на их оценку. Число подходящих пассажей в несколько раз больше, числа подходящих документов, поэтому использование данного способа может оказаться практически нецелесообразным. Однако, как упоминалось выше, иногда нет логического деления текста на документы, и для коллекций больших пассажей документов обеспечивается большая эффективность, чем при использовании альтернативных способов.

Марчин Казкиел (Marcin Kaszkiel), Джастин Зобель (Justin Zobel), Рон Сакс-Дэвис (Ron Sacks-Davis)
Университет RMIT, Мельбурн, Австралия.

Перевод под редакцией Анны Макаровой.

(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Анастасия Филатова
    0
    комментариев
    0
    читателей
    Анастасия Филатова
    больше года назад
    Из всей статьи я так и не поняла, что же такое пассаж?
    -
    0
    +
    Ответить
  • Денис Щеглов
    7
    комментариев
    0
    читателей
    Денис Щеглов
    больше года назад

    Пассаж представляет собой сообщение, которое отделено от других различными разделителями (.,!,? и т.д, теги <p>). В том случае, если разделителей нет, то пассаж это 63-64 слова.
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Google Data Studio: делаем красивые отчеты по контекстной рекламе для клиентов
Светлана Зубрицкая
1
комментарий
0
читателей
Полный профиль
Светлана Зубрицкая - Нужно убрать пробелы между строк и заменить кавычки на вот такие "
#SEOnews14: мы празднуем – вы получаете подарки!
Rizat Sundetov
1
комментарий
0
читателей
Полный профиль
Rizat Sundetov - 14
Как ускорить сайт на WordPress, чтобы получить 100/100 в Google PageSpeed Insights
Георгий
1
комментарий
0
читателей
Полный профиль
Георгий - Все что рекомендуется в этой статье есть у w.tools. Ни разу не пожалел что подключился. Своя CDN сеть, кеш статики и динамики, минификация js\css и кешируемого html, оптимизация всех типов картинок и еще куча всего полезного. Сайт летает и я не знаю проблем. Могу рекомендовать от души.
Война с дубликатами. Как нужно и как не нужно канонизировать URL
Ann Yaroshenko
5
комментариев
0
читателей
Полный профиль
Ann Yaroshenko - Дмитрий, добрый день! Если вы проставили на странице с автозапчастями rel=canonical ( а я вижу в коде, что не проставили) или в HTTP хедере, то бот, как правило: выберит ту страницу главной, которую вы указали в rel=canonical ссылке. Eсли же вы этого не сделали, то бот сам выберит оригинал (алгоритмы, по которым бот это делает, скрыты Googl-ом)
BDD 2019: Как перестать убивать время на сбор и обработку тонны данных для SEO-аудита
Feth
1
комментарий
0
читателей
Полный профиль
Feth - Тот момент, когда от статьи в интернете получаешь больше полезных знаний и навыков, чем от своего начальства. По статьям нетпиковцев можно учебник про SEO уже сшивать, ребята молодцы. Спасибо, что делитесь информацией.
«Аудит, чтобы ты заплакала…», или Что делать, когда получил сторонний аудит сайта
TehotdelSamara@gmail.com
4
комментария
0
читателей
Полный профиль
TehotdelSamara@gmail.com - Артур! Задели своим комментарием "за живое") Абсолютно,... целиком.... и полностью согласны с вами! А именно, с тем, что продажи клиента зависят в первую очередь от клиента, перечисленных вами выше и других факторов! А ещё с тем, что чистое SEO в классическом его понимании зачастую уже не даёт результата в виде роста продаж. Если хотим увеличить продажи - нужно бить по всем фронтам, SEO - только один из них, об этом клиент должен знать и быть предупреждён... Касательно нашей рекомендации смотреть на эффективность по тому, увеличилось ли число и качество заказов или нет - в контексте данной статьи говорится о том, что SEO бывает разное. По большому счёту, результат SEO — это именно привлекаемый поисковый трафик. И этот трафик может быть качественным, целевым или нет. Кроме того, трафик должен расти. Мы говорим о том, что если специалист хорошо проработал семантику, изучил бизнес клиента, исключил фразы с околонулевым спросом и проч., то трафик должен быть целевым, растущим, что значит рост обращений в отдел продаж клиента !при условии! , что само предложение и сайт располагают к тому, чтобы обратиться в отдел продаж клиента. Действительно, современное SEO предполагает учёт значительного количества факторов, в том числе и коммерческих. Без этого и трафика зачастую не будет. Нужно доносить всё это до клиента, включать подобные работы в стоимость по SEO или отдельно. А с "хочу все подряд за 25к в месяц" мы сталкиваемся тоже. Тут только пояснять и подсказывать, давать рекомендации заранее, чтобы клиент заранее был предупреждён о том, что ему требуется сделать параллельно с нашими работами по SEO. И в итоге вся эта деятельность должна привести к росту целевого трафика как на сайт, так и в отдел продаж.
Как вывести сайт в ТОП 10 Google в 2019 году
Анна Макарова
356
комментариев
0
читателей
Полный профиль
Анна Макарова - Сергей, в нашей отрасли много заимствований из английского, иногда с ними быстрее, проще .Но будем стараться ))
Как построить качественный ссылочный профиль на основе конкурентов
Ирина
7
комментариев
0
читателей
Полный профиль
Ирина - Давно сотрудничаю с megaindex.com и считаю данный сервис одним из лучших в сео сегменте рунета да и не только рунета. Пользуюсь их инструментами для аналитики своих работ и выявлению своих и чужих ошибок. Да и ссылочный профиль, как и говорится в данной статье сделать гораздо проще и правильней при помощи как раз мегаиндекса. Добавлю еще что инструмент для поиска конкурентов у мегаиндекса очень удобный и простой в применении.
Как улучшить репутацию сайта недвижимости с помощью крауд-маркетинга
Евгений
2
комментария
0
читателей
Полный профиль
Евгений - а у вас какое впечатление от статьи?
Как я пытался купить CRM-систему, но мне ее поленились продать
Kristina
1
комментарий
0
читателей
Полный профиль
Kristina - Очень рекомендую CRM-систему польской фирмы Firmao. Все функции настраиваются в соответствии с индивидуальным потребностям компании! Советую попробовать бесплатную демо-версию, чтобы попробовать все необходимые функции, без лишних кнопок и траты дополнительных финансов! :) Сайт: firmao.ru/info
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
356
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
105
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
69
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
55

Отправьте отзыв!
Отправьте отзыв!