×
Россия +7 (495) 139-20-33

Семантический поиск

Россия +7 (495) 139-20-33
Шрифт:
0 15951

Одна из наших предыдущих статей была посвящена социальному поиску от Yahoo! и одной из новых поисковых систем AnooX, заявившей о выпуске собственной версии социального поиска. В продолжение темы поиска мы предлагаем Вашему вниманию статью, темой которой является другой вид поиска – семантический.

В настоящее время в поисковых системах используется релевантная модель оценки соответствия исследуемого документа поисковому запросу. Данная модель практически не справляется с решением задач распознавания и поиска омонимов (грамматических, и, особенно, - лексических), синонимов и многозначных слов. Это обусловлено тем, что в основу релевантной модели поиска заложен лингвистический подход и ряд оценочных синтетических критериев (таких как положение слов на странице), а перечисленные выше языковые артефакты не могут быть распознаны без понимания смысла поискового запроса. Семантические поисковые системы пытаются привнести такой смысл в результаты запросов поиска, представленные в контекстном формате. В настоящее время семантические механизмы представляются провайдерами рекламы. В рамках статьи мы предлагаем рассмотреть данное явление с точки зрения их использования в бесплатных поисковых системах.

Crystal Semantics является разработчиком Textonomy Advance, первого в мире семантического механизма. Данный поисковый инструмент способен использовать знания человека, с которыми алгоритмы других программ не могут работать. Уникальная семантическая сеть от Crystal Semantics понимает смысл слов, выражений, а также устанавливает лингвистические связи между ними.

Textonomy, в отличии от существующих поисковых технологий, основу которых представляют статистические алгоритмы, использует лингвистические правила для определения семантической зависимости между словами и контекстом, в котором они встречаются. Функционирование Textonomy Advanced Engine напрямую связано с различными словарями и энциклопедиями, представленными различными источниками.

Семантический механизм

Семантический механизм стал результатом долгих научно-исследовательских работ (в течение 8 лет) в области поисковой лингвистики и $8-миллионных вложений в этот процесс. Все началось с разработки классификационной системы, предназначенной для данных, собранных для первого издания Кембриджской энциклопедии, позднее система получила широкое распространение среди многих других энциклопедий разных издательств, например, Cambridge University Press, Penguin Book.

В то же время вся база данных принадлежала издательству Cambridge University Press, но в 1997 году она была продана голландскому электронному издательству AND, которое начало ее разработку для интерактивного использования. В течение последующих 4 лет классификационная система была преобразована в «глобальную модель данных», предполагающую несколько приложений к классификации документов и поисковым технологиям. Когда компания AND в 2001 вышла из бизнеса, вся база данных была приобретена компанией Crystal Reference Systems, созданной с целью развития глобальной модели данных и ее основного понятия «семантического механизма». Это одна из крупнейших семантических систем, постоянно развивающихся под наблюдением профессора Кристалла и его высококвалифицированной редакторской команды.

Чтобы лучше понять поисковую лингвистику, используемую Crystal Semantics, и ответить на вопрос, почему в теории возможно большее, нежели на практике, предлагаем обсудить это вместе.

Булевый поиск и поиск с использованием Wildcard-символов

Булевый поиск – это комбинация элементов, позволяющих включать и исключать из поисковых результатов документы, содержащие определенные слова. Это достигается с помощью булевых операторов and, not, or, near.

Вот как используются операторы:
• And или знак плюс ( ) – в описании должны присутствовать 2 и более элемента или фразы; And – это оператор, заданный по умолчанию.
• Or - один из элементов должен быть в описании.
• Not или знак минус (-) – из поиска исключается один элемент или фраза.

Булевый поиск представляет собой одну из самых простых поисковых программ сравнения. Ярким примером булевого поиска служит использование любой крупной поисковой системы (Google, Yahoo) со множеством слов. Это предполагает использование оператора And для поиска всех элементов. Например, введем запрос «покупка плазменного телевизора онлайн», из этого будет следовать, что поиску подлежат все слова, соответствующие запросу. Все страницы, где есть слова купить, плазменный, телевизор и онлайн будут представлены в результатах поиска.

Другой пример. Если пользователь хочет исключить из поиска один из элементов, например, «купить плазменный телевизор онлайн – Sony», поисковый алгоритм воспримет это следующим образом: все релевантные результаты, имеющие слова купить, плазменный, телевизор и онлайн, будут включены в результаты поиска, а вот страницы, на которых есть слово Sony, будут исключены.

Очень редко поисковая система не поддерживает булевый поиск. В основном, булевые операторы представлены во всех системах и функционируют автоматически.

Поиск с использованием Wildcard-символов

Многие современные поисковые системы мира поддерживают поиск с использованием Wildcard-символов. Зачастую Wildcard-символы в виде астериска (*) или знака вопроса (?) используются для замены букв при написании.

Поиск с использованием Wildcard-символов предполагает поиск элементов, которые подходят словам с пропущенной буквой, например, слова text или test можно искать следующим образом: с помощью te*t или te?t.

Поиск с расстоянием

Некоторые поисковые системы поддерживают поиск слов, которые находятся на определенном удалении от элементов запроса. Поиск с расстоянием - поиск, при котором пользователь указывает, на каком расстоянии между собой должны располагаться ключевые слова в документе. Для осуществления данного вида поиска необходимо в конце фразы использовать тильду (~). Например, чтобы задать поиск слов теплица и углерод на расстоянии 10 слов друг от друга, в строку запроса нужно ввести следующее: теплица углерод ~10.

Неточный поиск

Возможно, не все знакомы с понятием «неточный поиск». В процессе неточного поиска определяются страницы, которые могут быть релевантными аргументу поиску, даже если аргумент неточно соответствует желаемой информации. Неточный поиск осуществляется посредством «Программы неточного сравнения», которая демонстрирует список результатов, составленный на основе некоторого сходства слова-аргумента с написанным вариантом. Наиболее точные и релевантные совпадения можно будет найти в начале всего списка результатов поиска. Иногда присутствует оценка относительной релевантности (в процентах) результатов поиска.

Программа неточного сравнения может выполнять функции корректора правописания. Например, пользователь ввел слово Misissippi неверно в Yahoo! или Google (обе системы используют данную программу), список найденных совпадений будет сопровождаться вопросом «Вы имели в виду Mississippi?». В программе представлены слова с альтернативным написанием и слова, имеющие одинаковое звучание, но разное написание. Программа неточного сравнения корректирует общие опечатки, а также ошибки, допущенные в процессе оптического распознавания знаков (OCR) печатных документов.

Обычно программа неточного сравнения представляет помимо релевантных совпадений и нерелевантные. Как правило, это происходит, если слово имеет много значений, одно из которых может оказаться релевантным запросу. Если у пользователя только смутное представление о том, что ему нужно найти, то следует ориентироваться по оценке относительной релевантности (у нерелевантных совпадений оценка будет низкой).

С точки зрения научных исследований, неточный поиск представляет больше возможностей, чем его точный аналог. Неточный поиск широко применяется при исследовании малоизвестных, специфических работ и работ на иностранном языке, правильное написание названий которых не известно. Данный вид поиска также используется для определения местоположения объекта, информация о котором не точна или ее не достаточно.

Используя неточный поиск, пользователю нужно внести в строку поиска все варианты написания искомого слова (множественное/единственное число, а также варианты неправильного написания).

Поиск по контексту

В оффлайн-разговоре собеседники без труда понимают друг друга, легко определяя нужное значение многозначного слова по контексту. Поиск по контексту представляет собой онлайн-попытку определять нужное значение слова в зависимости от окружающих его слов (контекста). Именно поиск по контексту лежит в основе системы Crystal Semantics’ Textonomy. Данный вид поиска имеет частичное сходство с неточным поиском, а отличие в том, что поиск по контексту предусматривает оценку содержания всей страницы в целом, а не отдельного слова.

Однако релевантные результаты поиска продолжают оставаться актуальной проблемой для поисковых систем. Именно по причине некорректной информации многие предпочитают не использовать Интернет с этой целью. Даже поддерживая такие программы, как Булевый поиск, Неточный поиск и даже поиск с использованием Wildcard-символов, поисковые системы не могут достичь совершенства в поиске. Многие продолжают считать, что поиск шагнет вперед только с развитием Поиска по контексту.

По информации www.seochat.com

(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Ане Макаровой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Кейс: как за 30 дней вывести новый сайт в ТОП выдачи Google
Сергей
2
комментария
0
читателей
Полный профиль
Сергей - Прошёл у Паши курс год назад, пытался продвигать свой сайт portativ.org.ua, но особых продвижений нет. Наверное сео уже умерло??
Как стандартизировать данные семантики с помощью логарифмов
Юлий
1
комментарий
0
читателей
Полный профиль
Юлий - Чем снималась коммерцелизация?
Облако тегов в интернет-магазине: прикладная инструкция по увеличению трафика
Юлия Дмитриева
2
комментария
0
читателей
Полный профиль
Юлия Дмитриева - Согласна с вами, что в любом деле важен индивидуальный подход:)
Специалисты в Рунете заметили глобальную накрутку поведенческих факторов
Дмитрий Кулаевский
1
комментарий
0
читателей
Полный профиль
Дмитрий Кулаевский - кто-нибудь знает как с этим бороться? очень много такого трафа идёт с июля, сайт сильно просел
Яндекс возобновил «показательные порки» за накрутку поведенческих факторов
Антон
1
комментарий
0
читателей
Полный профиль
Антон - Никакой не выпал. Кроме клиентского сайта, который проседал из-за скрутки, о чем Я.Поиску сообщали и клиенту тоже. Ноль реакции от поисковика (продолжайте развивать сайт, никаких проблем нет ...). Клиенту надоело и он заказал накрутку у подрядчиков. Мы искренне ждали бана, сообщали об этом клиенту, т.к. мы все таки делаем все остальное для развития. Как итог: с лета полет нормальный. Сайт растет, никаких проблем. Случайно даже стажер палил тех поддержке факт использования накрутки. И ничего. Сайт растет дальше. Если они не могут ничего принять даже после признания факта накрутки, что они могут сделать с жалобами на накрутку конкурентов?! Никогда не одобряли данные методы, но ... похоже ... все работает :)
Сколько стоит SEO на фрилансе. Кейсы
Людмила
1
комментарий
0
читателей
Полный профиль
Людмила - Очень спорная статья. Особенно оценка. К примеру, за 1500 руб. 200 вечных ссылок с быстрой индексацией. Это про какой год? Про 2020? Точно? Собственно, в текущих реалиях при хорошем раскладе за эти деньги можно получить 3-4 качественные ссылки. А никак не 200. Если 200, то такие ссылки, по 7,5 руб. за штуку выбьют сайт за ТОП-100. А заказчик будет в шоке, он же все правильно делал, по инструкции из статьи в уважаемом издании.
«Нет в наличии»: что делать с карточками отсутствующего товара
freyr energy
1
комментарий
0
читателей
Полный профиль
freyr energy - Thank you so much @ admin for share your valuable thoughts and ideas We always enjoy your articles its inspired a lot by reading your articles day by day. So please accept my thanks and congrats for success of your latest series. We hope, you should published more better articles like ever before solar rooftop
15 языков программирования, за знание которых платят выше среднего
Любомир
2
комментария
0
читателей
Полный профиль
Любомир - Ну и ЗП: ни слова о том что она варируеться от 0 до 100 000$ в год!!! Что до высокой зп надо несколько лет етим заниматся! Что 100 000$ в год на западе заробатывают, а где нибудь в азиатских страннах 100$ в год. В СНГ первые годы в разработчика ЗП как в грузчика на складе - это где то 4-5 тыс. долларов в год, и уже имея несколько лет опыта возможно дойти до 10-20 тыс. долларов в год! Почему нет конкретики? Меня лично нервирует то что людям внушают великие ЗП в АйТи, а люди тупые и ведутся!!!!
Яндекс тестирует оценки сайта в сниппете
Сергей Демин
8
комментариев
0
читателей
Полный профиль
Сергей Демин - вопрос такой: где получить оценку о сайте? а не об организации
От количества к качеству: что происходит с рекламой в Рунете
Евгений
1
комментарий
0
читателей
Полный профиль
Евгений - Истину глаголите!
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
384
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
141
Комментариев
121
Комментариев
113
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
92
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
60
Комментариев
59
Комментариев
57

Отправьте отзыв!
Отправьте отзыв!