Семантический поиск

Россия+7 (495) 960-65-87
Шрифт:
0 10748

Одна из наших предыдущих статей была посвящена социальному поиску от Yahoo! и одной из новых поисковых систем AnooX, заявившей о выпуске собственной версии социального поиска. В продолжение темы поиска мы предлагаем Вашему вниманию статью, темой которой является другой вид поиска – семантический.

В настоящее время в поисковых системах используется релевантная модель оценки соответствия исследуемого документа поисковому запросу. Данная модель практически не справляется с решением задач распознавания и поиска омонимов (грамматических, и, особенно, - лексических), синонимов и многозначных слов. Это обусловлено тем, что в основу релевантной модели поиска заложен лингвистический подход и ряд оценочных синтетических критериев (таких как положение слов на странице), а перечисленные выше языковые артефакты не могут быть распознаны без понимания смысла поискового запроса. Семантические поисковые системы пытаются привнести такой смысл в результаты запросов поиска, представленные в контекстном формате. В настоящее время семантические механизмы представляются провайдерами рекламы. В рамках статьи мы предлагаем рассмотреть данное явление с точки зрения их использования в бесплатных поисковых системах.

Crystal Semantics является разработчиком Textonomy Advance, первого в мире семантического механизма. Данный поисковый инструмент способен использовать знания человека, с которыми алгоритмы других программ не могут работать. Уникальная семантическая сеть от Crystal Semantics понимает смысл слов, выражений, а также устанавливает лингвистические связи между ними.

Textonomy, в отличии от существующих поисковых технологий, основу которых представляют статистические алгоритмы, использует лингвистические правила для определения семантической зависимости между словами и контекстом, в котором они встречаются. Функционирование Textonomy Advanced Engine напрямую связано с различными словарями и энциклопедиями, представленными различными источниками.

Семантический механизм

Семантический механизм стал результатом долгих научно-исследовательских работ (в течение 8 лет) в области поисковой лингвистики и $8-миллионных вложений в этот процесс. Все началось с разработки классификационной системы, предназначенной для данных, собранных для первого издания Кембриджской энциклопедии, позднее система получила широкое распространение среди многих других энциклопедий разных издательств, например, Cambridge University Press, Penguin Book.

В то же время вся база данных принадлежала издательству Cambridge University Press, но в 1997 году она была продана голландскому электронному издательству AND, которое начало ее разработку для интерактивного использования. В течение последующих 4 лет классификационная система была преобразована в «глобальную модель данных», предполагающую несколько приложений к классификации документов и поисковым технологиям. Когда компания AND в 2001 вышла из бизнеса, вся база данных была приобретена компанией Crystal Reference Systems, созданной с целью развития глобальной модели данных и ее основного понятия «семантического механизма». Это одна из крупнейших семантических систем, постоянно развивающихся под наблюдением профессора Кристалла и его высококвалифицированной редакторской команды.

Чтобы лучше понять поисковую лингвистику, используемую Crystal Semantics, и ответить на вопрос, почему в теории возможно большее, нежели на практике, предлагаем обсудить это вместе.

Булевый поиск и поиск с использованием Wildcard-символов

Булевый поиск – это комбинация элементов, позволяющих включать и исключать из поисковых результатов документы, содержащие определенные слова. Это достигается с помощью булевых операторов and, not, or, near.

Вот как используются операторы:
•And или знак плюс (+) – в описании должны присутствовать 2 и более элемента или фразы; And – это оператор, заданный по умолчанию.
•Or - один из элементов должен быть в описании.
•Not или знак минус (-) – из поиска исключается один элемент или фраза.

Булевый поиск представляет собой одну из самых простых поисковых программ сравнения. Ярким примером булевого поиска служит использование любой крупной поисковой системы (Google, Yahoo) со множеством слов. Это предполагает использование оператора And для поиска всех элементов. Например, введем запрос «покупка плазменного телевизора онлайн», из этого будет следовать, что поиску подлежат все слова, соответствующие запросу. Все страницы, где есть слова купить, плазменный, телевизор и онлайн будут представлены в результатах поиска.

Другой пример. Если пользователь хочет исключить из поиска один из элементов, например, «купить плазменный телевизор онлайн – Sony», поисковый алгоритм воспримет это следующим образом: все релевантные результаты, имеющие слова купить, плазменный, телевизор и онлайн, будут включены в результаты поиска, а вот страницы, на которых есть слово Sony, будут исключены.

Очень редко поисковая система не поддерживает булевый поиск. В основном, булевые операторы представлены во всех системах и функционируют автоматически.

Поиск с использованием Wildcard-символов

Многие современные поисковые системы мира поддерживают поиск с использованием Wildcard-символов. Зачастую Wildcard-символы в виде астериска (*) или знака вопроса (?) используются для замены букв при написании.

Поиск с использованием Wildcard-символов предполагает поиск элементов, которые подходят словам с пропущенной буквой, например, слова text или test можно искать следующим образом: с помощью te*t или te?t.

Поиск с расстоянием

Некоторые поисковые системы поддерживают поиск слов, которые находятся на определенном удалении от элементов запроса. Поиск с расстоянием - поиск, при котором пользователь указывает, на каком расстоянии между собой должны располагаться ключевые слова в документе. Для осуществления данного вида поиска необходимо в конце фразы использовать тильду (~). Например, чтобы задать поиск слов теплица и углерод на расстоянии 10 слов друг от друга, в строку запроса нужно ввести следующее: теплица углерод ~10.

Неточный поиск

Возможно, не все знакомы с понятием «неточный поиск». В процессе неточного поиска определяются страницы, которые могут быть релевантными аргументу поиску, даже если аргумент неточно соответствует желаемой информации. Неточный поиск осуществляется посредством «Программы неточного сравнения», которая демонстрирует список результатов, составленный на основе некоторого сходства слова-аргумента с написанным вариантом. Наиболее точные и релевантные совпадения можно будет найти в начале всего списка результатов поиска. Иногда присутствует оценка относительной релевантности (в процентах) результатов поиска.

Программа неточного сравнения может выполнять функции корректора правописания. Например, пользователь ввел слово Misissippi неверно в Yahoo! или Google (обе системы используют данную программу), список найденных совпадений будет сопровождаться вопросом «Вы имели в виду Mississippi?». В программе представлены слова с альтернативным написанием и слова, имеющие одинаковое звучание, но разное написание. Программа неточного сравнения корректирует общие опечатки, а также ошибки, допущенные в процессе оптического распознавания знаков (OCR) печатных документов.

Обычно программа неточного сравнения представляет помимо релевантных совпадений и нерелевантные. Как правило, это происходит, если слово имеет много значений, одно из которых может оказаться релевантным запросу. Если у пользователя только смутное представление о том, что ему нужно найти, то следует ориентироваться по оценке относительной релевантности (у нерелевантных совпадений оценка будет низкой).

С точки зрения научных исследований, неточный поиск представляет больше возможностей, чем его точный аналог. Неточный поиск широко применяется при исследовании малоизвестных, специфических работ и работ на иностранном языке, правильное написание названий которых не известно. Данный вид поиска также используется для определения местоположения объекта, информация о котором не точна или ее не достаточно.

Используя неточный поиск, пользователю нужно внести в строку поиска все варианты написания искомого слова (множественное/единственное число, а также варианты неправильного написания).

Поиск по контексту

В оффлайн-разговоре собеседники без труда понимают друг друга, легко определяя нужное значение многозначного слова по контексту. Поиск по контексту представляет собой онлайн-попытку определять нужное значение слова в зависимости от окружающих его слов (контекста). Именно поиск по контексту лежит в основе системы Crystal Semantics’ Textonomy. Данный вид поиска имеет частичное сходство с неточным поиском, а отличие в том, что поиск по контексту предусматривает оценку содержания всей страницы в целом, а не отдельного слова.

Однако релевантные результаты поиска продолжают оставаться актуальной проблемой для поисковых систем. Именно по причине некорректной информации многие предпочитают не использовать Интернет с этой целью. Даже поддерживая такие программы, как Булевый поиск, Неточный поиск и даже поиск с использованием Wildcard-символов, поисковые системы не могут достичь совершенства в поиске. Многие продолжают считать, что поиск шагнет вперед только с развитием Поиска по контексту.

По информации www.seochat.com

Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
    ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
    Рейтинг «Известность бренда SEO-компаний 2017»: народное голосование
    Иван
    1
    комментарий
    0
    читателей
    Полный профиль
    Иван - 1) IT-Agency 2) Пиксели 3) 1ps 4) Ингейт 5) Нетпики
    «Баден-Баден»: как выйти из-под фильтра
    Сергей Дембицкий «Sima-Land.ru»
    16
    комментариев
    0
    читателей
    Полный профиль
    Сергей Дембицкий «Sima-Land.ru» - Скрины Метрики показывать не буду, но мы (sima-land.ru - 1,5 млн. стр. в поиске Яндекс) в сентябре загремели под ББ, в разгар сезона и вышли из-под фильтра, спустя 50 дней, удалив все тексты с сайта: категории + карточки товаров (описание). Трафик с Google только вырос. Тексты возвращать собираемся, но процесс будет длительный, тексты будем теперь писать исключительно полезные, т.к. было больно :-))
    Второе дыхание ссылочного продвижения
    Автопилот
    14
    комментариев
    0
    читателей
    Полный профиль
    Автопилот - Еще лучше, когда продвижение осуществляется комплексно :)
    «Прямая линия» с Александром Алаевым («АлаичЪ и Ко»): отвечаем на вопросы
    Александр Алаев
    13
    комментариев
    0
    читателей
    Полный профиль
    Александр Алаев - Роман. Тут ответ очень простой. Каждый запрос можно четко разделить на коммерческий или некоммерческий. "Купить слона" и его длинные хвосты - коммерческий. "Как выбрать слона" и подобные - информационные. Вот под коммерческие ключи должны быть страницы услуг или каталога товаров. А под информационку - блог. Очень важно не путать их, тем более несоответствующая коммерческим факторам страниц просто не продвинется, то есть по запросу с "купить" блог никогда не будет показываться в выдаче, так же как и страница услуги/товаров не покажется по "как выбрать". Понятно примерно?
    Кейс: продвигаем бизнес по продаже пластиковых окон в Москве
    Иван Стороженко
    5
    комментариев
    0
    читателей
    Полный профиль
    Иван Стороженко - 1. По началу вообще не использовали, сейчас уже много каналов используется. 2. Все может быть, в принципе сайты должны быть удобны для пользователя, для этого и нужна схожесть между собой. Честно говоря старались брать все самое интересное у конкурентов + подкреплять своими идеями.
    Инфографика: самые распространенные SEO-ошибки Рунета
    Dmitro Grunt
    2
    комментария
    0
    читателей
    Полный профиль
    Dmitro Grunt - Кстати, у проектов которые продвигает Нетпик все тайтлы не более 65 символов? Или вы надеетесь что кто то послушает советов и отдаст вам часть трафика? :-)
    Google.ru внесли в реестр запрещенных сайтов
    Гость
    1
    комментарий
    0
    читателей
    Полный профиль
    Гость - Гон, все работает и будет работать. Да и пусть банят, будет как с рутрекером.
    Сердитый маркетолог: как вы сами хороните свой сайт, или 16 принципов, которые нужно усвоить заказчикам SEO
    Анна Макарова
    313
    комментария
    0
    читателей
    Полный профиль
    Анна Макарова - Artem Sergeev, ваш комментарий удален за агрессивный настрой и безосновательные обвинения. Держите себя в руках!
    «Прямая линия» с Артуром Латыповым: отвечаем на вопросы
    God Koss
    1
    комментарий
    0
    читателей
    Полный профиль
    God Koss - Добрый день! Есть сайты одной компании продвигающиеся в разных странах. .ru .com .net. На российском сайте два языка ru и en, на остальных до 10 языков. Недавно сайт ru по основному брендовому запросу выпал из выдачи Яндекс но после апа вернулся на вторую позицию. На вопрос аффилирования в тех поддержку, получит ответ, что всё в порядке и сайт com не учавствует в выдаче. Но он есть и занимает 1 место. Как быть в данной ситуации? Так же, после возврата в топ 10 по этому запросу зашла еще одна внутренняя страница. Могло ли это случиться из-за каннибализации запроса? Немного изменил description на внутренней, исключил вхождения брендового запроса. Жду апа. Хотел бы услышать ваше мнение. Заранее благодарю!
    Западные специалисты выяснили, как повысить позиции ресурса в выдаче Google
    Serhii Diachenko
    1
    комментарий
    0
    читателей
    Полный профиль
    Serhii Diachenko - Спасибо Бернис!
    ТОП КОММЕНТАТОРОВ
    Комментариев
    910
    Комментариев
    834
    Комментариев
    554
    Комментариев
    540
    Комментариев
    483
    Комментариев
    373
    Комментариев
    313
    Комментариев
    262
    Комментариев
    229
    Комментариев
    171
    Комментариев
    156
    Комментариев
    137
    Комментариев
    121
    Комментариев
    97
    Комментариев
    97
    Комментариев
    95
    Комментариев
    80
    Комментариев
    77
    Комментариев
    67
    Комментариев
    60
    Комментариев
    59
    Комментариев
    55
    Комментариев
    54
    Комментариев
    52
    Комментариев
    49

    Отправьте отзыв!
    Отправьте отзыв!