×
Россия +7 (495) 139-20-33

Optimization 2019: Умеет ли поиск понимать текст? Как работать с новыми текстовыми факторами

Россия +7 (495) 139-20-33
Шрифт:
1 9528

30 октября состоялась ежегодная конференция по поисковому маркетингу Optimization 2019.

В рамках секции о текстовых факторах выступил Алексей Чекушин, основатель Just-Magic.org. Он рассказал о «Технологии текстового контента»: как поиск ранжирует тексты и умеет ли понимать смысл, как работают «Палех», «Королев» и BERT и что делать с новыми технологиями.

Поисковые системы заявляют: «Пишите тексты для людей и не делайте SEO-тексты». По словам Алексея, если бы мы жили в вакуумном мире, где развита обработка естественного языка (Natural Language Processing, NLP), такое заявление было бы на 100% верно. Потому что обработка естественного языка не требует дополнительных технических навыков, просто пишите хороший текст. Но до такого уровня поиск еще не дошел лет на 5–10 точно и плавно к этому движется. Если раньше важны были только ключевые вхождения (keywords), то сейчас поиск находится на середине пути к пониманию естественного языка, а значит, без технической оптимизации текстов обойтись пока невозможно.

Как поиск оценивает тексты:

  • Факторы ранжирования

- Текстовые факторы (classic);

- New-gen текстовые факторы;

- Поведенческие факторы.

  • Антиспам

С какими величинами работает поиск? Факторы «классические»

Мешок слов – процесс, когда все слова из текста просто вытряхнули, перемешали и пересчитали. На этом этапе уничтожается вся информация о связности текста. При этом 97% слов просто выбрасываются, потому что не могут рассматриваться.

Биграммы – пары слов. Они сообщают, какие слова идут друг за другом.

При этом теряется информация о расположении слов и о словах, не содержащихся в запросе. Синонимы есть, но это очень маленькое расширение, которое, по словам докладчика, слабо работает. Даже примитивные синонимы, как, например, «мобильные телефоны» и «сотовые телефоны», могут оказаться не взаимными. Синоним с точки зрения поиска – это вектор, и он может быть не двунаправленным, даже если для нас – это очевидные синонимы.

Какие сложности при работе с ними?

  • Машинное обучение. Если раньше был простой алгоритм – «спамить побольше», то с появлением машинного обучения стало необходимо влезать в диапазоны по ключевым словам. Эти диапазоны непонятны, и оптимизация сводится к чисто техническому угадыванию.
  • Попытки технического угадывания натыкаются на большое разнообразие результатов в выдаче.
  • Влияние других факторов, большинство их которых отсечь невозможно.
  • Другие текстовые (текст не ограничивается вхождениями).

Что с этим делать

Используем текстовые анализаторы, которые показывают данные по вхождениям разных ключей на страницах сайтов-конкурентов.

Что поменялось с появлением новых алгоритмов? Стал отличаться принцип работы:

  • Оптимизаторам стало менее важно точно затачивать страницы по ключевым вхождениям.
  • Стал важен отбор запросов для анализа группы. «Палех» и «Королев» изменили правило ранжирования группировок.
  • Теперь оптимизироваться может НЕ текст.

Новое поколение текстовых факторов

  • DSSM – «Палех»/«Королев»;
  • BERT.

Насколько два алгоритма близки к NLP (Natural Language Processing)?

Что такое Палех/Королев

DSSM – deep structured semantic model. И «Палех», и «Королев» – это один алгоритм, который работает с разными зонами. Чем он оперирует:

  • буквенными триграммами,
  • словами,
  • парами слов.

Вроде бы то же самое? Но есть принципиальная разница:

  • В оценку идут все слова, а не только содержащиеся в запросе. Если раньше при сборе «мешка слов» 97% слов выбрасывали, то теперь оценивается все. Несмотря на то, что все еще теряется информация о том, как структурирован текст, все равно используется значительно больше данных.
  • Модель специально натренирована на нахождение вхождения НЕ слов и биграмм одного запроса.
  • Анализируется «важный» контент страницы («Королев»). А какая часть страницы и контента является важной – известно только нейросетям Яндекса.

Поиск продвинулся на 1 шаг: теперь не теряется информация о словах, не содержащихся в запросе. Но это еще не Natural Language Processing (NLP).

Как это выглядит. Сейчас уже до 40% всех запросов уникальны, то есть не повторяются хотя бы дважды в течение всего периода наблюдений. Пример входных данных:

Пример вводных данных

В анализ идут буквенные триграммы (часть слова), униграммы (1 слово), биграммы (2 слова, идущих подряд).

Как это выглядит в поиске. Например, вводим не очень частотный запрос, открывается картина, которую SEO-специалисты в высококонкурентных тематиках видеть не привыкли:

Как DSSM влияет на поиск

В запросе содержится слово «бутыль», а в выдаче «бутилированный» и «бутылка» – это не совсем синонимы. Но имеются повторяющиеся паттерны в title, которые можно выделять визуально или автоматически и использовать.

По словам Алексея, были случаи, когда добавление всего одного слова в title, не содержащегося в запросе и не являющегося синонимом, позволяло (на «Палехе») вытаскивать запросы из ТОП 15 в ТОП 3. Алгоритм анонсировали давно, но работать он начал только зимой 2018–2019 года.

Как с этим работать. Используем методику автоматического выделения. Берем выдачу «доставка воды москва» и выделяем определенные текстовые паттерны, используя алгоритмы, которые определяют тематическую близость. Получаем биграммы, которые в запросе вообще не содержатся.

Дополнительная техническая текстовая оптимизация

Практика показывает, что добавление в title, тексты и другой контент страницы слов, не содержащихся в запросе, но релевантных тематике, положительно сказывается на ранжировании.

Как «Палех»/«Королев» влияют на оптимизацию

Поменялись группировки. Кто продвигает под Яндекс, знает, что группировки слов – это самое важное при работе с контентом. Если ошибся на этапе группировки, то остальное можно не оптимизировать. Поменять что-либо практически невозможно.

Новые группировки

  • Стало меньше одинаковых слов в запросах одного кластера. Раньше такого разброса в конкурентных(!) тематиках не было.
  • Больше кластеры, больше НЧ на странице.
  • Гораздо сложнее стало деоптимизировать страницу. Если запрос повело не туда, раньше нужно было просто убрать ключевики. А теперь, поскольку поиск оперирует словами, которые не связаны с ключевиком, деоптимизировать стало вообще сложно, проще смириться с этим.

Это важный момент, который поменял регламент по оптимизации.

Что такое BERT

Это следующий шаг по сравнению с «Палехом»/«Королевом». Алгоритм BERT от Google был анонсирован в 2018 году, запущен в октябре 2019. Пока охватывает только английский язык и 10% запросов.

  • BERT – Bidirectional Encoder Representations from Transformers Bidirectional – алгоритм «читает» текст как слева-направо, так и справа-налево.
  • Пытается «угадать» слово по контексту.
  • Имеет большое число применений (Q/A, проверка гипотез). Если «Палех»/«Королев» – это просто соответствие запроса документу, то BERT может из куска текста, где содержится ответ, выделить сам ответ. Или может проверить гипотезу и т.д.
BERT - используемые данные

Помимо самого токена (вхождения), BERT использует сегмент (предложение) и абсолютную позицию, которая выходит за рамки сегмента.

Этот алгоритм уже полностью использует всю информацию, которая есть в тексте. Учитывает не только все слова, не содержащиеся в запросе, но и позволяет не терять информацию о расположении слов.

Тем не менее для решения задачи Q/A ему надо заранее дать ответ на этот вопрос в тексте. Сам его составить он пока не может.

Это еще не Natural Language Processing (понимание текста). Как повлияет BERT на поиск и как под него оптимизировать? «Пока неизвестно», – заключил Алексей.

Презентацию доклада Алексея Чекушина вы найдете по ссылке

Интересное с Optimization 2019:

1. Ошибки текстовых анализаторов

2. Как создать контент-стратегию для SEO и пиара за 9 шагов

3. Пять трендов поискового маркетинга от Сайруса Шепарда

4. Современные проблемы SEO-специалистов

5. SEO-тренды: как пробиться в ТОП в 2020 году

6. Исследование факторов ранжирования в Яндексе и Google в 2019 году

7. Что можно применять в Рунете из англоязычного SEO

(Голосов: 9, Рейтинг: 4.78)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Ане Макаровой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Станислав
    7
    комментариев
    0
    читателей
    Станислав
    6 месяцев назад
    "Группировки слов – это самое важное при работе с контентом. Если ошибся на этапе группировки, то остальное можно не оптимизировать."
    Было бы здорово, если бы он еще рассказал как правильно делать такие группировки.
    -
    1
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Как выбрать CMS для интернет-магазина
demimurych
18
комментариев
0
читателей
Полный профиль
demimurych - Очередное волшебство, а не материал. все что ниже, сказано человеком который больше 20 лет своей жизни посвятил ковырянию исходных кодов систем. Битрикс по качеству кода и функциональности ровно такое же говно как и вордпресс. Заявить что он разрабатывается группой крутых программистов может только человек, который не знает что такое программирование. Единтсвенное отличие битрикса от вордпресса, это сертифицированнось на определенном локальном рынке. поставить Друпал в один ряд с вордпрессом, это видимо в продолжении предыдущей бугогашечки про крутых программистов в битриксе. тут важно отметить, что если битрикс и вордпресс являлись говном одного сорта весь цикл своего существования, то друпал имеет минимум 4 принципаильно разных кодовых базы. При этом даже самая примитивная из них - друпал 5 ветки, которому больше 12 лет, на голову выше текущих вп с битриксом вместе взятых. с точки зрения разработки - конечно. А не востребовтных на текущий момент плагинов. теория про разработку кода группой крутых программистов, не выдерживает никакой критики. достаточно просто оглянуться назад и увидеть, что в мире опенсорса есть как примеры эталонного говна - вордпресс, так и полная противоположность им типа РОР ставшего фактически во многом и на долго эталоном веб разработки. И это я еще ненапомнил автору о том, что есть такие вещи как питон, миникс и т.д. примеров качественного по в мире разработки открытым сообществом на порядки больше, чем наоборот. и тому есть ряд очень простых обьяснений. первое из которых, никто вам не даст просто так закомитить в ядро любой свой говнокод. даже в вордпресе. словом, информация в статье, как и ее выводы - это из области работы со своим воображением, чем с текущей ситуацией на рынке.
Ссылочное продвижение локальных сайтов: ТОП худших SEO-методов
demimurych
18
комментариев
0
читателей
Полный профиль
demimurych - о господи. это для регионального сайта? в яндексе? где у сайта по региону конкурентов меньше чем выдачи на двух страницах из которых перваш это реклама москвы? потешно ей богу. ктото чего то не понеимает.
Тест по SEO – проверь свой уровень знаний
Артем Дорофеев
8
комментариев
0
читателей
Полный профиль
Артем Дорофеев - Полный текст вопроса со скриншотом панели прикладываю. Итого, что имеем: - на скриншоте отмечено, что это фильтр МПК - сайт коммерческий - рекламы на сайте нет С вероятностью 95% это ошибка (которая уже дважды случалась в Яндексе), когда они случайно "закосили" неповинные сайты. Тогда по запросу Платону фильтр быстренько снимали. Но вопрос даже не на знание этого нюанса. В любой непонятной ситуации, прежде чем что-либо предпринимать (особенно переписывать весь контент на сайте или менять дизайн, как указано в других вариантах) - фильтр следует подтвердить. Правильный ответ: "Написать письмо в техподдержку Яндекса".
Автоматические SEO-аудиты: как напугать некорректными выводами
Trydogolik
25
комментариев
0
читателей
Полный профиль
Trydogolik - спасибо
Зачем подменять контент на сайте: разбираем инструмент и развенчиваем мифы
Trydogolik
25
комментариев
0
читателей
Полный профиль
Trydogolik - К мифу 1 добавлю Google optimize optimize.google.com Удобен для сотрудников со спец. знаниями и без них. Подмена контента настраивается за счет многих вариантов страниц и условий настроек распределения трафика. Варианты страниц можно легко создать копипастом. На мой взгляд удобно и бесплатно. Тот же Calibri и программисты в любом случае, пусть не за это, но где-то берут свою комиссию. (чисто мое мнение). В качестве цены отдаешь такой ресурс как личное время и копейки за внесение двух первоначальных изменений в html шаблон страниц. Но если ваша digital-кампания имеет совесть то оплата максимум час, а то и бесплатно. Интернет-маркетолог сам должен уметь это делать. Все просто + подробную инструкцию прилагают на языке пользователя. + за поддомены платить не надо, они вообще не нужны. + взаимодействие с: - Google Ads; - Google Tag; - Google Analytics просто прекрасно отслеживается по всем вариантам параллельно. Это помогает до деталей нарисовать профиль ЦА по любому "кредиту - отдельно на машину и отдельно на бизнес". Что с аналитикой у Calibri на этот счет? Сам с Calibri не разу не работал, всегда работаю с первоисточником. + к мифу 3 в том что это и есть детище поисковой системы и рекламного инструмента. Яша тоже спокоен будет так как сам везде навязывает Турбо-страницы (считаю их не удобными).- Как "-" (минус) вижу то, что может повлиять на скорость загрузки сайта. Но если у вас не конструктор, а темболее Landing Page, то о скорости можно не волноваться. Но это чисто мое мнение. В остальном согласен с автором.
«Юзабилити-лаборатория»: оставляйте заявку на участие!
Регина Якубовская
1
комментарий
0
читателей
Полный профиль
Регина Якубовская - Магазин автоаккумуляторов akumulator.by
100+ ресурсов по SEO для изучения поисковой оптимизации с нуля
Марина Ибушева
59
комментариев
0
читателей
Полный профиль
Марина Ибушева - Спасибо за добавление. Мы уже работаем над отдельным материалом про курсы, потому что одной статьи мало, чтобы охватить все крутое по обучению)
7 способов увеличить авторитетность сайта «в глазах» поисковых систем
Grigo5
4
комментария
0
читателей
Полный профиль
Grigo5 - Понятно.
Монетизируйте свой сайт вместе с VIZTROM
VIZTROM
3
комментария
0
читателей
Полный профиль
VIZTROM - Добрый день! Так как мы сейчас работаем в приватном режиме, Вы врятли можете объективно оценить нашу рекламную площадку. У нас будет официальный запуск 3 марта для вебмастеров. Приглашаем Вас присоединиться к нам и лично посмотреть наш функционал.
Digital-разговор: Михаил Шакин про SEO, Google и заработок в интернете
Анна Макарова
375
комментариев
0
читателей
Полный профиль
Анна Макарова - Подготовим ) Пока предлагаю почитать интервью с Денисом Нарижным из той же серии. Там стенограмма =) www.seonews.ru/interviews/digital-razgovor-denis-narizhnyy-pro-ukhod-iz-seo-i-zarabotok-na-partnerkakh/
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
375
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
139
Комментариев
121
Комментариев
111
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
86
Комментариев
80
Комментариев
77
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
59
Комментариев
57

Отправьте отзыв!
Отправьте отзыв!