×
Россия +7 (909) 261-97-71

Автоматизация SEO через LLM: архитектура, стек и реальные цифры

Россия +7 (909) 261-97-71
Шрифт:
0 996
Подпишитесь на нас в Telegram

Когда семантическое ядро разрастается до сотен тысяч запросов, наращивать темп вручную становится дорого и сложно. Логичное решение – не нанимать десяток дополнительных специалистов, а автоматизировать процессы.

Мы приложили это к SEO – так появился пайплайн автоматизации с LLM. Результат – экономия в 3–6 раз и ускорение в 10–15. Разбираем технические подробности и делимся впечатлениями.

Почему вообще решили автоматизировать

Мы выполняли задачу для клиента: за полгода собрать семантику для 500 000 кластеров. Требовалось выстроить структуру, прописать H1 и анкоры, типизировать страницы.

Команда из шести человек за три месяца обработала только 10% запланированного объема. Рентабельность проекта упала до минус 60%, все перерабатывали, качество страдало. Масштабирование классическим способом означало бы найм еще 12–15 человек – с теми же проблемами координации и контроля качества.

Классический SEO-процесс для крупного проекта включает семь этапов:

  1. Выгрузка семантики из сервисов в Excel.

  2. Ручная чистка от мусора.

  3. Кластеризация.

  4. Построение структуры.

  5. Типизация страниц.

  6. Написание метатегов.

  7. Формирование анкоров для перелинковки.

Каждый этап упирается в технические или человеческие ограничения.

Keys.so по умолчанию не отдает всю семантику сразу по крупным проектам – приходится выгружать частями. Excel останавливается на миллионе строк, а буксовать начинает уже на 300–500 тысячах. Чистка семантического ядра съедает до 40% времени команды. Построение структуры требует опыта и внимания – делегировать джунам не получится. Типизация страниц, теги и анкоры – рутина, но объемная.

Семантика

Что сделали: трехуровневая архитектура

Выстроили систему, где база данных хранит миллионы запросов, Python-парсер управляет процессом, а LLM обрабатывает данные. Рассказываем подробнее.

Семантика

Уровень 1: SQL БД – хранилище и источник данных

База данных заменяет Excel. Она обеспечивает работу с миллионами строк без пробуксовок, принимает данные по API из Keys.so и JustMagic, сама мэтчит ключи (быстрее и надежнее) и отдает данные порциями для обработки.

В базе лежит все: сам запрос, частотность, позиции и URL конкурентов из выдачи, категории, номера кластеров, типы страниц, заголовки.

Структура данных

Уровень 2: Python Parser – оркестратор процесса

Парсер берет данные из базы, разбивает на фрагменты по 200–300 строк (это лимит LLM), отправляет по API к нейросети, объединяет результаты в общий список.

Интерфейс парсера позволяет выбрать шаблон задачи (чистка семантики, генерация H1, построение структуры, формирование анкоров), отредактировать промпт, выбирать из сотен доступных моделей, задать размер итерации и количество параллельных запусков.

Структура данных

Уровень 3: LLM через OpenRouter – обработчик данных

В OpenRouter можно переключаться между 300+ моделями, мониторить популярность и тренды, работать с единой биллинговой системой.

По данным платформы, для SEO и маркетинга чаще используют Claude 3.7 Sonnet, GPT-4o-mini, Gemini 2.0 Flash и Gemini 2.0 Flash Lite. Но мы убедились: модели показывают разную точность на конкретных этапах.

По нашему опыту, для чистки семантики оптимальна Gemini Flash 2, для построения структуры – DeepSeek V3.1, для генерации заголовков – Gemini 2.5 Flash.

Пайплайн: три блока обработки

1. Подготовка данных

Сбор и загрузка

Запускаем API-парсинг по фрагментам – результаты сразу объединяются в SQL-базе.

Обработка данных

Классификация

Здесь определяем категорию каждого запроса. Например, «брюки мужские» относятся к одежде и обуви, «палатка 4 местная» – к спорту и отдыху, «кольцо с сапфиром» – к ювелирным украшениям. Это позволяет на старте отсечь нерелевантные категории и сосредоточиться на приоритетных или сезонных.

Подойдет модель Gemini Flash 2.

Пример промпта

«Определи категорию из списка доступных, верни только название без пояснений».


Чистка семантики

Задача – отделить коммерческие запросы от мусора. К нему относятся навигационные, информационные и нерелевантные запросы.

Для максимального качества (но со сниженной скоростью) подойдет DeepSeek V3. Для баланса «быстро/качественно» – Gemini Flash 2.

Чистка семантики

Важно: на этом этапе делаем «сверку с реальностью»: контролируем, что LLM не потеряла важное. Это не полностью ручная работа, а выборочный контроль 5–10% результата. Его стоит поручить миддлу или сеньору.

2. Структурирование запросов

Кластеризация

Сгруппировать запросы по интенту – задача, которая пока не под силу LLM. Поэтому берем проверенные инструменты: Key Collector, Rush Analytics, Топвизор, собственные алгоритмы.

Сцепка дублей

LLM находит и объединяет кластеры, которые идентичны по смыслу. С разным порядком слов как в «брюки мужские» и «мужские брюки», «куртка зимняя женская» и «зимняя женская куртка», или с однокоренными, как в «кольцо с сапфиром» и «сапфировое кольцо».

Здесь хороша модель Gemini 2.5 Flash – она быстрая, дает минимум потерь.

Пример промпта

Типизация страниц

Теперь нужно определить тип страницы для каждого кластера – от этого зависят шаблон, структура URL и стратегия продвижения.

Используем DeepSeek V3.1, ведь тут важна точность.

Пример промпта

3. Логика страниц

Формирование H1

Написать заголовок для каждой страницы – задача, где нужна естественность. Для этого важно учитывать ряд нюансов: язык написания бренда, регистр и порядок слов, число (единственное или множественное) как в запросе.

Модель Gemini 2.5 Flash на этом этапе быстро выдает приемлемое качество. Но может потребоваться итеративная доработка:

прогнали модель → сравнили результат с ручным эталоном → зафиксировали типовые ошибки → уточнили правила в промпте.

Повторяем, пока не останемся довольны уровнем.

Пример промпта

Построение структуры

Теговые страницы нужно привязать к категориям и построить иерархию – тут логика важнее скорости.

Пример: тег «Колье из жемчуга» можно отправить к «украшениям из жемчуга» или к «ювелирным колье». Нам нужна вторая категория: товарный класс важнее материала.

DeepSeek V3.1 – самая точная модель для проработки структуры.

Пример промпта

Пример промпта

Что получили: цифры и сравнение

Проект, с которым мы работали – топ-10 e-commerce в России. Брали категорию «одежда и обувь». За три месяца с автоматизацией обработали 450 000 кластеров (без ИИ было бы 50 000). Создали 690 000 новых страниц, проработали 19 000 категорий. Общий объем семантики – 6 млн запросов.

Итог работы

Важно: автоматизация выгодна не всегда.

Настройка пайплайна съест около 100 ч и 200 000 ₽. Вложения начинают окупаться от 1000, а кратная экономия получается только от 10 000 кластеров. На масштабах 100 000+ вручную вообще нереально уложиться в разумный срок – здесь однозначно нужно автоматизировать.

Ограничения автоматизации

Использование LLM в SEO не отменяет работу специалистов. Их задача – управлять автоматизацией и включаться на этапах, где без ручного контроля и корректировок масштабирование не имеет смысла.

Вот почему без работы руками не обойтись.

​​LLM по умолчанию не погружены в бизнес

Они не учитывают колебания спроса, фактический ассортимент и ограничения брендов. Модели могут сгенерировать структуру под отсутствующие товары или «мимо сезона». Поэтому обязательно – проверка 5–10% результата и корректировка промптов под нишу.

API могут падать

В тестах GPT-4o показывал до 32% сбоев API, Qwen3 – порядка 20% потерь данных. Поэтому важно использовать устойчивые модели (Gemini, Claude, DeepSeek), иметь под рукой резервные варианты и логировать все запросы.

Кластеризация – слабое место LLM

Искусственный интеллект пока нестабильно справляется с кластеризацией запросов по интенту. Поэтому нужны проверенные сервисы (Topvisor, Rush Analytics, Key Collector) и грамотные специалисты, которые смогут с ними работать.

Модели не универсальны

Ошибка – использовать одну LLM для всего. Этапы требуют разных приоритетов: для чистки семантики это скорость и цена, для структуры и типизации – максимальная точность, для H1 – баланс качества и времени. Задача специалиста – подобрать модель под задачу.

Промпты тоже не универсальны

Логика группировки зависит от ниши. Для ювелирных сайтов «кольцо с сапфиром» – это категория «Кольца». В одежде цветовые признаки работают как теги. Решает поэтапное тестирование и доработка промптов.

Главный принцип автоматизации:

не заменять людей, а дать им инструменты для работы с нечеловеческими объемами.


Оригинал статьи на SEOnews

Есть о чем рассказать? Тогда присылайте свои материалы Марине Ибушевой


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Как ИИ усиливает маркетинг и помогает общаться с пользователем
Иван
1
комментарий
0
читателей
Полный профиль
Иван - Классная статья, забрал Хотелось бы услышать еще от эксперта мнение про модели в таком случае и дисперсию
Тренды e-commerce 2026: рынок ждет отток с маркетплейсов?
Арина
1
комментарий
0
читателей
Полный профиль
Арина - Мы пробовали разные сервисы, но уже давно используем этот сервис tryon.mall-er.com у них есть и Визуальный поиск и Виртуальная примерка. Мы пользуемся Виртуальной примеркой очков и поиском и внедрили себе на сайт, сейчас порядка 80% нашего трафика с удовольствием пользуются данными функциями.
SEO-анализ сайта – новый сервис для технического аудита сайта
Олег Алексеев
1
комментарий
0
читателей
Полный профиль
Олег Алексеев - Сюда t.me/obivaaan или сюда t.me/olegalexeyev
Что будет с SEO в 2026: эксперты рынка подводят итоги и делают прогнозы на этот год
Марал Гаипова
142
комментария
0
читателей
Полный профиль
Марал Гаипова - Дмитрий, спасибо, эксперты и правда - топ)
Новое SEO: что уже известно про GEO и как его использовать для продвижения бизнеса
Сергей
22
комментария
0
читателей
Полный профиль
Сергей - Благодарю за то, что поделились своими наработками. Очень любопытно!
Полгода в MAX: взрывной рост каналов и аудитории
Игорь
2
комментария
0
читателей
Полный профиль
Игорь - Когда нужно быстро понять, что происходит с каналами в MAX можно зайти на сервис maxdash.ru/ Пользоваться очень удобно: видно рост подписчиков, охваты, вовлечённость, какие каналы сейчас реально растут. Всё собрано в одном месте, без лишней возни с таблицами. Помогает трезво оценивать результаты и принимать решения не «на глаз», а по цифрам.
Накрутка ПФ: выбираем лучший сервис для накрутки поведенческих факторов
juristsyt
1
комментарий
0
читателей
Полный профиль
juristsyt -
Ozon добавил генерацию ответов на отзывы с помощью ИИ
Сергей
1
комментарий
0
читателей
Полный профиль
Сергей - Интересно добавят ли такую фичу, чтобы покупатель товара мог "свой" сгенерированный отзыв о товаре добавлять и получать за это балы? :)
Клиентам Сбера, предпочитающим Apple, вновь станет доступна бесконтактная оплата смартфоном
Борис Евгеньевич Романовский
1
комментарий
0
читателей
Полный профиль
Борис Евгеньевич Романовский - "Воспользоваться ей можно, даже если на смартфоне нет доступа к интернету." Попробовал , без интернета не войти в приложение "сбера"...
Где взять данные о GEO-видимости: 9 инструментов в одной статье
Евгений Молдовану
1
комментарий
0
читателей
Полный профиль
Евгений Молдовану - Хороший список, но используя подобные чекеры помните, что в GEO важен консенсус и если его нет, то на каждый запрос может формироваться свой ответ.
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
393
Комментариев
373
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
142
Комментариев
127
Комментариев
121
Комментариев
100
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
74
Комментариев
67
Комментариев
66
Комментариев
60
Комментариев
59

Отправьте отзыв!
Отправьте отзыв!