← Назад в блог

Технический GEO

Техническая GEO для marketing-инженера: robots.txt, структурированные данные, llms.txt | Suparanku

У технической GEO два столпа — доступ краулеров и серверный HTML. Разрешите ботов извлечения (OAI-SearchBot, PerplexityBot, ClaudeBot) и проверяйте по логам. Структурированные данные работают, когда несут реальные факты: цену, рейтинг, характеристики. llms.txt — дешёвое дополнение, а не фактор цитирования.

Maksim Gurchenkov (CEO, Apurichoumi Inc.)

Что в GEO принадлежит инженерам

Содержание контента — работа маркетолога; то, может ли AI вообще прочитать сайт, — проблема инфраструктуры. Два столпа в зоне ответственности технической стороны — доступ краулеров и рендеринг: если падает любой из них, всё остальное не имеет значения. Структурированные данные помогают в конкретных, хорошо доказанных случаях, а llms.txt — дешёвое необязательное дополнение. Этот гид разбирает всё на уровне реализации.

1. Впустите AI-краулеров

Боты извлечения и скраперы для обучения

Не все AI-краулеры делают одну работу. Боты извлечения — OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot — забирают страницы для живых ответов и цитат; их блокировка убирает вас из AI-ответов. Скраперы для обучения — GPTBot, anthropic-ai — собирают данные для тренировки моделей; их блокировка влияет только на обучение, но не на видимость в поиске. OpenAI документирует своих ботов по назначению,* так что можно отказаться от обучения, оставаясь видимым и цитируемым.

На практике это критично: анализ Otterly более чем миллиона AI-цитирований (2026) показал, что у 73% сайтов есть технические барьеры, блокирующие доступ AI-краулеров.†

# Извлечение — источник цитат; разрешайте, если нужна AI-видимость
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

# Обучение — влияет только на тренировку моделей, не на цитаты
User-agent: GPTBot
Allow: /

Две оговорки. Во-первых, robots.txt уважают основные боты, но не все — Bytespider его игнорирует. Во-вторых, user-agent’ы подделывают: чтобы знать, кто реально приходил, сверяйте записи логов с официальными IP-диапазонами (например, OpenAI публикует список IP своего поискового бота как searchbot.json).

Проверьте также, что бот-защита CDN или WAF не блокирует AI-краулеров втихую. Разрешение в robots.txt ничего не значит, если файрвол отвечает 403.

HTML, не зависящий от JavaScript

Анализ Vercel показал: основные AI-краулеры не исполняют JavaScript — на 500 000+ запросов GPTBot ноль следов исполнения JS.** Страница с чисто клиентским рендерингом пуста для фетчеров класса ChatGPT, Claude и Perplexity. Исключение — Google: он умеет рендерить JavaScript для AI Overviews, если не заблокирован, — хотя с декабря 2025 Google полностью исключает из рендеринга страницы с не-200 статусом. Безопасной базой остаются SSR, SSG или пререндеринг, чтобы основной текст присутствовал в начальном HTML.

Проверка — одна команда:

curl -A "GPTBot" https://example.com/page/ | grep "ключевой текст"

Если текста нет в начальном HTML — стратегию рендеринга нужно пересматривать.

2. Структурированные данные: полезны, но не там, где ожидаешь

Два факта сразу. Google официально заявляет: структурированные данные не требуются для генеративного AI-поиска, и никакой специальной schema.org-разметки для AI-функций не существует.*** А самый сильный контролируемый эксперимент на сегодня — Ahrefs отследил 1 885 страниц, добавивших JSON-LD, против сопоставленных контрольных групп — не нашёл прироста цитирований ни на одной AI-платформе.††

Есть одно доказанное исключение, и начинать стоит с него:

После внедрения валидируйте и тестом расширенных результатов, и валидатором Schema.org.

3. llms.txt: публикуйте, но понимайте, что это

Сначала честная рамка: llms.txt сегодня не является фактором ранжирования или цитирования. Google его не поддерживает и не планирует (Gary Illyes), а John Mueller отмечал, что ни одна крупная AI-система не подтверждена как использующая его для ответов.‡‡ Мета-синтез 54 исследований оценил его в 2,0 из 9,5 — никаких убедительных доказательств влияния на AI-цитирования. Единственное верифицированное поведение: OpenAI краулит llms.txt на части сайтов.

Зачем тогда публиковать? Потому что это дёшево. Markdown-сводка структуры и ключевого контента сайта в корне ничего не стоит при автоматической генерации — и готовит вас к тому, что агенты всё-таки начнут её использовать.

Одно операционное правило: никогда не поддерживать вручную. Файлы llms.txt, редактируемые руками, всегда устаревают. Генерируйте его на сборке из коллекций контента — llms.txt этого сайта собирается автоматически из всех статей и терминов глоссария.

Чек-лист проверки

  1. robots.txt явно разрешает нужных ботов извлечения (OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot)
  2. WAF/CDN не отвечает 403 на user-agent’ы AI-краулеров (смотрите логи доступа)
  3. curl -A "GPTBot" показывает основной текст в начальном HTML
  4. Продуктовые страницы несут Product/Offer-схему с реальной ценой и характеристиками; в Organization-схеме есть ссылки sameAs
  5. llms.txt генерируется на сборке (дешёвое дополнение — не фактор цитирования)
  6. Визиты AI-краулеров в серверных логах сверяются с официальными IP-диапазонами и регулярно просматриваются

С этим фундаментом контентные улучшения напрямую отражаются в измерениях. Без него даже лучшая статья в мире невидима для AI.

* OpenAI, «Overview of OpenAI Crawlers» (на май 2025) ** Vercel, «The rise of the AI crawler» (январь 2025) *** Google Search Central, «AI Features and Your Website» (на декабрь 2025) † OtterlyAI, «The AI Citation Economy: 1+ Million Data Points» (2026) †† Ahrefs, «We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.» (май 2026) ‡ Vishwakarma et al., «What Gets Cited: Competitive GEO in AI Answer Engines», SIGIR ‘26 ‡‡ Search Engine Land, «Google says normal SEO works … and LLMS.txt won’t be used» (июль 2025)

Источники

  1. OpenAI, “Overview of OpenAI Crawlers”
  2. Vercel, “The rise of the AI crawler”
  3. Google Search Central, “AI Features and Your Website”
  4. Search Engine Land, “Google says normal SEO works … and LLMS.txt won't be used”
  5. Ahrefs, “We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.”
  6. Vishwakarma et al. (Sprinklr), “What Gets Cited: Competitive GEO in AI Answer Engines” (SIGIR '26)
  7. OtterlyAI, “The AI Citation Economy: 1+ Million Data Points”
Бесплатная проверка Связаться с продажами