Технический GEO
Техническая GEO для marketing-инженера: robots.txt, структурированные данные, llms.txt | Suparanku
У технической GEO два столпа — доступ краулеров и серверный HTML. Разрешите ботов извлечения (OAI-SearchBot, PerplexityBot, ClaudeBot) и проверяйте по логам. Структурированные данные работают, когда несут реальные факты: цену, рейтинг, характеристики. llms.txt — дешёвое дополнение, а не фактор цитирования.
Что в GEO принадлежит инженерам
Содержание контента — работа маркетолога; то, может ли AI вообще прочитать сайт, — проблема инфраструктуры. Два столпа в зоне ответственности технической стороны — доступ краулеров и рендеринг: если падает любой из них, всё остальное не имеет значения. Структурированные данные помогают в конкретных, хорошо доказанных случаях, а llms.txt — дешёвое необязательное дополнение. Этот гид разбирает всё на уровне реализации.
1. Впустите AI-краулеров
Боты извлечения и скраперы для обучения
Не все AI-краулеры делают одну работу. Боты извлечения — OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot — забирают страницы для живых ответов и цитат; их блокировка убирает вас из AI-ответов. Скраперы для обучения — GPTBot, anthropic-ai — собирают данные для тренировки моделей; их блокировка влияет только на обучение, но не на видимость в поиске. OpenAI документирует своих ботов по назначению,* так что можно отказаться от обучения, оставаясь видимым и цитируемым.
На практике это критично: анализ Otterly более чем миллиона AI-цитирований (2026) показал, что у 73% сайтов есть технические барьеры, блокирующие доступ AI-краулеров.†
# Извлечение — источник цитат; разрешайте, если нужна AI-видимость
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
# Обучение — влияет только на тренировку моделей, не на цитаты
User-agent: GPTBot
Allow: /
Две оговорки. Во-первых, robots.txt уважают основные боты, но не все — Bytespider его игнорирует. Во-вторых, user-agent’ы подделывают: чтобы знать, кто реально приходил, сверяйте записи логов с официальными IP-диапазонами (например, OpenAI публикует список IP своего поискового бота как searchbot.json).
Проверьте также, что бот-защита CDN или WAF не блокирует AI-краулеров втихую. Разрешение в robots.txt ничего не значит, если файрвол отвечает 403.
HTML, не зависящий от JavaScript
Анализ Vercel показал: основные AI-краулеры не исполняют JavaScript — на 500 000+ запросов GPTBot ноль следов исполнения JS.** Страница с чисто клиентским рендерингом пуста для фетчеров класса ChatGPT, Claude и Perplexity. Исключение — Google: он умеет рендерить JavaScript для AI Overviews, если не заблокирован, — хотя с декабря 2025 Google полностью исключает из рендеринга страницы с не-200 статусом. Безопасной базой остаются SSR, SSG или пререндеринг, чтобы основной текст присутствовал в начальном HTML.
Проверка — одна команда:
curl -A "GPTBot" https://example.com/page/ | grep "ключевой текст"
Если текста нет в начальном HTML — стратегию рендеринга нужно пересматривать.
2. Структурированные данные: полезны, но не там, где ожидаешь
Два факта сразу. Google официально заявляет: структурированные данные не требуются для генеративного AI-поиска, и никакой специальной schema.org-разметки для AI-функций не существует.*** А самый сильный контролируемый эксперимент на сегодня — Ahrefs отследил 1 885 страниц, добавивших JSON-LD, против сопоставленных контрольных групп — не нашёл прироста цитирований ни на одной AI-платформе.††
Есть одно доказанное исключение, и начинать стоит с него:
- Product / SoftwareApplication + Offer с реальными атрибутами — страницы с Product/Review-схемой, заполненной конкретной ценой, рейтингом и характеристиками, цитировались в 61,7% случаев против 41,6% у generic-типов, и сильнее всего эффект у доменов с низким авторитетом. Явная цена — также один из четырёх «гейткиперов» цитирования, выявленных исследованием SIGIR ‘26 на 252 000 контролируемых проб.‡ Ценность не в теге, а в машиночитаемых фактах, которые он несёт. Дезинформация о ценах — частая ошибка AI-ответов; корректные машиночитаемые значения ей противодействуют.
- Organization — сущность канонизирует не сама разметка, а ссылки
sameAsна официальные профили плюс согласованность фактов о бренде по всему вебу. Используйте её как опору для юридического имени, адреса и вариантов написания. - FAQPage — обёртка сама по себе не сигнал: чистый Q&A-формат показал −5,7% влияния против не-Q&A-страниц. FAQ работает только когда каждый ответ несёт плотность доказательств — числа, определения, сравнения, — а не короткие изолированные реплики.
- Article + Person — авторство и даты поддерживают E-E-A-T, но учитывайте позицию самого Google: E-E-A-T — не прямой фактор ранжирования. Его ядро — доверие (trust), а вес максимален на YMYL-темах.
После внедрения валидируйте и тестом расширенных результатов, и валидатором Schema.org.
3. llms.txt: публикуйте, но понимайте, что это
Сначала честная рамка: llms.txt сегодня не является фактором ранжирования или цитирования. Google его не поддерживает и не планирует (Gary Illyes), а John Mueller отмечал, что ни одна крупная AI-система не подтверждена как использующая его для ответов.‡‡ Мета-синтез 54 исследований оценил его в 2,0 из 9,5 — никаких убедительных доказательств влияния на AI-цитирования. Единственное верифицированное поведение: OpenAI краулит llms.txt на части сайтов.
Зачем тогда публиковать? Потому что это дёшево. Markdown-сводка структуры и ключевого контента сайта в корне ничего не стоит при автоматической генерации — и готовит вас к тому, что агенты всё-таки начнут её использовать.
Одно операционное правило: никогда не поддерживать вручную. Файлы llms.txt, редактируемые руками, всегда устаревают. Генерируйте его на сборке из коллекций контента — llms.txt этого сайта собирается автоматически из всех статей и терминов глоссария.
Чек-лист проверки
- robots.txt явно разрешает нужных ботов извлечения (OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot)
- WAF/CDN не отвечает 403 на user-agent’ы AI-краулеров (смотрите логи доступа)
curl -A "GPTBot"показывает основной текст в начальном HTML- Продуктовые страницы несут Product/Offer-схему с реальной ценой и характеристиками; в Organization-схеме есть ссылки
sameAs - llms.txt генерируется на сборке (дешёвое дополнение — не фактор цитирования)
- Визиты AI-краулеров в серверных логах сверяются с официальными IP-диапазонами и регулярно просматриваются
С этим фундаментом контентные улучшения напрямую отражаются в измерениях. Без него даже лучшая статья в мире невидима для AI.
* OpenAI, «Overview of OpenAI Crawlers» (на май 2025) ** Vercel, «The rise of the AI crawler» (январь 2025) *** Google Search Central, «AI Features and Your Website» (на декабрь 2025) † OtterlyAI, «The AI Citation Economy: 1+ Million Data Points» (2026) †† Ahrefs, «We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.» (май 2026) ‡ Vishwakarma et al., «What Gets Cited: Competitive GEO in AI Answer Engines», SIGIR ‘26 ‡‡ Search Engine Land, «Google says normal SEO works … and LLMS.txt won’t be used» (июль 2025)
Источники
- OpenAI, “Overview of OpenAI Crawlers”
- Vercel, “The rise of the AI crawler”
- Google Search Central, “AI Features and Your Website”
- Search Engine Land, “Google says normal SEO works … and LLMS.txt won't be used”
- Ahrefs, “We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.”
- Vishwakarma et al. (Sprinklr), “What Gets Cited: Competitive GEO in AI Answer Engines” (SIGIR '26)
- OtterlyAI, “The AI Citation Economy: 1+ Million Data Points”