Технический GEO

Техническая GEO для marketing-инженера: robots.txt, структурированные данные, llms.txt | Suparanku

У технической GEO два столпа — доступ краулеров и серверный HTML. Разрешите ботов извлечения (OAI-SearchBot, PerplexityBot, ClaudeBot) и проверяйте по логам. Структурированные данные работают, когда несут реальные факты: цену, рейтинг, характеристики. llms.txt — дешёвое дополнение, а не фактор цитирования.

Maksim Gurchenkov (CEO, Apurichoumi Inc.) 11 июн. 2026 г. ↻ 12 июн. 2026 г.

Что в GEO принадлежит инженерам

Содержание контента — работа маркетолога; то, может ли AI вообще прочитать сайт, — проблема инфраструктуры. Два столпа в зоне ответственности технической стороны — доступ краулеров и рендеринг: если падает любой из них, всё остальное не имеет значения. Структурированные данные помогают в конкретных, хорошо доказанных случаях, а llms.txt — дешёвое необязательное дополнение. Этот гид разбирает всё на уровне реализации.

1. Впустите AI-краулеров

Боты извлечения и скраперы для обучения

Не все AI-краулеры делают одну работу. Боты извлечения — OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot — забирают страницы для живых ответов и цитат; их блокировка убирает вас из AI-ответов. Скраперы для обучения — GPTBot, anthropic-ai — собирают данные для тренировки моделей; их блокировка влияет только на обучение, но не на видимость в поиске. OpenAI документирует своих ботов по назначению,* так что можно отказаться от обучения, оставаясь видимым и цитируемым.

На практике это критично: анализ Otterly более чем миллиона AI-цитирований (2026) показал, что у 73% сайтов есть технические барьеры, блокирующие доступ AI-краулеров.†

# Извлечение — источник цитат; разрешайте, если нужна AI-видимость
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

# Обучение — влияет только на тренировку моделей, не на цитаты
User-agent: GPTBot
Allow: /

Две оговорки. Во-первых, robots.txt уважают основные боты, но не все — Bytespider его игнорирует. Во-вторых, user-agent’ы подделывают: чтобы знать, кто реально приходил, сверяйте записи логов с официальными IP-диапазонами (например, OpenAI публикует список IP своего поискового бота как searchbot.json).

Проверьте также, что бот-защита CDN или WAF не блокирует AI-краулеров втихую. Разрешение в robots.txt ничего не значит, если файрвол отвечает 403.

HTML, не зависящий от JavaScript

Анализ Vercel показал: основные AI-краулеры не исполняют JavaScript — на 500 000+ запросов GPTBot ноль следов исполнения JS.** Страница с чисто клиентским рендерингом пуста для фетчеров класса ChatGPT, Claude и Perplexity. Исключение — Google: он умеет рендерить JavaScript для AI Overviews, если не заблокирован, — хотя с декабря 2025 Google полностью исключает из рендеринга страницы с не-200 статусом. Безопасной базой остаются SSR, SSG или пререндеринг, чтобы основной текст присутствовал в начальном HTML.

Проверка — одна команда:

curl -A "GPTBot" https://example.com/page/ | grep "ключевой текст"

Если текста нет в начальном HTML — стратегию рендеринга нужно пересматривать.

2. Структурированные данные: полезны, но не там, где ожидаешь

Два факта сразу. Google официально заявляет: структурированные данные не требуются для генеративного AI-поиска, и никакой специальной schema.org-разметки для AI-функций не существует.*** А самый сильный контролируемый эксперимент на сегодня — Ahrefs отследил 1 885 страниц, добавивших JSON-LD, против сопоставленных контрольных групп — не нашёл прироста цитирований ни на одной AI-платформе.††

Есть одно доказанное исключение, и начинать стоит с него:

Product / SoftwareApplication + Offer с реальными атрибутами — страницы с Product/Review-схемой, заполненной конкретной ценой, рейтингом и характеристиками, цитировались в 61,7% случаев против 41,6% у generic-типов, и сильнее всего эффект у доменов с низким авторитетом. Явная цена — также один из четырёх «гейткиперов» цитирования, выявленных исследованием SIGIR ‘26 на 252 000 контролируемых проб.‡ Ценность не в теге, а в машиночитаемых фактах, которые он несёт. Дезинформация о ценах — частая ошибка AI-ответов; корректные машиночитаемые значения ей противодействуют.
Organization — сущность канонизирует не сама разметка, а ссылки sameAs на официальные профили плюс согласованность фактов о бренде по всему вебу. Используйте её как опору для юридического имени, адреса и вариантов написания.
FAQPage — обёртка сама по себе не сигнал: чистый Q&A-формат показал −5,7% влияния против не-Q&A-страниц. FAQ работает только когда каждый ответ несёт плотность доказательств — числа, определения, сравнения, — а не короткие изолированные реплики.
Article + Person — авторство и даты поддерживают E-E-A-T, но учитывайте позицию самого Google: E-E-A-T — не прямой фактор ранжирования. Его ядро — доверие (trust), а вес максимален на YMYL-темах.

После внедрения валидируйте и тестом расширенных результатов, и валидатором Schema.org.

3. llms.txt: публикуйте, но понимайте, что это

Сначала честная рамка: llms.txt сегодня не является фактором ранжирования или цитирования. Google его не поддерживает и не планирует (Gary Illyes), а John Mueller отмечал, что ни одна крупная AI-система не подтверждена как использующая его для ответов.‡‡ Мета-синтез 54 исследований оценил его в 2,0 из 9,5 — никаких убедительных доказательств влияния на AI-цитирования. Единственное верифицированное поведение: OpenAI краулит llms.txt на части сайтов.

Зачем тогда публиковать? Потому что это дёшево. Markdown-сводка структуры и ключевого контента сайта в корне ничего не стоит при автоматической генерации — и готовит вас к тому, что агенты всё-таки начнут её использовать.

Одно операционное правило: никогда не поддерживать вручную. Файлы llms.txt, редактируемые руками, всегда устаревают. Генерируйте его на сборке из коллекций контента — llms.txt этого сайта собирается автоматически из всех статей и терминов глоссария.

Чек-лист проверки

robots.txt явно разрешает нужных ботов извлечения (OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot)
WAF/CDN не отвечает 403 на user-agent’ы AI-краулеров (смотрите логи доступа)
curl -A "GPTBot" показывает основной текст в начальном HTML
Продуктовые страницы несут Product/Offer-схему с реальной ценой и характеристиками; в Organization-схеме есть ссылки sameAs
llms.txt генерируется на сборке (дешёвое дополнение — не фактор цитирования)
Визиты AI-краулеров в серверных логах сверяются с официальными IP-диапазонами и регулярно просматриваются

С этим фундаментом контентные улучшения напрямую отражаются в измерениях. Без него даже лучшая статья в мире невидима для AI.

* OpenAI, «Overview of OpenAI Crawlers» (на май 2025) ** Vercel, «The rise of the AI crawler» (январь 2025) *** Google Search Central, «AI Features and Your Website» (на декабрь 2025) † OtterlyAI, «The AI Citation Economy: 1+ Million Data Points» (2026) †† Ahrefs, «We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.» (май 2026) ‡ Vishwakarma et al., «What Gets Cited: Competitive GEO in AI Answer Engines», SIGIR ‘26 ‡‡ Search Engine Land, «Google says normal SEO works … and LLMS.txt won’t be used» (июль 2025)