GEO técnico

GEO técnico para ingenieros de marketing: robots.txt, datos estructurados, llms.txt | Suparanku

El GEO técnico tiene dos pilares: acceso de crawlers y HTML renderizado en el servidor. Permite bots de recuperación como OAI-SearchBot, PerplexityBot y ClaudeBot, y verifica con logs. Los datos estructurados ayudan con hechos reales (precio, valoración, specs). llms.txt es un extra barato, no un factor de citación.

Maksim Gurchenkov (CEO, Apurichoumi Inc.) 11 jun 2026 ↻ 12 jun 2026

Qué parte de GEO pertenece a ingeniería

El contenido es trabajo del marketer; que la IA pueda leer el sitio es un problema de infraestructura. Los dos pilares que pertenecen al lado técnico son el acceso de crawlers y el renderizado: si falla cualquiera de los dos, nada más importa. Los datos estructurados ayudan en casos concretos y bien probados, y llms.txt es un extra opcional y barato. Esta guía lo cubre todo a nivel de implementación.

1. Admite los crawlers de IA

Bots de recuperación vs. scrapers de entrenamiento

No todos los crawlers de IA hacen el mismo trabajo. Los bots de recuperación — OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot — obtienen páginas para alimentar respuestas en vivo y citas; bloquearlos te elimina de las respuestas de IA. Los scrapers de entrenamiento — GPTBot, anthropic-ai — recopilan datos para entrenar modelos; bloquearlos solo afecta al entrenamiento, no a tu visibilidad en la búsqueda. OpenAI documenta sus bots por propósito,* así que puedes excluirte del entrenamiento sin dejar de ser visible y citable.

Esto importa en la práctica: un análisis de Otterly de más de un millón de citas de IA (2026) encontró que el 73 % de los sitios tienen barreras técnicas que bloquean el acceso de los crawlers de IA.†

# Recuperación — alimenta las citas; permite si quieres visibilidad en IA
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

# Entrenamiento — solo afecta al entrenamiento del modelo, no a las citas
User-agent: GPTBot
Allow: /

Dos salvedades. Primera: robots.txt es respetado por los bots principales, pero no por todos — Bytespider lo ignora. Segunda: los user agents se falsifican; para saber quién visitó de verdad, valida las entradas del log contra los rangos de IP oficiales (por ejemplo, OpenAI publica la lista de IP de su bot de búsqueda como searchbot.json).

Comprueba también que la protección anti-bots de tu CDN o WAF no esté bloqueando en silencio los crawlers de IA. Una regla de permiso en robots.txt no sirve de nada si el firewall devuelve un 403.

HTML que no depende de JavaScript

El análisis de Vercel encontró que los principales crawlers de IA no ejecutan JavaScript: en más de 500 000 peticiones de GPTBot, cero rastros de ejecución de JS.** Una página renderizada en el cliente está en blanco para los fetchers de la clase ChatGPT, Claude y Perplexity. Google es la excepción: puede renderizar JavaScript para AI Overviews cuando no está bloqueado — aunque desde diciembre de 2025 Google excluye por completo del renderizado las páginas con estado distinto de 200. SSR, SSG o prerendering sigue siendo la base segura para que el texto principal esté presente en el HTML inicial.

La verificación es un solo comando:

curl -A "GPTBot" https://example.com/page/ | grep "key copy"

Si el copy no está en el HTML inicial, hay que revisar la estrategia de renderizado.

2. Datos estructurados: útiles, pero no donde esperarías

Dos hechos por delante. Google afirma oficialmente que los datos estructurados no son necesarios para la búsqueda generativa con IA y que no existe ningún marcado schema.org especial que añadir para las funciones de IA.*** Y el experimento controlado más sólido hasta la fecha — Ahrefs siguió 1.885 páginas que añadieron JSON-LD frente a controles emparejados — no encontró aumento de citas en ninguna plataforma de IA.††

Hay una excepción probada, y por ahí hay que empezar:

Product / SoftwareApplication + Offer con atributos reales — las páginas con schema Product/Review relleno con precio, valoración y especificaciones concretas fueron citadas el 61,7 % de las veces frente al 41,6 % de los tipos genéricos, con el efecto más fuerte en dominios de baja autoridad. El precio explícito es además uno de los cuatro «guardianes» de la citación identificados en un estudio de SIGIR ‘26 con 252.000 pruebas controladas.‡ El valor no está en la etiqueta, sino en los hechos legibles por máquina que transporta. La desinformación sobre precios es un error frecuente en las respuestas de IA; los valores correctos legibles por máquina la contrarrestan.
Organization — lo que realmente canoniza la entidad no es el marcado en sí, sino los enlaces sameAs a perfiles oficiales más la coherencia de los datos de marca en toda la web. Úsalo como ancla de la razón social, la dirección y las variantes de grafía.
FAQPage — el envoltorio por sí solo no es una señal: un formato puramente de preguntas y respuestas midió un −5,7 % de influencia frente a páginas sin ese formato. El FAQ solo ayuda cuando cada respuesta lleva densidad de evidencia — números, definiciones, comparaciones — en lugar de réplicas cortas y aisladas.
Article + Person — la autoría y las fechas apoyan el E-E-A-T, pero ten en cuenta el propio marco de Google: E-E-A-T no es un factor de ranking directo. Su núcleo es la confianza, y su peso es máximo en temas YMYL.

Tras la implementación, valida con el Rich Results Test y con el validador de Schema.org.

3. llms.txt: publícalo, pero sabiendo qué es

Primero, el marco honesto: llms.txt no es hoy un factor de ranking ni de citación. Google no lo soporta ni planea hacerlo (Gary Illyes), y John Mueller ha señalado que no hay ningún sistema de IA importante confirmado que lo use para sus respuestas.‡‡ Una metasíntesis de 54 estudios lo puntuó con 2,0 sobre 9,5: ninguna evidencia creíble de que influya en las citas de IA. El único comportamiento verificado: OpenAI rastrea llms.txt en algunos sitios.

¿Por qué publicarlo entonces? Porque es barato. Un resumen en Markdown de la estructura del sitio y su contenido clave en la raíz no cuesta nada si se genera automáticamente, y te posiciona para lo que los agentes acaben adoptando.

Una regla operativa: nunca lo mantengas a mano. Los llms.txt editados a mano siempre acaban desactualizados. Genéralo en el build a partir de tus colecciones de contenido: el llms.txt de este sitio se construye automáticamente con cada artículo y cada término del glosario.

Checklist de verificación

robots.txt permite explícitamente los bots de recuperación que quieres (OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot)
El WAF/CDN no devuelve 403 a los user agents de crawlers de IA (revisa los logs de acceso)
curl -A "GPTBot" muestra el texto principal en el HTML inicial
Las páginas de producto llevan schema Product/Offer rico en atributos con precio y especificaciones reales; el schema Organization tiene enlaces sameAs
llms.txt se genera en el build (extra barato — no es un factor de citación)
Las visitas de crawlers de IA en los logs del servidor se validan contra los rangos de IP oficiales y se revisan con regularidad

Con esta base en su sitio, las mejoras de contenido se reflejan directamente en la medición. Sin ella, el mejor artículo del mundo es invisible para la IA.

* OpenAI, «Overview of OpenAI Crawlers» (a mayo de 2025) ** Vercel, «The rise of the AI crawler» (enero de 2025) *** Google Search Central, «AI Features and Your Website» (a diciembre de 2025) † OtterlyAI, «The AI Citation Economy: 1+ Million Data Points» (2026) †† Ahrefs, «We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.» (mayo de 2026) ‡ Vishwakarma et al., «What Gets Cited: Competitive GEO in AI Answer Engines», SIGIR ‘26 ‡‡ Search Engine Land, «Google says normal SEO works … and LLMS.txt won’t be used» (julio de 2025)