← Retour au blog

GEO technique

GEO technique pour les ingénieurs marketing : robots.txt, données structurées, llms.txt | Suparanku

La GEO technique a deux piliers : l'accès des crawlers et un HTML rendu côté serveur. Autorisez les bots de récupération (OAI-SearchBot, PerplexityBot, ClaudeBot) et vérifiez avec les logs. Les données structurées aident avec des faits réels (prix, note, specs). llms.txt est un extra, pas un facteur de citation.

Maksim Gurchenkov (CEO, Apurichoumi Inc.)

Ce qui relève de l’ingénierie dans la GEO

Le contenu est le travail du marketeur ; que l’IA puisse seulement lire le site est un problème d’infrastructure. Les deux piliers qui relèvent du volet technique sont l’accès des crawlers et le rendu — si l’un des deux fait défaut, rien d’autre ne compte. Les données structurées aident dans des cas précis et bien documentés, et llms.txt est un extra optionnel et bon marché. Ce guide couvre le tout au niveau de l’implémentation.

1. Admettre les crawlers IA

Bots de récupération vs scrapers d’entraînement

Tous les crawlers IA ne font pas le même travail. Les bots de récupération — OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot — récupèrent les pages pour alimenter les réponses en direct et les citations ; les bloquer vous retire des réponses IA. Les scrapers d’entraînement — GPTBot, anthropic-ai — collectent des données pour l’entraînement des modèles ; les bloquer n’affecte que l’entraînement, pas votre visibilité dans la recherche. OpenAI documente ses bots par fonction,* vous pouvez donc refuser l’entraînement tout en restant visible et citable.

C’est loin d’être théorique : une analyse Otterly de plus d’un million de citations IA (2026) a révélé que 73 % des sites présentent des barrières techniques bloquant l’accès des crawlers IA.†

# Récupération — alimente les citations ; à autoriser pour la visibilité IA
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

# Entraînement — n'affecte que l'entraînement du modèle, pas les citations
User-agent: GPTBot
Allow: /

Deux réserves. Premièrement, robots.txt est respecté par les grands bots, mais pas par tous — Bytespider l’ignore. Deuxièmement, les user agents sont usurpés : pour savoir qui a réellement visité le site, validez les entrées des logs contre les plages d’IP officielles (OpenAI publie par exemple la liste d’IP de son bot de recherche sous searchbot.json).

Vérifiez aussi que la protection anti-bots de votre CDN ou WAF ne bloque pas silencieusement les crawlers IA. Une règle d’autorisation dans robots.txt ne sert à rien si le pare-feu renvoie un 403.

Un HTML qui ne dépend pas de JavaScript

L’analyse de Vercel a montré que les grands crawlers IA n’exécutent pas JavaScript — sur plus de 500 000 requêtes GPTBot, aucune trace d’exécution JS.** Une page rendue côté client est vide pour les fetchers de la classe ChatGPT, Claude et Perplexity. Google est l’exception : il peut rendre le JavaScript pour les AI Overviews lorsqu’il n’est pas bloqué — même si, depuis décembre 2025, Google exclut entièrement du rendu les pages dont le statut n’est pas 200. SSR, SSG ou prérendu reste la base sûre pour que le corps du texte soit présent dans le HTML initial.

La vérification tient en une commande :

curl -A "GPTBot" https://example.com/page/ | grep "key copy"

Si le texte clé n’est pas dans le HTML initial, la stratégie de rendu doit être revue.

2. Données structurées : utiles, mais pas là où on l’attend

Deux faits d’emblée. Google déclare officiellement que les données structurées ne sont pas requises pour la recherche générative par IA et qu’il n’existe aucun balisage schema.org spécial à ajouter pour les fonctionnalités IA.*** Et l’expérience contrôlée la plus solide à ce jour — Ahrefs a suivi 1 885 pages ayant ajouté du JSON-LD face à des groupes témoins appariés — n’a trouvé aucun gain de citations sur aucune plateforme IA.††

Il existe une exception prouvée, et c’est par là qu’il faut commencer :

Après l’implémentation, validez à la fois avec le test des résultats enrichis et le validateur Schema.org.

3. llms.txt : publiez-le, mais en sachant ce que c’est

D’abord le cadrage honnête : llms.txt n’est aujourd’hui ni un facteur de classement ni un facteur de citation. Google ne le prend pas en charge et ne prévoit pas de le faire (Gary Illyes), et John Mueller a relevé qu’aucun grand système d’IA n’est confirmé comme l’utilisant pour ses réponses.‡‡ Une méta-synthèse de 54 études lui attribue 2,0 sur 9,5 — aucune preuve crédible qu’il influence les citations IA de quelque manière que ce soit. Le seul comportement vérifié : OpenAI crawle llms.txt sur certains sites.

Pourquoi le publier malgré tout ? Parce que cela ne coûte rien. Un résumé Markdown de la structure du site et de ses contenus clés à la racine est gratuit s’il est généré automatiquement — et vous positionne pour ce que les agents finiront par adopter.

Une règle d’exploitation : ne le maintenez jamais à la main. Les fichiers llms.txt édités manuellement finissent toujours par dater. Générez-le au moment du build à partir de vos collections de contenu — le llms.txt de ce site est construit automatiquement à partir de chaque article et de chaque terme du glossaire.

Check-list de vérification

  1. robots.txt autorise explicitement les bots de récupération voulus (OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot)
  2. Le WAF/CDN ne renvoie pas de 403 aux user agents des crawlers IA (vérifiez les logs d’accès)
  3. curl -A "GPTBot" montre le corps du texte dans le HTML initial
  4. Les pages produit portent un schéma Product/Offer riche en attributs avec prix et specs réels ; le schéma Organization a des liens sameAs
  5. llms.txt est généré au moment du build (extra bon marché — pas un facteur de citation)
  6. Les visites de crawlers IA dans les logs serveur sont validées contre les plages d’IP officielles et passées en revue régulièrement

Avec ce socle en place, les améliorations de contenu se reflètent directement dans la mesure. Sans lui, le meilleur article du monde reste invisible pour l’IA.

* OpenAI, « Overview of OpenAI Crawlers » (état : mai 2025) ** Vercel, « The rise of the AI crawler » (janvier 2025) *** Google Search Central, « AI Features and Your Website » (état : décembre 2025) † OtterlyAI, « The AI Citation Economy: 1+ Million Data Points » (2026) †† Ahrefs, « We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved. » (mai 2026) ‡ Vishwakarma et al., « What Gets Cited: Competitive GEO in AI Answer Engines », SIGIR ‘26 ‡‡ Search Engine Land, « Google says normal SEO works … and LLMS.txt won’t be used » (juillet 2025)

Sources

  1. OpenAI, "Overview of OpenAI Crawlers"
  2. Vercel, "The rise of the AI crawler"
  3. Google Search Central, "AI Features and Your Website"
  4. Search Engine Land, "Google says normal SEO works … and LLMS.txt won't be used"
  5. Ahrefs, "We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved."
  6. Vishwakarma et al. (Sprinklr), "What Gets Cited: Competitive GEO in AI Answer Engines" (SIGIR '26)
  7. OtterlyAI, "The AI Citation Economy: 1+ Million Data Points"
Diagnostic gratuit Contacter l’équipe commerciale