GEO technique

GEO technique pour les ingénieurs marketing : robots.txt, données structurées, llms.txt | Suparanku

La GEO technique a deux piliers : l'accès des crawlers et un HTML rendu côté serveur. Autorisez les bots de récupération (OAI-SearchBot, PerplexityBot, ClaudeBot) et vérifiez avec les logs. Les données structurées aident avec des faits réels (prix, note, specs). llms.txt est un extra, pas un facteur de citation.

Maksim Gurchenkov (CEO, Apurichoumi Inc.) 11 juin 2026 ↻ 12 juin 2026

Ce qui relève de l’ingénierie dans la GEO

Le contenu est le travail du marketeur ; que l’IA puisse seulement lire le site est un problème d’infrastructure. Les deux piliers qui relèvent du volet technique sont l’accès des crawlers et le rendu — si l’un des deux fait défaut, rien d’autre ne compte. Les données structurées aident dans des cas précis et bien documentés, et llms.txt est un extra optionnel et bon marché. Ce guide couvre le tout au niveau de l’implémentation.

1. Admettre les crawlers IA

Bots de récupération vs scrapers d’entraînement

Tous les crawlers IA ne font pas le même travail. Les bots de récupération — OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot — récupèrent les pages pour alimenter les réponses en direct et les citations ; les bloquer vous retire des réponses IA. Les scrapers d’entraînement — GPTBot, anthropic-ai — collectent des données pour l’entraînement des modèles ; les bloquer n’affecte que l’entraînement, pas votre visibilité dans la recherche. OpenAI documente ses bots par fonction,* vous pouvez donc refuser l’entraînement tout en restant visible et citable.

C’est loin d’être théorique : une analyse Otterly de plus d’un million de citations IA (2026) a révélé que 73 % des sites présentent des barrières techniques bloquant l’accès des crawlers IA.†

# Récupération — alimente les citations ; à autoriser pour la visibilité IA
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

# Entraînement — n'affecte que l'entraînement du modèle, pas les citations
User-agent: GPTBot
Allow: /

Deux réserves. Premièrement, robots.txt est respecté par les grands bots, mais pas par tous — Bytespider l’ignore. Deuxièmement, les user agents sont usurpés : pour savoir qui a réellement visité le site, validez les entrées des logs contre les plages d’IP officielles (OpenAI publie par exemple la liste d’IP de son bot de recherche sous searchbot.json).

Vérifiez aussi que la protection anti-bots de votre CDN ou WAF ne bloque pas silencieusement les crawlers IA. Une règle d’autorisation dans robots.txt ne sert à rien si le pare-feu renvoie un 403.

Un HTML qui ne dépend pas de JavaScript

L’analyse de Vercel a montré que les grands crawlers IA n’exécutent pas JavaScript — sur plus de 500 000 requêtes GPTBot, aucune trace d’exécution JS.** Une page rendue côté client est vide pour les fetchers de la classe ChatGPT, Claude et Perplexity. Google est l’exception : il peut rendre le JavaScript pour les AI Overviews lorsqu’il n’est pas bloqué — même si, depuis décembre 2025, Google exclut entièrement du rendu les pages dont le statut n’est pas 200. SSR, SSG ou prérendu reste la base sûre pour que le corps du texte soit présent dans le HTML initial.

La vérification tient en une commande :

curl -A "GPTBot" https://example.com/page/ | grep "key copy"

Si le texte clé n’est pas dans le HTML initial, la stratégie de rendu doit être revue.

2. Données structurées : utiles, mais pas là où on l’attend

Deux faits d’emblée. Google déclare officiellement que les données structurées ne sont pas requises pour la recherche générative par IA et qu’il n’existe aucun balisage schema.org spécial à ajouter pour les fonctionnalités IA.*** Et l’expérience contrôlée la plus solide à ce jour — Ahrefs a suivi 1 885 pages ayant ajouté du JSON-LD face à des groupes témoins appariés — n’a trouvé aucun gain de citations sur aucune plateforme IA.††

Il existe une exception prouvée, et c’est par là qu’il faut commencer :

Product / SoftwareApplication + Offer avec des attributs réels — les pages dotées d’un schéma Product/Review rempli de prix, note et spécifications concrets ont été citées dans 61,7 % des cas contre 41,6 % pour les types génériques, avec l’effet le plus marqué sur les domaines à faible autorité. Le prix explicite est aussi l’un des quatre « gardiens » de la citation identifiés par une étude SIGIR ‘26 portant sur 252 000 tests contrôlés.‡ La valeur n’est pas dans la balise — elle est dans les faits lisibles par machine qu’elle transporte. La désinformation tarifaire est une erreur fréquente des réponses IA ; des valeurs correctes lisibles par machine la contrecarrent.
Organization — ce qui canonise réellement l’entité, ce n’est pas le balisage lui-même mais les liens sameAs vers les profils officiels et la cohérence des faits de marque à travers le web. Servez-vous-en pour ancrer la raison sociale, l’adresse et les variantes d’écriture.
FAQPage — l’enveloppe seule n’est pas un signal : un format purement question-réponse a mesuré −5,7 % d’influence par rapport aux pages sans ce format. La FAQ n’aide que lorsque chaque réponse porte une densité de preuves — chiffres, définitions, comparaisons — plutôt que des répliques courtes et isolées.
Article + Person — l’auteur et les dates soutiennent l’E-E-A-T, mais retenez le cadrage de Google lui-même : l’E-E-A-T n’est pas un facteur de classement direct. La confiance en est le cœur, et son poids est maximal sur les sujets YMYL.

Après l’implémentation, validez à la fois avec le test des résultats enrichis et le validateur Schema.org.

3. llms.txt : publiez-le, mais en sachant ce que c’est

D’abord le cadrage honnête : llms.txt n’est aujourd’hui ni un facteur de classement ni un facteur de citation. Google ne le prend pas en charge et ne prévoit pas de le faire (Gary Illyes), et John Mueller a relevé qu’aucun grand système d’IA n’est confirmé comme l’utilisant pour ses réponses.‡‡ Une méta-synthèse de 54 études lui attribue 2,0 sur 9,5 — aucune preuve crédible qu’il influence les citations IA de quelque manière que ce soit. Le seul comportement vérifié : OpenAI crawle llms.txt sur certains sites.

Pourquoi le publier malgré tout ? Parce que cela ne coûte rien. Un résumé Markdown de la structure du site et de ses contenus clés à la racine est gratuit s’il est généré automatiquement — et vous positionne pour ce que les agents finiront par adopter.

Une règle d’exploitation : ne le maintenez jamais à la main. Les fichiers llms.txt édités manuellement finissent toujours par dater. Générez-le au moment du build à partir de vos collections de contenu — le llms.txt de ce site est construit automatiquement à partir de chaque article et de chaque terme du glossaire.

Check-list de vérification

robots.txt autorise explicitement les bots de récupération voulus (OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot)
Le WAF/CDN ne renvoie pas de 403 aux user agents des crawlers IA (vérifiez les logs d’accès)
curl -A "GPTBot" montre le corps du texte dans le HTML initial
Les pages produit portent un schéma Product/Offer riche en attributs avec prix et specs réels ; le schéma Organization a des liens sameAs
llms.txt est généré au moment du build (extra bon marché — pas un facteur de citation)
Les visites de crawlers IA dans les logs serveur sont validées contre les plages d’IP officielles et passées en revue régulièrement

Avec ce socle en place, les améliorations de contenu se reflètent directement dans la mesure. Sans lui, le meilleur article du monde reste invisible pour l’IA.

* OpenAI, « Overview of OpenAI Crawlers » (état : mai 2025) ** Vercel, « The rise of the AI crawler » (janvier 2025) *** Google Search Central, « AI Features and Your Website » (état : décembre 2025) † OtterlyAI, « The AI Citation Economy: 1+ Million Data Points » (2026) †† Ahrefs, « We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved. » (mai 2026) ‡ Vishwakarma et al., « What Gets Cited: Competitive GEO in AI Answer Engines », SIGIR ‘26 ‡‡ Search Engine Land, « Google says normal SEO works … and LLMS.txt won’t be used » (juillet 2025)