GEO tecnica
GEO tecnica per marketing engineer: robots.txt, dati strutturati, llms.txt | Suparanku
La GEO tecnica ha due pilastri: accesso dei crawler e HTML renderizzato dal server. Permetti i bot di retrieval come OAI-SearchBot, PerplexityBot e ClaudeBot, poi verifica con i log. I dati strutturati aiutano con fatti reali (prezzo, rating, specifiche). llms.txt è un extra economico, non un fattore di citazione.
Cosa possiede l’engineering nella GEO
Il contenuto è lavoro del marketer; se l’AI può leggere il sito è un problema di infrastruttura. I due pilastri di competenza tecnica sono l’accesso dei crawler e il rendering: se uno dei due manca, nient’altro conta. I dati strutturati aiutano in casi specifici e ben documentati, e llms.txt è un extra opzionale a basso costo. Questa guida copre tutto a livello di implementazione.
1. Ammetti i crawler AI
Bot di retrieval vs scraper di training
Non tutti i crawler AI fanno lo stesso lavoro. I bot di retrieval — OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot — recuperano le pagine per alimentare risposte in tempo reale e citazioni; bloccarli ti elimina dalle risposte AI. Gli scraper di training — GPTBot, anthropic-ai — raccolgono dati per l’addestramento dei modelli; bloccarli incide solo sul training, non sulla visibilità nella ricerca. OpenAI documenta i suoi bot per scopo,* quindi puoi rifiutare il training restando visibile e citabile.
Non è teoria: un’analisi di Otterly su oltre un milione di citazioni AI (2026) ha rilevato che il 73% dei siti presenta barriere tecniche che bloccano l’accesso dei crawler AI.†
# Retrieval — alimenta le citazioni; permetti se vuoi visibilità AI
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
# Training — incide solo sull'addestramento del modello, non sulle citazioni
User-agent: GPTBot
Allow: /
Due avvertenze. Primo: il robots.txt è rispettato dai bot principali, ma non da tutti — Bytespider lo ignora. Secondo: gli user agent vengono falsificati; per sapere chi ha visitato davvero, valida le righe di log contro i range IP ufficiali (per esempio, OpenAI pubblica la lista IP del suo searchbot come searchbot.json).
Controlla anche che la protezione bot di CDN o WAF non stia bloccando silenziosamente i crawler AI. Una regola allow nel robots.txt non significa nulla se il firewall risponde 403.
HTML che non dipende da JavaScript
L’analisi di Vercel ha rilevato che i principali crawler AI non eseguono JavaScript — su oltre 500.000 richieste GPTBot, zero tracce di esecuzione JS.** Una pagina renderizzata lato client è vuota per i fetcher della classe ChatGPT, Claude e Perplexity. Google è l’eccezione: può renderizzare JavaScript per le AI Overviews quando non è bloccato — anche se da dicembre 2025 Google esclude completamente dal rendering le pagine con stato diverso da 200. SSR, SSG o prerendering resta la base sicura perché il testo del corpo sia presente nell’HTML iniziale.
La verifica è un comando:
curl -A "GPTBot" https://example.com/page/ | grep "testo chiave"
Se il testo non è nell’HTML iniziale, la strategia di rendering va rivista.
2. Dati strutturati: utili, ma non dove te lo aspetti
Due fatti in apertura. Google dichiara ufficialmente che i dati strutturati non sono richiesti per la ricerca generativa AI e che non esiste alcun markup schema.org speciale da aggiungere per le funzionalità AI.*** E l’esperimento controllato più solido a oggi — Ahrefs ha seguito 1.885 pagine che hanno aggiunto JSON-LD contro gruppi di controllo abbinati — non ha trovato alcun aumento di citazioni su nessuna piattaforma AI.††
C’è un’eccezione dimostrata, ed è da lì che si parte:
- Product / SoftwareApplication + Offer con attributi reali — le pagine con schema Product/Review compilato con prezzo, rating e specifiche concrete sono state citate nel 61,7% dei casi contro il 41,6% dei tipi generici, con l’effetto più forte sui domini a bassa autorità. Il prezzo esplicito è anche uno dei quattro «gatekeeper» della citazione identificati da uno studio SIGIR ‘26 su 252.000 prove controllate.‡ Il valore non è nel tag — è nei fatti machine-readable che il tag trasporta. La disinformazione sui prezzi è un errore frequente nelle risposte AI; valori corretti machine-readable la contrastano.
- Organization — ciò che canonizza davvero l’entità non è il markup in sé, ma i link
sameAsai profili ufficiali più la coerenza dei fatti di brand su tutto il web. Usalo come ancora per ragione sociale, indirizzo e varianti di scrittura. - FAQPage — il wrapper da solo non è un segnale: un formato puramente Q&A ha misurato un’influenza del −5,7% rispetto alle pagine non-Q&A. La FAQ aiuta solo quando ogni risposta porta densità di evidenze — numeri, definizioni, confronti — invece di repliche brevi e isolate.
- Article + Person — autorialità e date sostengono l’E-E-A-T, ma tieni presente l’inquadramento di Google stesso: l’E-E-A-T non è un fattore di ranking diretto. Il suo nucleo è la fiducia, e il peso è massimo sui temi YMYL.
Dopo l’implementazione, valida sia con il test dei risultati avanzati sia con il validatore Schema.org.
3. llms.txt: pubblicalo, ma sapendo cos’è
Prima l’inquadramento onesto: llms.txt oggi non è un fattore di ranking né di citazione. Google non lo supporta e non prevede di farlo (Gary Illyes), e John Mueller ha osservato che nessun grande sistema AI risulta confermato nell’usarlo per le risposte.‡‡ Una meta-sintesi di 54 studi gli assegna 2,0 su 9,5 — nessuna prova credibile che influenzi le citazioni AI in alcun modo. L’unico comportamento verificato: OpenAI effettua il crawling di llms.txt su alcuni siti.
Perché pubblicarlo allora? Perché costa poco. Un riassunto Markdown della struttura e dei contenuti chiave del sito alla root non costa nulla se generato automaticamente — e ti posiziona per qualunque adozione futura da parte degli agenti.
Una regola operativa: mai mantenerlo a mano. I file llms.txt modificati manualmente diventano sempre obsoleti. Generalo in build dalle tue collezioni di contenuto — l’llms.txt di questo sito è costruito automaticamente da ogni articolo e termine del glossario.
Checklist di verifica
- robots.txt permette esplicitamente i bot di retrieval desiderati (OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot)
- WAF/CDN non risponde 403 agli user agent dei crawler AI (controlla i log di accesso)
curl -A "GPTBot"mostra il testo del corpo nell’HTML iniziale- Le pagine prodotto portano schema Product/Offer ricco di attributi con prezzo e specifiche reali; lo schema Organization ha link
sameAs - llms.txt è generato in build (extra a basso costo — non un fattore di citazione)
- Le visite dei crawler AI nei log del server sono validate contro i range IP ufficiali e riviste regolarmente
Con queste fondamenta, i miglioramenti di contenuto si riflettono direttamente nella misurazione. Senza, il miglior articolo del mondo resta invisibile all’AI.
* OpenAI, «Overview of OpenAI Crawlers» (a maggio 2025) ** Vercel, «The rise of the AI crawler» (gennaio 2025) *** Google Search Central, «AI Features and Your Website» (a dicembre 2025) † OtterlyAI, «The AI Citation Economy: 1+ Million Data Points» (2026) †† Ahrefs, «We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.» (maggio 2026) ‡ Vishwakarma et al., «What Gets Cited: Competitive GEO in AI Answer Engines», SIGIR ‘26 ‡‡ Search Engine Land, «Google says normal SEO works … and LLMS.txt won’t be used» (luglio 2025)
Fonti
- OpenAI, “Overview of OpenAI Crawlers”
- Vercel, “The rise of the AI crawler”
- Google Search Central, “AI Features and Your Website”
- Search Engine Land, “Google says normal SEO works … and LLMS.txt won't be used”
- Ahrefs, “We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.”
- Vishwakarma et al. (Sprinklr), “What Gets Cited: Competitive GEO in AI Answer Engines” (SIGIR '26)
- OtterlyAI, “The AI Citation Economy: 1+ Million Data Points”