← Torna al blog

GEO tecnica

GEO tecnica per marketing engineer: robots.txt, dati strutturati, llms.txt | Suparanku

La GEO tecnica ha due pilastri: accesso dei crawler e HTML renderizzato dal server. Permetti i bot di retrieval come OAI-SearchBot, PerplexityBot e ClaudeBot, poi verifica con i log. I dati strutturati aiutano con fatti reali (prezzo, rating, specifiche). llms.txt è un extra economico, non un fattore di citazione.

Maksim Gurchenkov (CEO, Apurichoumi Inc.)

Cosa possiede l’engineering nella GEO

Il contenuto è lavoro del marketer; se l’AI può leggere il sito è un problema di infrastruttura. I due pilastri di competenza tecnica sono l’accesso dei crawler e il rendering: se uno dei due manca, nient’altro conta. I dati strutturati aiutano in casi specifici e ben documentati, e llms.txt è un extra opzionale a basso costo. Questa guida copre tutto a livello di implementazione.

1. Ammetti i crawler AI

Bot di retrieval vs scraper di training

Non tutti i crawler AI fanno lo stesso lavoro. I bot di retrieval — OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot — recuperano le pagine per alimentare risposte in tempo reale e citazioni; bloccarli ti elimina dalle risposte AI. Gli scraper di training — GPTBot, anthropic-ai — raccolgono dati per l’addestramento dei modelli; bloccarli incide solo sul training, non sulla visibilità nella ricerca. OpenAI documenta i suoi bot per scopo,* quindi puoi rifiutare il training restando visibile e citabile.

Non è teoria: un’analisi di Otterly su oltre un milione di citazioni AI (2026) ha rilevato che il 73% dei siti presenta barriere tecniche che bloccano l’accesso dei crawler AI.†

# Retrieval — alimenta le citazioni; permetti se vuoi visibilità AI
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

# Training — incide solo sull'addestramento del modello, non sulle citazioni
User-agent: GPTBot
Allow: /

Due avvertenze. Primo: il robots.txt è rispettato dai bot principali, ma non da tutti — Bytespider lo ignora. Secondo: gli user agent vengono falsificati; per sapere chi ha visitato davvero, valida le righe di log contro i range IP ufficiali (per esempio, OpenAI pubblica la lista IP del suo searchbot come searchbot.json).

Controlla anche che la protezione bot di CDN o WAF non stia bloccando silenziosamente i crawler AI. Una regola allow nel robots.txt non significa nulla se il firewall risponde 403.

HTML che non dipende da JavaScript

L’analisi di Vercel ha rilevato che i principali crawler AI non eseguono JavaScript — su oltre 500.000 richieste GPTBot, zero tracce di esecuzione JS.** Una pagina renderizzata lato client è vuota per i fetcher della classe ChatGPT, Claude e Perplexity. Google è l’eccezione: può renderizzare JavaScript per le AI Overviews quando non è bloccato — anche se da dicembre 2025 Google esclude completamente dal rendering le pagine con stato diverso da 200. SSR, SSG o prerendering resta la base sicura perché il testo del corpo sia presente nell’HTML iniziale.

La verifica è un comando:

curl -A "GPTBot" https://example.com/page/ | grep "testo chiave"

Se il testo non è nell’HTML iniziale, la strategia di rendering va rivista.

2. Dati strutturati: utili, ma non dove te lo aspetti

Due fatti in apertura. Google dichiara ufficialmente che i dati strutturati non sono richiesti per la ricerca generativa AI e che non esiste alcun markup schema.org speciale da aggiungere per le funzionalità AI.*** E l’esperimento controllato più solido a oggi — Ahrefs ha seguito 1.885 pagine che hanno aggiunto JSON-LD contro gruppi di controllo abbinati — non ha trovato alcun aumento di citazioni su nessuna piattaforma AI.††

C’è un’eccezione dimostrata, ed è da lì che si parte:

Dopo l’implementazione, valida sia con il test dei risultati avanzati sia con il validatore Schema.org.

3. llms.txt: pubblicalo, ma sapendo cos’è

Prima l’inquadramento onesto: llms.txt oggi non è un fattore di ranking né di citazione. Google non lo supporta e non prevede di farlo (Gary Illyes), e John Mueller ha osservato che nessun grande sistema AI risulta confermato nell’usarlo per le risposte.‡‡ Una meta-sintesi di 54 studi gli assegna 2,0 su 9,5 — nessuna prova credibile che influenzi le citazioni AI in alcun modo. L’unico comportamento verificato: OpenAI effettua il crawling di llms.txt su alcuni siti.

Perché pubblicarlo allora? Perché costa poco. Un riassunto Markdown della struttura e dei contenuti chiave del sito alla root non costa nulla se generato automaticamente — e ti posiziona per qualunque adozione futura da parte degli agenti.

Una regola operativa: mai mantenerlo a mano. I file llms.txt modificati manualmente diventano sempre obsoleti. Generalo in build dalle tue collezioni di contenuto — l’llms.txt di questo sito è costruito automaticamente da ogni articolo e termine del glossario.

Checklist di verifica

  1. robots.txt permette esplicitamente i bot di retrieval desiderati (OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot)
  2. WAF/CDN non risponde 403 agli user agent dei crawler AI (controlla i log di accesso)
  3. curl -A "GPTBot" mostra il testo del corpo nell’HTML iniziale
  4. Le pagine prodotto portano schema Product/Offer ricco di attributi con prezzo e specifiche reali; lo schema Organization ha link sameAs
  5. llms.txt è generato in build (extra a basso costo — non un fattore di citazione)
  6. Le visite dei crawler AI nei log del server sono validate contro i range IP ufficiali e riviste regolarmente

Con queste fondamenta, i miglioramenti di contenuto si riflettono direttamente nella misurazione. Senza, il miglior articolo del mondo resta invisibile all’AI.

* OpenAI, «Overview of OpenAI Crawlers» (a maggio 2025) ** Vercel, «The rise of the AI crawler» (gennaio 2025) *** Google Search Central, «AI Features and Your Website» (a dicembre 2025) † OtterlyAI, «The AI Citation Economy: 1+ Million Data Points» (2026) †† Ahrefs, «We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.» (maggio 2026) ‡ Vishwakarma et al., «What Gets Cited: Competitive GEO in AI Answer Engines», SIGIR ‘26 ‡‡ Search Engine Land, «Google says normal SEO works … and LLMS.txt won’t be used» (luglio 2025)

Fonti

  1. OpenAI, “Overview of OpenAI Crawlers”
  2. Vercel, “The rise of the AI crawler”
  3. Google Search Central, “AI Features and Your Website”
  4. Search Engine Land, “Google says normal SEO works … and LLMS.txt won't be used”
  5. Ahrefs, “We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.”
  6. Vishwakarma et al. (Sprinklr), “What Gets Cited: Competitive GEO in AI Answer Engines” (SIGIR '26)
  7. OtterlyAI, “The AI Citation Economy: 1+ Million Data Points”
Verifica gratuita Contatta le vendite