← Voltar ao blog

GEO técnico

GEO técnico para engenheiros de marketing: robots.txt, dados estruturados, llms.txt | Suparanku

O GEO técnico tem dois pilares: acesso dos crawlers e HTML renderizado no servidor. Libere bots de recuperação como OAI-SearchBot, PerplexityBot e ClaudeBot, e verifique com logs. Dados estruturados ajudam com fatos reais (preço, avaliação, specs). O llms.txt é um extra barato, não um fator de citação.

Maksim Gurchenkov (CEO, Apurichoumi Inc.)

O que cabe à engenharia no GEO

Conteúdo é trabalho do marketing; se a IA consegue sequer ler o site é um problema de infraestrutura. Os dois pilares sob responsabilidade do lado técnico são o acesso dos crawlers e a renderização — se qualquer um falhar, nada mais importa. Dados estruturados ajudam em casos específicos e bem comprovados, e o llms.txt é um extra opcional e barato. Este guia cobre tudo em nível de implementação.

1. Libere os crawlers de IA

Bots de recuperação vs. scrapers de treinamento

Nem todos os crawlers de IA fazem o mesmo trabalho. Os bots de recuperação — OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot — buscam páginas para alimentar respostas ao vivo e citações; bloqueá-los remove você das respostas de IA. Os scrapers de treinamento — GPTBot, anthropic-ai — coletam dados para treinar modelos; bloqueá-los afeta apenas o treinamento, não a sua visibilidade na busca. A OpenAI documenta seus bots por propósito,* então você pode ficar de fora do treinamento e continuar visível e citável.

Isso importa na prática: uma análise da Otterly de mais de um milhão de citações de IA (2026) constatou que 73% dos sites têm barreiras técnicas bloqueando o acesso de crawlers de IA.†

# Recuperação — alimenta as citações; libere se quiser visibilidade em IA
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

# Treinamento — afeta apenas o treinamento do modelo, não as citações
User-agent: GPTBot
Allow: /

Duas ressalvas. Primeira: o robots.txt é respeitado pelos bots principais, mas não por todos — o Bytespider o ignora. Segunda: user agents são falsificados; para saber quem realmente visitou, valide as entradas de log contra as faixas de IP oficiais (a OpenAI, por exemplo, publica a lista de IPs do seu bot de busca como searchbot.json).

Verifique também se a proteção contra bots da sua CDN ou WAF não está bloqueando silenciosamente os crawlers de IA. Uma regra de permissão no robots.txt não vale nada se o firewall retorna 403.

HTML que não depende de JavaScript

A análise da Vercel constatou que os principais crawlers de IA não executam JavaScript — em mais de 500.000 requisições do GPTBot, zero traços de execução de JS.** Uma página renderizada no cliente é uma página em branco para fetchers da classe ChatGPT, Claude e Perplexity. O Google é a exceção: ele consegue renderizar JavaScript para as AI Overviews quando não está bloqueado — embora, desde dezembro de 2025, o Google exclua totalmente da renderização páginas com status diferente de 200. SSR, SSG ou pré-renderização continua sendo a base segura para que o texto do corpo esteja presente no HTML inicial.

A verificação é um único comando:

curl -A "GPTBot" https://example.com/page/ | grep "key copy"

Se o texto não está no HTML inicial, a estratégia de renderização precisa ser revista.

2. Dados estruturados: úteis, mas não onde você esperaria

Dois fatos de saída. O Google afirma oficialmente que dados estruturados não são exigidos para a busca generativa com IA e que não existe nenhuma marcação schema.org especial a adicionar para os recursos de IA.*** E o experimento controlado mais forte até hoje — a Ahrefs acompanhou 1.885 páginas que adicionaram JSON-LD contra controles pareados — não encontrou aumento de citações em nenhuma plataforma de IA.††

Há uma exceção comprovada, e é por ela que se deve começar:

Depois da implementação, valide com o Rich Results Test e com o validador do Schema.org.

3. llms.txt: publique, mas sabendo o que é

Primeiro, o enquadramento honesto: o llms.txt não é hoje um fator de ranqueamento nem de citação. O Google não o suporta e não planeja suportar (Gary Illyes), e John Mueller observou que nenhum grande sistema de IA tem uso confirmado dele para respostas.‡‡ Uma meta-síntese de 54 estudos o pontuou com 2,0 de 9,5 — nenhuma evidência crível de que influencie citações de IA de qualquer forma. O único comportamento verificado: a OpenAI rastreia o llms.txt em alguns sites.

Por que publicá-lo então? Porque é barato. Um resumo em Markdown da estrutura e do conteúdo principal do site, na raiz, não custa nada se gerado automaticamente — e posiciona você para o que os agentes vierem a adotar.

Uma regra operacional: nunca o mantenha à mão. Arquivos llms.txt editados manualmente sempre ficam desatualizados. Gere-o no build a partir das suas coleções de conteúdo — o llms.txt deste site é construído automaticamente a partir de todos os artigos e termos do glossário.

Checklist de verificação

  1. O robots.txt permite explicitamente os bots de recuperação que você quer (OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot)
  2. O WAF/CDN não retorna 403 para os user agents dos crawlers de IA (verifique os logs de acesso)
  3. curl -A "GPTBot" mostra o texto do corpo no HTML inicial
  4. As páginas de produto trazem schema Product/Offer rico em atributos com preço e especificações reais; o schema Organization tem links sameAs
  5. O llms.txt é gerado no build (extra barato — não é fator de citação)
  6. As visitas de crawlers de IA nos logs do servidor são validadas contra as faixas de IP oficiais e revisadas regularmente

Com essa base no lugar, as melhorias de conteúdo aparecem diretamente na medição. Sem ela, o melhor artigo do mundo é invisível para a IA.

* OpenAI, “Overview of OpenAI Crawlers” (dados de maio de 2025) ** Vercel, “The rise of the AI crawler” (janeiro de 2025) *** Google Search Central, “AI Features and Your Website” (dados de dezembro de 2025) † OtterlyAI, “The AI Citation Economy: 1+ Million Data Points” (2026) †† Ahrefs, “We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.” (maio de 2026) ‡ Vishwakarma et al., “What Gets Cited: Competitive GEO in AI Answer Engines”, SIGIR ‘26 ‡‡ Search Engine Land, “Google says normal SEO works … and LLMS.txt won’t be used” (julho de 2025)

Fontes

  1. OpenAI, "Overview of OpenAI Crawlers"
  2. Vercel, "The rise of the AI crawler"
  3. Google Search Central, "AI Features and Your Website"
  4. Search Engine Land, "Google says normal SEO works … and LLMS.txt won't be used"
  5. Ahrefs, "We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved."
  6. Vishwakarma et al. (Sprinklr), "What Gets Cited: Competitive GEO in AI Answer Engines" (SIGIR '26)
  7. OtterlyAI, "The AI Citation Economy: 1+ Million Data Points"
Diagnóstico gratuito Falar com vendas