GEO técnico

GEO técnico para engenheiros de marketing: robots.txt, dados estruturados, llms.txt | Suparanku

O GEO técnico tem dois pilares: acesso dos crawlers e HTML renderizado no servidor. Libere bots de recuperação como OAI-SearchBot, PerplexityBot e ClaudeBot, e verifique com logs. Dados estruturados ajudam com fatos reais (preço, avaliação, specs). O llms.txt é um extra barato, não um fator de citação.

Maksim Gurchenkov (CEO, Apurichoumi Inc.) 11 de jun. de 2026 ↻ 12 de jun. de 2026

O que cabe à engenharia no GEO

Conteúdo é trabalho do marketing; se a IA consegue sequer ler o site é um problema de infraestrutura. Os dois pilares sob responsabilidade do lado técnico são o acesso dos crawlers e a renderização — se qualquer um falhar, nada mais importa. Dados estruturados ajudam em casos específicos e bem comprovados, e o llms.txt é um extra opcional e barato. Este guia cobre tudo em nível de implementação.

1. Libere os crawlers de IA

Bots de recuperação vs. scrapers de treinamento

Nem todos os crawlers de IA fazem o mesmo trabalho. Os bots de recuperação — OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot — buscam páginas para alimentar respostas ao vivo e citações; bloqueá-los remove você das respostas de IA. Os scrapers de treinamento — GPTBot, anthropic-ai — coletam dados para treinar modelos; bloqueá-los afeta apenas o treinamento, não a sua visibilidade na busca. A OpenAI documenta seus bots por propósito,* então você pode ficar de fora do treinamento e continuar visível e citável.

Isso importa na prática: uma análise da Otterly de mais de um milhão de citações de IA (2026) constatou que 73% dos sites têm barreiras técnicas bloqueando o acesso de crawlers de IA.†

# Recuperação — alimenta as citações; libere se quiser visibilidade em IA
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

# Treinamento — afeta apenas o treinamento do modelo, não as citações
User-agent: GPTBot
Allow: /

Duas ressalvas. Primeira: o robots.txt é respeitado pelos bots principais, mas não por todos — o Bytespider o ignora. Segunda: user agents são falsificados; para saber quem realmente visitou, valide as entradas de log contra as faixas de IP oficiais (a OpenAI, por exemplo, publica a lista de IPs do seu bot de busca como searchbot.json).

Verifique também se a proteção contra bots da sua CDN ou WAF não está bloqueando silenciosamente os crawlers de IA. Uma regra de permissão no robots.txt não vale nada se o firewall retorna 403.

HTML que não depende de JavaScript

A análise da Vercel constatou que os principais crawlers de IA não executam JavaScript — em mais de 500.000 requisições do GPTBot, zero traços de execução de JS.** Uma página renderizada no cliente é uma página em branco para fetchers da classe ChatGPT, Claude e Perplexity. O Google é a exceção: ele consegue renderizar JavaScript para as AI Overviews quando não está bloqueado — embora, desde dezembro de 2025, o Google exclua totalmente da renderização páginas com status diferente de 200. SSR, SSG ou pré-renderização continua sendo a base segura para que o texto do corpo esteja presente no HTML inicial.

A verificação é um único comando:

curl -A "GPTBot" https://example.com/page/ | grep "key copy"

Se o texto não está no HTML inicial, a estratégia de renderização precisa ser revista.

2. Dados estruturados: úteis, mas não onde você esperaria

Dois fatos de saída. O Google afirma oficialmente que dados estruturados não são exigidos para a busca generativa com IA e que não existe nenhuma marcação schema.org especial a adicionar para os recursos de IA.*** E o experimento controlado mais forte até hoje — a Ahrefs acompanhou 1.885 páginas que adicionaram JSON-LD contra controles pareados — não encontrou aumento de citações em nenhuma plataforma de IA.††

Há uma exceção comprovada, e é por ela que se deve começar:

Product / SoftwareApplication + Offer com atributos reais — páginas com schema Product/Review preenchido com preço, avaliação e especificações concretas foram citadas em 61,7% dos casos contra 41,6% dos tipos genéricos, com o efeito mais forte em domínios de baixa autoridade. O preço explícito é também um dos quatro “porteiros” da citação identificados por um estudo do SIGIR ‘26 com 252.000 testes controlados.‡ O valor não está na tag — está nos fatos legíveis por máquina que ela carrega. Desinformação de preço é um erro frequente nas respostas de IA; valores corretos legíveis por máquina a neutralizam.
Organization — o que de fato canoniza a entidade não é a marcação em si, mas os links sameAs para perfis oficiais somados à consistência dos fatos da marca em toda a web. Use-a como âncora para razão social, endereço e variantes de grafia.
FAQPage — o invólucro por si só não é um sinal: um formato puramente de perguntas e respostas mediu −5,7% de influência em relação a páginas sem esse formato. O FAQ só ajuda quando cada resposta carrega densidade de evidências — números, definições, comparações — em vez de réplicas curtas e isoladas.
Article + Person — autoria e datas sustentam o E-E-A-T, mas atente para o enquadramento do próprio Google: E-E-A-T não é um fator de ranqueamento direto. Seu núcleo é a confiança, e o peso é máximo em temas YMYL.

Depois da implementação, valide com o Rich Results Test e com o validador do Schema.org.

3. llms.txt: publique, mas sabendo o que é

Primeiro, o enquadramento honesto: o llms.txt não é hoje um fator de ranqueamento nem de citação. O Google não o suporta e não planeja suportar (Gary Illyes), e John Mueller observou que nenhum grande sistema de IA tem uso confirmado dele para respostas.‡‡ Uma meta-síntese de 54 estudos o pontuou com 2,0 de 9,5 — nenhuma evidência crível de que influencie citações de IA de qualquer forma. O único comportamento verificado: a OpenAI rastreia o llms.txt em alguns sites.

Por que publicá-lo então? Porque é barato. Um resumo em Markdown da estrutura e do conteúdo principal do site, na raiz, não custa nada se gerado automaticamente — e posiciona você para o que os agentes vierem a adotar.

Uma regra operacional: nunca o mantenha à mão. Arquivos llms.txt editados manualmente sempre ficam desatualizados. Gere-o no build a partir das suas coleções de conteúdo — o llms.txt deste site é construído automaticamente a partir de todos os artigos e termos do glossário.

Checklist de verificação

O robots.txt permite explicitamente os bots de recuperação que você quer (OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot)
O WAF/CDN não retorna 403 para os user agents dos crawlers de IA (verifique os logs de acesso)
curl -A "GPTBot" mostra o texto do corpo no HTML inicial
As páginas de produto trazem schema Product/Offer rico em atributos com preço e especificações reais; o schema Organization tem links sameAs
O llms.txt é gerado no build (extra barato — não é fator de citação)
As visitas de crawlers de IA nos logs do servidor são validadas contra as faixas de IP oficiais e revisadas regularmente

Com essa base no lugar, as melhorias de conteúdo aparecem diretamente na medição. Sem ela, o melhor artigo do mundo é invisível para a IA.

* OpenAI, “Overview of OpenAI Crawlers” (dados de maio de 2025) ** Vercel, “The rise of the AI crawler” (janeiro de 2025) *** Google Search Central, “AI Features and Your Website” (dados de dezembro de 2025) † OtterlyAI, “The AI Citation Economy: 1+ Million Data Points” (2026) †† Ahrefs, “We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.” (maio de 2026) ‡ Vishwakarma et al., “What Gets Cited: Competitive GEO in AI Answer Engines”, SIGIR ‘26 ‡‡ Search Engine Land, “Google says normal SEO works … and LLMS.txt won’t be used” (julho de 2025)