Technisches GEO

Technische GEO für Marketing-Engineers: robots.txt, strukturierte Daten, llms.txt | Suparanku

Technische GEO hat zwei Säulen — Crawler-Zugang und serverseitiges HTML. Retrieval-Bots wie OAI-SearchBot, PerplexityBot und ClaudeBot zulassen, per Logs verifizieren. Strukturierte Daten helfen mit echten Fakten (Preis, Bewertung, Specs). llms.txt ist ein günstiges Extra, kein Zitationsfaktor.

Maksim Gurchenkov (CEO, Apurichoumi Inc.) 11.06.2026 ↻ 12.06.2026

Was das Engineering bei GEO verantwortet

Inhalte sind Sache des Marketings; ob die KI die Website überhaupt lesen kann, ist ein Infrastrukturproblem. Die zwei Säulen, die die technische Seite verantwortet, sind Crawler-Zugang und Rendering — fällt eine davon aus, ist alles andere irrelevant. Strukturierte Daten helfen in spezifischen, gut belegten Fällen, und llms.txt ist ein günstiges optionales Extra. Dieser Leitfaden behandelt alles auf Implementierungsniveau.

1. Die KI-Crawler zulassen

Retrieval-Bots vs. Training-Scraper

Nicht alle KI-Crawler erfüllen dieselbe Aufgabe. Retrieval-Bots — OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot — rufen Seiten ab, um Live-Antworten und Zitate zu speisen; wer sie blockiert, fliegt aus den KI-Antworten. Training-Scraper — GPTBot, anthropic-ai — sammeln Daten für das Modelltraining; ihre Blockierung betrifft nur das Training, nicht die Sichtbarkeit in der Suche. OpenAI dokumentiert seine Bots nach Zweck,* sodass Sie das Training ausschließen und trotzdem sichtbar und zitierfähig bleiben können.

Das ist praxisrelevant: Eine Otterly-Analyse von über einer Million KI-Zitaten (2026) ergab, dass 73 % der Websites technische Barrieren haben, die den Zugang von KI-Crawlern blockieren.†

# Retrieval — speist Zitate; zulassen, wenn KI-Sichtbarkeit gewünscht ist
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

# Training — betrifft nur das Modelltraining, nicht die Zitate
User-agent: GPTBot
Allow: /

Zwei Einschränkungen. Erstens: robots.txt wird von den großen Bots respektiert, aber nicht von allen — Bytespider ignoriert die Datei. Zweitens: User-Agents werden gefälscht; um zu wissen, wer wirklich da war, validieren Sie Log-Einträge gegen offizielle IP-Bereiche (OpenAI veröffentlicht etwa seine Searchbot-IP-Liste als searchbot.json).

Prüfen Sie außerdem, ob der Bot-Schutz Ihres CDN oder Ihrer WAF KI-Crawler nicht stillschweigend blockiert. Eine Allow-Regel in robots.txt nützt nichts, wenn die Firewall 403 zurückgibt.

HTML, das nicht von JavaScript abhängt

Vercels Analyse ergab, dass die großen KI-Crawler kein JavaScript ausführen — über 500.000+ GPTBot-Anfragen hinweg keine Spuren von JS-Ausführung.** Eine rein clientseitig gerenderte Seite ist für Fetcher der ChatGPT-, Claude- und Perplexity-Klasse leer. Google ist die Ausnahme: Es kann JavaScript für AI Overviews rendern, sofern nicht blockiert — wobei Google seit Dezember 2025 Seiten ohne 200er-Status komplett vom Rendering ausschließt. SSR, SSG oder Prerendering bleibt die sichere Basis, damit der Fließtext im initialen HTML vorhanden ist.

Die Verifikation ist ein einziger Befehl:

curl -A "GPTBot" https://example.com/page/ | grep "key copy"

Steht die Copy nicht im initialen HTML, muss die Rendering-Strategie überarbeitet werden.

2. Strukturierte Daten: nützlich, aber nicht dort, wo man es erwartet

Zwei Fakten vorweg. Google erklärt offiziell, dass strukturierte Daten für die generative KI-Suche nicht erforderlich sind und es kein spezielles schema.org-Markup für KI-Funktionen gibt.*** Und das bislang stärkste kontrollierte Experiment — Ahrefs verfolgte 1.885 Seiten, die JSON-LD hinzufügten, gegen gematchte Kontrollgruppen — fand auf keiner KI-Plattform einen Zitations-Uplift.††

Es gibt eine belegte Ausnahme, und dort sollte man ansetzen:

Product / SoftwareApplication + Offer mit echten Attributen — Seiten mit Product/Review-Schema, gefüllt mit konkretem Preis, Bewertung und Spezifikationen, wurden in 61,7 % der Fälle zitiert gegenüber 41,6 % bei generischen Schema-Typen, mit dem stärksten Effekt bei Domains mit geringer Autorität. Ein expliziter Preis ist zudem einer der vier Zitations-„Gatekeeper”, die eine SIGIR-‘26-Studie mit 252.000 kontrollierten Tests identifizierte.‡ Der Wert liegt nicht im Tag — sondern in den maschinenlesbaren Fakten, die er trägt. Preis-Fehlinformationen sind ein häufiger Fehler in KI-Antworten; korrekte maschinenlesbare Werte wirken dem entgegen.
Organization — was die Entität tatsächlich kanonisiert, ist nicht das Markup selbst, sondern sameAs-Links zu offiziellen Profilen plus konsistente Markenfakten im gesamten Web. Nutzen Sie es als Anker für offiziellen Namen, Adresse und Schreibvarianten.
FAQPage — der Wrapper selbst ist kein Signal: Ein reines Q&A-Format wurde mit −5,7 % Einfluss gegenüber Nicht-Q&A-Seiten gemessen. FAQ hilft nur, wenn jede Antwort Beweisdichte trägt — Zahlen, Definitionen, Vergleiche — statt kurzer isolierter Antworten.
Article + Person — Autorschaft und Datumsangaben stützen E-E-A-T, aber beachten Sie Googles eigene Einordnung: E-E-A-T ist kein direkter Rankingfaktor. Trust ist sein Kern, und das Gewicht ist bei YMYL-Themen am höchsten.

Validieren Sie nach der Implementierung sowohl mit dem Rich Results Test als auch mit dem Schema.org-Validator.

3. llms.txt: veröffentlichen ja — aber wissen, was es ist

Zuerst die ehrliche Einordnung: llms.txt ist heute weder ein Ranking- noch ein Zitationsfaktor. Google unterstützt es nicht und plant das auch nicht (Gary Illyes), und John Mueller hat festgehalten, dass kein großes KI-System nachweislich llms.txt für Antworten nutzt.‡‡ Eine Meta-Synthese aus 54 Studien bewertete es mit 2,0 von 9,5 Punkten — kein glaubwürdiger Beleg, dass es KI-Zitate in irgendeiner Weise beeinflusst. Das einzig verifizierte Verhalten: OpenAI crawlt llms.txt auf manchen Websites.

Warum es trotzdem veröffentlichen? Weil es günstig ist. Eine Markdown-Zusammenfassung der Website-Struktur und Kerninhalte im Site-Root kostet nichts, wenn sie automatisch generiert wird — und positioniert Sie für alles, was Agenten künftig doch adoptieren.

Eine Betriebsregel: niemals von Hand pflegen. Handgepflegte llms.txt-Dateien veralten immer. Generieren Sie die Datei zum Build-Zeitpunkt aus Ihren Content-Collections — die llms.txt dieser Website wird automatisch aus jedem Artikel und jedem Glossarbegriff erzeugt.

Verifikations-Checkliste

robots.txt erlaubt die gewünschten Retrieval-Bots explizit (OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot)
WAF/CDN liefert KI-Crawler-User-Agents kein 403 (Access-Logs prüfen)
curl -A "GPTBot" zeigt den Fließtext im initialen HTML
Produktseiten tragen attributreiches Product/Offer-Schema mit echtem Preis und Specs; das Organization-Schema hat sameAs-Links
llms.txt wird zum Build-Zeitpunkt generiert (günstiges Extra — kein Zitationsfaktor)
Server-Logs zeigen echte KI-Crawler-Besuche, gegen offizielle IP-Bereiche validiert und regelmäßig gesichtet

Steht dieses Fundament, schlagen sich Content-Verbesserungen direkt in der Messung nieder. Ohne es ist der beste Artikel der Welt für KI unsichtbar.

* OpenAI, „Overview of OpenAI Crawlers“ (Stand: Mai 2025) ** Vercel, „The rise of the AI crawler“ (Januar 2025) *** Google Search Central, „AI Features and Your Website“ (Stand: Dezember 2025) † OtterlyAI, „The AI Citation Economy: 1+ Million Data Points“ (2026) †† Ahrefs, „We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.“ (Mai 2026) ‡ Vishwakarma et al., „What Gets Cited: Competitive GEO in AI Answer Engines“, SIGIR ‘26 ‡‡ Search Engine Land, „Google says normal SEO works … and LLMS.txt won’t be used“ (Juli 2025)