テクニカルGEO
マーケティングエンジニアのためのテクニカルGEO — robots.txt・構造化データ・llms.txt | Suparanku
テクニカルGEOの柱は2つ — クローラーアクセスとサーバーレンダリング済みHTMLです。OAI-SearchBot・PerplexityBot・ClaudeBotなどのリトリーバル系ボットを許可し、ログで検証します。構造化データは価格・評価・スペックなど実データを載せた場合に有効です。llms.txtは低コストの追加施策であり、引用要因ではありません。
マーケティングエンジニアの担当範囲
GEOのうち、コンテンツの中身はマーケターの仕事ですが、「AIがサイトを読めるか」はインフラの問題です。技術側が担う柱は2つ — クローラーアクセスとレンダリングです。どちらかが欠けると、ほかの施策は意味を持ちません。構造化データは効果が実証された特定のケースで有効であり、llms.txtは低コストの「あってもよい」追加施策です。本記事では、これらを実装単位で説明します。
1. AIクローラーを受け入れる
リトリーバル系ボットと学習用スクレイパーの区別
AIクローラーの役割は一様ではありません。リトリーバル系ボット(OAI-SearchBot・ChatGPT-User・PerplexityBot・ClaudeBot)はリアルタイムの回答生成と引用のためにページを取得します。これらをブロックすると、AIの回答からサイトが消えます。一方、学習用スクレイパー(GPTBot・anthropic-ai)はモデル学習用のデータ収集が目的で、ブロックしても影響は学習面のみで、検索での可視性には及びません。OpenAIは用途別にボットを公開しているため※1、学習を拒否しつつ検索・引用には出る、という設定が可能です。
これは実務上きわめて重要です。Otterly社が100万件超のAI引用を分析した結果(2026年)、73%のサイトにAIクローラーのアクセスを妨げる技術的障壁があることが判明しています※4。
# リトリーバル系 — 引用の源泉。AI可視性を求めるなら許可
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
# 学習用 — モデル学習にのみ影響。引用には影響しない
User-agent: GPTBot
Allow: /
注意点が2つあります。第一に、robots.txtは主要ボットには尊重されますが、すべてではありません — Bytespiderは無視します。第二に、User-Agentは詐称されます。実際の訪問者を確認するには、公式IPレンジ(例:OpenAIが公開する searchbot.json)と照合してログを検証してください。
CDNやWAFのボット対策がAIクローラーを誤ってブロックしていないかも確認してください。robots.txtで許可していても、ファイアウォールで403を返していれば意味がありません。
JavaScriptに依存しないHTML
Vercel社の分析によれば、主要AIクローラーはJavaScriptを実行しません。GPTBotの50万件超のリクエストを調べた結果、JS実行の痕跡はゼロでした※2。クライアントサイドレンダリングのみのページは、ChatGPT・Claude・Perplexity系のフェッチャーには空白に見えます。例外はGoogleで、ブロックされていなければAI Overviews向けにJavaScriptをレンダリングできます — ただし2025年12月以降、Googleは非200ステータスのページをレンダリング対象から完全に除外しています。安全なベースラインは引き続きSSR・SSG・プリレンダリングで、初期HTMLに本文が含まれる状態にすることです。
検証は簡単です:
curl -A "GPTBot" https://example.com/page/ | grep "重要なテキスト"
初期HTMLに本文が出てこなければ、レンダリング方式の見直しが必要です。
2. 構造化データ — 有効だが、想定とは違う場所で
まず前提を2つ。Googleは公式に「生成AI検索に構造化データは必須ではなく、AI機能のために追加すべき特別なschema.orgマークアップは存在しない」と明言しています※3。また、現時点で最も統制された実験 — Ahrefs社がJSON-LDを追加した1,885ページを対照群と比較した調査 — でも、どのAIプラットフォームでも引用の増加は確認されませんでした※5。
ただし、効果が実証された例外がひとつあり、そこから着手すべきです。
- 実データを載せたProduct / SoftwareApplication + Offer — 価格・評価・スペックといった具体的な属性を埋めたProduct/Reviewスキーマを持つページは、汎用的なスキーマ型の41.6%に対して61.7%の確率で引用され、効果はドメインオーソリティの低いサイトで最も顕著でした。明示的な価格表示は、SIGIR ‘26で発表された25万2千件の統制実験が特定した4つの引用「ゲートキーパー」のひとつでもあります※6。価値はタグそのものではなく、タグが運ぶ機械可読な事実にあります。価格の誤情報はAI回答で頻出するエラーであり、機械可読な正値の提供がそれに対抗します。
- Organization — エンティティを正規化するのはマークアップ自体ではなく、公式プロフィールへの
sameAsリンクと、ウェブ全体でのブランド情報の一貫性です。社名・所在地・表記ゆれの基準点として活用してください。 - FAQPage — ラッパー自体はシグナルになりません。純粋なQ&A形式は非Q&Aページと比べて影響度が−5.7%という測定結果が出ています。FAQが効くのは、各回答に数値・定義・比較といった証拠密度がある場合のみで、短く孤立した回答の羅列では効果がありません。
- Article + Person — 著者と日付はE-E-A-Tを支えますが、Google自身の位置づけに注意してください。E-E-A-Tは直接のランキング要因ではなく、その中核は信頼(Trust)であり、重みが最も大きいのはYMYL領域です。
実装後はリッチリザルトテストとSchema.orgバリデーターの両方で検証します。
3. llms.txt — 公開はする、ただし正体を理解して
まず正直な位置づけから。llms.txtは現時点でランキング要因でも引用要因でもありません。GoogleはサポートしておらずGoogle側に対応予定もなく(Gary Illyes氏)、John Mueller氏も「回答生成にllms.txtを使用していると確認された主要AIシステムは存在しない」と述べています※7。54件の研究を統合したメタ分析でも評価は9.5点中2.0点 — AI引用への影響を示す信頼できる証拠は見つかっていません。検証済みの挙動は唯一、OpenAIが一部サイトのllms.txtをクロールしていることだけです。
それでも公開する理由は、コストがほぼゼロだからです。サイト構造と主要コンテンツのMarkdown要約をルートに置くだけで、自動生成なら維持コストもかからず、将来エージェントが採用した場合への備えにもなります。
運用上の注意はひとつ:手書きで維持しないこと。手動更新のllms.txtは必ず陳腐化します。ビルド時にコンテンツ一覧から自動生成する仕組みにしてください(このサイトのllms.txtもビルド時に全記事・全用語から自動生成されています)。
検証チェックリスト
robots.txtで必要なリトリーバル系ボット(OAI-SearchBot・ChatGPT-User・PerplexityBot・ClaudeBot)を明示的に許可している- WAF/CDNがAIクローラーのUser-Agentに403を返していない(アクセスログで確認)
curl -A "GPTBot"で本文が初期HTMLに含まれる- 製品ページに価格・スペックの実データを載せたProduct/Offerスキーマがあり、Organizationスキーマに
sameAsリンクがある - llms.txtがビルド時に自動生成されている(低コストの追加施策 — 引用要因ではない)
- サーバーログのAIクローラー訪問を公式IPレンジと照合し、定期確認している
技術基盤が整っていれば、コンテンツ施策の効果がそのまま計測に現れます。逆にここが欠けていると、どれだけ良い記事を書いてもAIには届きません。
※1 OpenAI「Overview of OpenAI Crawlers」(2025年5月時点) ※2 Vercel「The rise of the AI crawler」(2025年1月) ※3 Google検索セントラル「AI Features and Your Website」(2025年12月時点) ※4 OtterlyAI「The AI Citation Economy: 1+ Million Data Points」(2026年) ※5 Ahrefs「We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.」(2026年5月) ※6 Vishwakarma et al.「What Gets Cited: Competitive GEO in AI Answer Engines」SIGIR ‘26 ※7 Search Engine Land「Google says normal SEO works … and LLMS.txt won’t be used」(2025年7月)
参考・出典
- OpenAI「Overview of OpenAI Crawlers」
- Vercel「The rise of the AI crawler」
- Google検索セントラル「AI Features and Your Website」
- Search Engine Land「Google says normal SEO works … and LLMS.txt won't be used」
- Ahrefs「We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.」
- Vishwakarma et al.(Sprinklr)「What Gets Cited: Competitive GEO in AI Answer Engines」(SIGIR '26)
- OtterlyAI「The AI Citation Economy: 1+ Million Data Points」