← 블로그로 돌아가기

테크니컬 GEO

마케팅 엔지니어를 위한 테크니컬 GEO — robots.txt·구조화 데이터·llms.txt | Suparanku

테크니컬 GEO의 기둥은 두 가지 — 크롤러 접근과 서버 렌더링된 HTML입니다. OAI-SearchBot, PerplexityBot, ClaudeBot 같은 리트리벌 봇을 허용하고 로그로 검증하세요. 구조화 데이터는 가격·평점·사양 등 실제 데이터를 담을 때 효과가 있습니다. llms.txt는 저비용 추가 항목일 뿐, 인용 요인이 아닙니다.

Maksim Gurchenkov (CEO, Apurichoumi Inc.)

GEO에서 엔지니어링이 담당하는 것

콘텐츠의 내용은 마케터의 일이지만, AI가 사이트를 읽을 수 있는가는 인프라 문제입니다. 기술 측이 담당하는 두 기둥은 크롤러 접근과 렌더링입니다 — 둘 중 하나라도 무너지면 나머지는 의미가 없습니다. 구조화 데이터는 효과가 입증된 특정 사례에서 유효하고, llms.txt는 저비용의 선택적 추가 항목입니다. 이 가이드는 이 모두를 구현 단위로 다룹니다.

1. AI 크롤러 받아들이기

리트리벌 봇과 학습용 스크레이퍼 구분

AI 크롤러가 모두 같은 일을 하는 것은 아닙니다. 리트리벌 봇 — OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot — 은 실시간 답변과 인용을 위해 페이지를 가져옵니다. 이들을 차단하면 AI 답변에서 사라집니다. 학습용 스크레이퍼 — GPTBot, anthropic-ai — 는 모델 학습용 데이터를 수집하며, 차단해도 학습에만 영향을 줄 뿐 검색 가시성에는 영향이 없습니다. OpenAI는 봇을 용도별로 문서화하고 있으므로,* 학습은 거부하면서 검색·인용에는 노출되는 설정이 가능합니다.

이는 실무적으로 매우 중요합니다. Otterly가 100만 건 이상의 AI 인용을 분석한 결과(2026년), 73%의 사이트에 AI 크롤러 접근을 막는 기술적 장벽이 있는 것으로 나타났습니다.†

# 리트리벌 — 인용의 원천. AI 가시성을 원하면 허용
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

# 학습용 — 모델 학습에만 영향. 인용에는 영향 없음
User-agent: GPTBot
Allow: /

주의할 점이 두 가지 있습니다. 첫째, robots.txt는 주요 봇은 존중하지만 모두가 그런 것은 아닙니다 — Bytespider는 무시합니다. 둘째, user agent는 위조됩니다. 실제 방문자를 확인하려면 로그 기록을 공식 IP 대역(예: OpenAI가 공개하는 searchbot.json)과 대조해 검증하세요.

CDN이나 WAF의 봇 보호가 AI 크롤러를 조용히 차단하고 있지 않은지도 확인하세요. 방화벽이 403을 반환하면 robots.txt의 허용 규칙은 의미가 없습니다.

JavaScript에 의존하지 않는 HTML

Vercel의 분석에 따르면 주요 AI 크롤러는 JavaScript를 실행하지 않습니다 — 50만 건 이상의 GPTBot 요청에서 JS 실행 흔적 제로.** 클라이언트에서만 렌더링되는 페이지는 ChatGPT·Claude·Perplexity 계열 페처에게는 빈 페이지입니다. 예외는 Google로, 차단되지 않았다면 AI Overviews를 위해 JavaScript를 렌더링할 수 있습니다 — 다만 2025년 12월부터 Google은 200이 아닌 상태 코드의 페이지를 렌더링 대상에서 완전히 제외합니다. 안전한 기본선은 여전히 SSR·SSG·프리렌더링으로, 본문 텍스트가 초기 HTML에 포함되게 하는 것입니다.

검증은 명령어 하나입니다:

curl -A "GPTBot" https://example.com/page/ | grep "핵심 문구"

초기 HTML에 본문이 없다면 렌더링 전략을 재검토해야 합니다.

2. 구조화 데이터 — 유용하지만, 기대와는 다른 지점에서

먼저 두 가지 사실부터. Google은 생성형 AI 검색에 구조화 데이터가 필수가 아니며, AI 기능을 위해 추가해야 할 특별한 schema.org 마크업은 존재하지 않는다고 공식적으로 밝히고 있습니다.*** 그리고 현재까지 가장 엄밀한 통제 실험 — Ahrefs가 JSON-LD를 추가한 1,885개 페이지를 대응 표본 대조군과 비교한 조사 — 에서도 어떤 AI 플랫폼에서도 인용 증가가 확인되지 않았습니다.††

다만 입증된 예외가 하나 있으며, 거기서 시작해야 합니다.

구현 후에는 리치 결과 테스트와 Schema.org 검증기 양쪽으로 확인하세요.

3. llms.txt — 게시는 하되, 정체를 알고

먼저 정직한 위치 정립부터. llms.txt는 현재 랭킹 요인도 인용 요인도 아닙니다. Google은 지원하지 않으며 지원할 계획도 없고(Gary Illyes), John Mueller는 답변 생성에 llms.txt를 사용한다고 확인된 주요 AI 시스템은 없다고 밝혔습니다.‡‡ 54건의 연구를 통합한 메타 분석에서도 9.5점 만점에 2.0점 — AI 인용에 영향을 준다는 신뢰할 만한 증거는 없습니다. 검증된 동작은 단 하나, OpenAI가 일부 사이트의 llms.txt를 크롤링한다는 것뿐입니다.

그런데도 게시하는 이유는 비용이 거의 들지 않기 때문입니다. 사이트 구조와 핵심 콘텐츠의 Markdown 요약을 루트에 두는 것은 자동 생성이라면 유지 비용이 없고, 향후 에이전트가 채택할 경우에 대한 대비도 됩니다.

운영 규칙은 하나: 절대 손으로 유지하지 말 것. 수동 편집되는 llms.txt는 반드시 낡아갑니다. 콘텐츠 컬렉션에서 빌드 시 자동 생성하세요 — 이 사이트의 llms.txt도 모든 기사와 용어집 항목에서 자동으로 만들어집니다.

검증 체크리스트

  1. robots.txt가 원하는 리트리벌 봇(OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot)을 명시적으로 허용한다
  2. WAF/CDN이 AI 크롤러 user agent에 403을 반환하지 않는다 (접근 로그 확인)
  3. curl -A "GPTBot"으로 초기 HTML에 본문이 보인다
  4. 제품 페이지에 실제 가격·사양을 담은 속성 풍부한 Product/Offer 스키마가 있고, Organization 스키마에 sameAs 링크가 있다
  5. llms.txt가 빌드 시 생성된다 (저비용 추가 항목 — 인용 요인 아님)
  6. 서버 로그의 AI 크롤러 방문을 공식 IP 대역과 대조해 검증하고 정기적으로 검토한다

이 토대가 갖춰지면 콘텐츠 개선이 그대로 측정에 나타납니다. 빠져 있으면, 세계 최고의 기사도 AI에게는 보이지 않습니다.

* OpenAI, “Overview of OpenAI Crawlers” (2025년 5월 기준) ** Vercel, “The rise of the AI crawler” (2025년 1월) *** Google Search Central, “AI Features and Your Website” (2025년 12월 기준) † OtterlyAI, “The AI Citation Economy: 1+ Million Data Points” (2026년) †† Ahrefs, “We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.” (2026년 5월) ‡ Vishwakarma et al., “What Gets Cited: Competitive GEO in AI Answer Engines”, SIGIR ‘26 ‡‡ Search Engine Land, “Google says normal SEO works … and LLMS.txt won’t be used” (2025년 7월)

참고·출처

  1. OpenAI, “Overview of OpenAI Crawlers”
  2. Vercel, “The rise of the AI crawler”
  3. Google Search Central, “AI Features and Your Website”
  4. Search Engine Land, “Google says normal SEO works … and LLMS.txt won't be used”
  5. Ahrefs, “We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.”
  6. Vishwakarma et al. (Sprinklr), “What Gets Cited: Competitive GEO in AI Answer Engines” (SIGIR '26)
  7. OtterlyAI, “The AI Citation Economy: 1+ Million Data Points”
무료 진단 영업팀에 문의