Blog · Fundamentos · P01·05

GPTBot, ClaudeBot, PerplexityBot — quem lê o quê e quando

Antes de qualquer IA recomendar seu hotel, um robô precisa conseguir ler seu site. Este é o guia dos crawlers de IA pra hoteleiro: quem são, o que cada um faz, o que liberar no robots.txt e como conferir nos logs que eles realmente visitam.

TL;DR · 4 ideias-chave
  • Existem três papéis de bot: treino de modelo, índice de busca e requisição ao vivo pedida pelo usuário. Cada empresa usa user-agents distintos pra cada papel.
  • Pra um hotel, a resposta padrão é liberar todos os bots documentados — seu site é material de venda, não conteúdo editorial a proteger.
  • robots.txt liberado não basta: firewall e CDN podem barrar o bot na porta. Desde julho/2025, a Cloudflare bloqueia crawlers de IA por padrão em domínios novos.
  • A única forma de saber se os bots visitam seu site é olhar os logs do seu servidor. Ensino o comando neste post.

Por que você precisa conhecer esses robôs

Segundo pesquisa da Booking.com (2025), 63% dos viajantes brasileiros já usaram IA pra planejar ou apoiar uma viagem. Quando esse viajante pergunta "pousada pé na areia em Maragogi com café incluso", a resposta que ele recebe foi montada a partir do que os robôs de IA conseguiram ler na web — inclusive (ou não) no seu site.

No guia de GEO eu descrevi o ciclo em 4 etapas: crawl → estruturação → recuperação → geração. Este post é sobre a etapa zero. Se o crawl não acontece, o resto do trabalho — llms.txt, Schema, FAQ — vira benfeitoria num prédio sem porta de entrada.

E o detalhe traiçoeiro: bloquear um bot de IA não gera erro nenhum. Seu site continua no ar, o Google continua indexando, o Booking continua vendendo. A falha é silenciosa — você só some das respostas geradas, e ninguém te avisa.

Treino, busca e requisição do usuário: três papéis diferentes

O erro mais comum é tratar "bot de IA" como uma coisa só. As empresas de IA operam robôs com papéis distintos, com user-agents distintos, e você pode liberar ou bloquear cada um separadamente. São três papéis:

PapelO que fazO que você ganha liberando
TreinoColeta conteúdo que pode ser usado pra treinar as próximas versões do modeloSeu hotel entra no "conhecimento de fábrica" da IA — ela sabe de você mesmo sem buscar na web
Busca / índiceIndexa páginas pra alimentar respostas com citações e links (ChatGPT Search, Perplexity)Seu site aparece como fonte citada, com link clicável, nas respostas com busca
Requisição do usuárioAbre sua página em tempo real quando um usuário pede ("veja as tarifas no site X")O assistente consegue ler sua página ao vivo no momento exato da decisão de compra

A distinção importa porque a decisão de bloquear treino (comum em portais de notícia, que vivem de conteúdo) é outra decisão que bloquear busca ou requisição do usuário. Pra um hotel, como vou argumentar adiante, as três permissões jogam a seu favor.

O censo dos bots: quem é quem, segundo as docs oficiais

Tudo abaixo vem da documentação pública de cada empresa — linko cada uma. Não estou reportando frequência de visita nem comportamento observado por mim: isso varia por site e só os seus logs respondem (seção mais adiante).

OpenAI (ChatGPT)

A OpenAI documenta três user-agents e publica as faixas de IP de cada um:

Tradução prática: bloquear GPTBot tira você do conhecimento de fábrica dos modelos da OpenAI. Bloquear OAI-SearchBot tira seu link das respostas com busca do ChatGPT. Bloquear ChatGPT-User impede a IA de ler seu site até quando o hóspede pede explicitamente.

Anthropic (Claude)

A Anthropic segue a mesma lógica de três papéis, documentados na central de suporte:

Perplexity

A Perplexity documenta dois user-agents — e aqui tem uma nuance importante:

Google (Gemini e AI Overviews)

O caso do Google é o mais mal-entendido, e vale ler a lista oficial de crawlers com atenção:

Meta (Meta AI)

A Meta documenta seus crawlers:

Apple (Siri e Apple Intelligence)

Mesma arquitetura do Google, documentada na página do Applebot: quem visita é o Applebot (o mesmo que alimenta Siri e Spotlight há anos). O Applebot-Extended é um token de controle que decide se o conteúdo coletado pode treinar os modelos de fundação da Apple. Bloquear o Applebot-Extended não tira você da Siri; bloquear o Applebot tira.

ByteDance (Doubao / TikTok)

O Bytespider aparece em logs de servidores do mundo todo, mas a ByteDance não mantém documentação pública sobre ele, e relatos recorrentes da indústria apontam que ele nem sempre respeita robots.txt. É o único da lista em que a decisão não é sua de verdade: se quiser bloquear, precisa ser no servidor ou no firewall, não no robots.txt. Pra um hotel, eu não gastaria energia com isso.

Tabela-resumo

User-agentEmpresaPapelRespeita robots.txt?*
GPTBotOpenAITreinoSim
OAI-SearchBotOpenAIBusca / índiceSim
ChatGPT-UserOpenAIRequisição do usuárioControlável na doc
ClaudeBotAnthropicTreino / crawlSim
Claude-SearchBotAnthropicBusca / índiceSim
Claude-UserAnthropicRequisição do usuárioVer doc
PerplexityBotPerplexityBusca / índiceSim
Perplexity-UserPerplexityRequisição do usuárioGeralmente não (doc)
Google-ExtendedGoogleToken de controle (treino Gemini)É a própria regra
Meta-ExternalAgentMetaTreino / produtosSim
Applebot-ExtendedAppleToken de controle (treino)É a própria regra
BytespiderByteDanceCrawl (sem doc pública)Relatos: nem sempre

* Segundo a documentação oficial de cada empresa, linkada acima. O comportamento real no seu site, só os seus logs confirmam.

O robots.txt de um hotel: o que liberar, o que bloquear

Aqui a hotelaria diverge da mídia. Um portal de notícias vive de conteúdo — pra ele, deixar uma IA absorver o acervo é entregar o produto de graça, e faz sentido bloquear bots de treino. O site de um hotel é o oposto: ele é material de venda. Cada página sua que uma IA lê é um vendedor a mais trabalhando. Você quer que o modelo saiba seu nome, suas tarifas, sua política de pet, sua distância da praia.

Portal de notícia protege conteúdo. Hotel distribui argumento de venda. O robots.txt certo é diferente pra cada um.

Minha recomendação padrão pra hotéis e pousadas:

BotRecomendaçãoPor quê
GPTBotLiberarEntra no conhecimento de fábrica dos modelos da OpenAI, que alimentam o ChatGPT
OAI-SearchBotLiberarSeu link citado nas respostas do ChatGPT Search
ChatGPT-UserLiberarDeixa a IA ler tarifas e disponibilidade quando o hóspede pede
ClaudeBot + variantesLiberarMesma lógica, ecossistema Claude
PerplexityBotLiberarPerplexity cita fontes com link em toda resposta — tráfego direto
Google-ExtendedLiberarAlimenta o Gemini; bloquear não te tira dos AI Overviews, só do Gemini
Meta-ExternalAgentLiberarMeta AI dentro do WhatsApp e Instagram — onde seu hóspede já está
Applebot / -ExtendedLiberarSiri e Apple Intelligence respondem pergunta de viagem também
BytespiderIndiferenteSem doc oficial e sem garantia de obedecer; não vale a energia

Em robots.txt, "liberar" na prática costuma significar não escrever nada bloqueando — a ausência de regra já é permissão. Mas ser explícito tem valor de auditoria: registra pra você mesmo (e pra quem herdar o site) que a decisão foi tomada, e protege contra template copiado que bloqueava tudo. Um robots.txt explícito pra hotel:

# robots.txt — exemplo pra hotel/pousada
# Bots de IA: liberados de propósito. Não remova sem entender o custo.

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

User-agent: Applebot
Allow: /

User-agent: Applebot-Extended
Allow: /

# Demais robôs (inclui Googlebot)
User-agent: *
Allow: /
Sitemap: https://seuhotel.com.br/sitemap.xml

Se você quiser proteger áreas específicas (admin, carrinho, área do hóspede), use Disallow só nesses caminhos, pra todos os agentes — não bloqueie o site inteiro pra um agente específico.

O detalhe que anula tudo: firewall e CDN

robots.txt é um pedido educado; firewall é uma porta trancada. Mesmo com robots.txt liberado, seu provedor de hospedagem, plugin de segurança (Wordfence e afins) ou CDN pode estar devolvendo erro 403 pros bots de IA. O caso mais relevante: em julho de 2025 a Cloudflare passou a bloquear crawlers de IA por padrão em domínios novos. Se seu site está atrás da Cloudflare — e muito site de hotel está, às vezes sem o dono saber, via agência — vale abrir o painel e conferir as configurações de "AI Crawlers" / "Bots". A intenção da Cloudflare (proteger conteúdo editorial) é legítima; só não é a configuração certa pra quem quer ser recomendado.

Como conferir nos logs que os bots visitam seu site

Nenhuma dessas empresas publica frequência de crawl ("visitamos a cada X dias") — e desconfie de quem afirma isso com precisão. A frequência varia com o tamanho, a autoridade e a taxa de mudança de cada site. A única fonte de verdade sobre o seu site são os logs de acesso do seu servidor. Cada visita de bot fica registrada lá com data, página, código de resposta e user-agent.

1. Ache os logs

2. Filtre pelos user-agents

# Quantas visitas cada bot de IA fez (Linux/Mac, log padrão Apache/Nginx)
grep -iEo 'GPTBot|OAI-SearchBot|ChatGPT-User|ClaudeBot|Claude-User|Claude-SearchBot|PerplexityBot|Perplexity-User|Meta-ExternalAgent|Applebot|Bytespider' access.log | sort | uniq -c | sort -rn

# Quais páginas o GPTBot leu, e com qual código de resposta
grep -i 'GPTBot' access.log | awk '{print $9, $7}' | sort | uniq -c | sort -rn | head -30

O que interpretar:

3. Confirme que o bot é quem diz ser

Qualquer script pode se apresentar como "GPTBot" — user-agent é só um texto declarado. Pra separar bot oficial de impostor, a OpenAI publica as faixas de IP oficiais de cada agente, e Google e Apple documentam verificação por DNS reverso. Pra decisão de marketing (saber se as IAs te leem), a checagem por user-agent já resolve; a validação por IP importa mais se você for usar esses números pra decisões de infraestrutura.

Um dado do nosso Estudo GEO Hotelaria 2026 que conversa direto com isso: dos 609 sites de hotéis e pousadas que escaneamos entre maio e julho, 11% estavam fora do ar no momento da coleta. Site que cai pra visitante humano cai pra bot também — e o bot não volta com boa vontade. Antes de discutir crawler, garanta uptime.

O custo de bloquear sem querer

Vamos dimensionar o que está em jogo, com números públicos e verificáveis:

Quem bloqueia um bot de IA sem querer está do lado errado dessas três estatísticas ao mesmo tempo. E tem um agravante específico da hotelaria: as OTAs não bloqueiam. Booking, Expedia e afins investem pesado pra serem legíveis por IA. Se o seu site é ilegível, a IA não fica em silêncio sobre seu hotel — ela responde com a versão da OTA: o preço com comissão, a política resumida, a descrição genérica. Escrevi sobre essa disputa de narrativa em OTAs vs LLMs.

Agora, o lado bom — e é aqui que eu vejo janela, não tragédia. No mesmo Estudo GEO Hotelaria 2026 (425 sites auditados com o Protocolo Arsenal de 22 sinais), 62% não têm llms.txt, 43% não têm Schema nenhum e só 24% têm Schema corretamente tipado como hotel. Em Campos do Jordão, 83% dos sites auditados não têm llms.txt e 100% não têm Schema tipado; em Jericoacoara, também 100% sem Schema tipado. A régua do setor está no chão. Quem simplesmente libera o crawl e faz o básico bem-feito não está alcançando o pelotão — está saindo na frente dele. No nosso benchmark de 280 queries em 7 cidades, deu pra ver na prática como cada IA usa (ou não) as fontes que consegue ler.

Checklist prático

  1. Abra seuhotel.com.br/robots.txt no navegador. Procure por GPTBot, ClaudeBot, PerplexityBot, Google-Extended com Disallow: /. Achou? É bloqueio, e provavelmente veio de template.
  2. Se o site usa Cloudflare ou plugin de segurança, confira a configuração de bots de IA — o padrão pode ser bloquear, mesmo com robots.txt liberado.
  3. Rode o grep nos logs (ou peça pra agência): quais bots visitam, quais páginas, com qual código de resposta.
  4. 403/429 pra bot de IA? Ache a camada que barra (CDN → firewall → servidor) e libere os agentes documentados.
  5. Nenhum bot aparece? Verifique uptime, sitemap enviado e se o conteúdo existe no HTML (não só via JavaScript).
  6. Crawl liberado? Agora sim vale investir no que os bots vão ler: llms.txt, Schema tipado e FAQ — os 22 sinais do Protocolo Arsenal são o mapa completo.

Perguntas frequentes

Liberar esses bots deixa meu site mais lento?

Pra um site de hotel (dezenas de páginas, não milhões), o volume de requisições dos bots documentados é irrelevante perto do tráfego humano. Se um bot específico exagerar, dá pra limitar taxa no servidor sem bloquear — mas resolva esse problema quando (e se) ele existir nos seus logs, não antes.

Com que frequência o GPTBot visita um site?

A OpenAI não publica frequência, e nenhuma das outras empresas publica. Varia por site. A resposta honesta é: rode o grep nos seus logs uma vez por mês e você terá a frequência real do seu site — que vale mais que qualquer média de terceiros.

Bloquear Google-Extended me tira do Google?

Não. Google-Extended só controla o uso do seu conteúdo pelo Gemini (treino e grounding). Busca orgânica e AI Overviews continuam funcionando via Googlebot normal. Mas pra um hotel não há motivo pra bloquear: é abrir mão do Gemini de graça.

Meu site é Wix/Squarespace e não consigo editar robots.txt. E agora?

Primeiro confira o que a plataforma gera por padrão (abra /robots.txt no navegador). A maioria não bloqueia bots de IA por padrão, então você provavelmente já está liberado. O limite dessas plataformas costuma aparecer depois, no llms.txt e no Schema — detalhei as opções por plataforma no guia de llms.txt.

E se eu não quiser que IA treine com meu conteúdo, mas quiser aparecer nas buscas de IA?

Dá pra separar: bloqueie só os agentes de treino (GPTBot, Meta-ExternalAgent, Google-Extended, Applebot-Extended) e libere os de busca e requisição do usuário (OAI-SearchBot, ChatGPT-User, PerplexityBot, Claude-SearchBot). É a configuração típica de portal de conteúdo. Pra hotel, eu não recomendo — estar no conhecimento de fábrica do modelo é vantagem, não custo.

Seu site está legível pras IAs? Descubra em 2 minutos

O Score Arsenal é gratuito: cola a URL do seu hotel e recebe a leitura dos sinais técnicos de prontidão pra IA — incluindo o que está barrando os bots. E se quiser o raio-X completo, a Auditoria de Presença em IA (R$ 297) mapeia como ChatGPT, Claude, Perplexity e Gemini enxergam seu hotel hoje, query por query.

Rodar o Score grátis →

Ou conheça a Auditoria de Presença em IA · R$ 297


Próxima leitura