GPTBot, ClaudeBot, PerplexityBot — quem lê o quê e quando

TL;DR · 4 ideias-chave

Existem três papéis de bot: treino de modelo, índice de busca e requisição ao vivo pedida pelo usuário. Cada empresa usa user-agents distintos pra cada papel.
Pra um hotel, a resposta padrão é liberar todos os bots documentados — seu site é material de venda, não conteúdo editorial a proteger.
robots.txt liberado não basta: firewall e CDN podem barrar o bot na porta. Desde julho/2025, a Cloudflare bloqueia crawlers de IA por padrão em domínios novos.
A única forma de saber se os bots visitam seu site é olhar os logs do seu servidor. Ensino o comando neste post.

Por que você precisa conhecer esses robôs

Segundo pesquisa da Booking.com (2025), 63% dos viajantes brasileiros já usaram IA pra planejar ou apoiar uma viagem. Quando esse viajante pergunta "pousada pé na areia em Maragogi com café incluso", a resposta que ele recebe foi montada a partir do que os robôs de IA conseguiram ler na web — inclusive (ou não) no seu site.

No guia de GEO eu descrevi o ciclo em 4 etapas: crawl → estruturação → recuperação → geração. Este post é sobre a etapa zero. Se o crawl não acontece, o resto do trabalho — llms.txt, Schema, FAQ — vira benfeitoria num prédio sem porta de entrada.

E o detalhe traiçoeiro: bloquear um bot de IA não gera erro nenhum. Seu site continua no ar, o Google continua indexando, o Booking continua vendendo. A falha é silenciosa — você só some das respostas geradas, e ninguém te avisa.

Treino, busca e requisição do usuário: três papéis diferentes

O erro mais comum é tratar "bot de IA" como uma coisa só. As empresas de IA operam robôs com papéis distintos, com user-agents distintos, e você pode liberar ou bloquear cada um separadamente. São três papéis:

Papel	O que faz	O que você ganha liberando
Treino	Coleta conteúdo que pode ser usado pra treinar as próximas versões do modelo	Seu hotel entra no "conhecimento de fábrica" da IA — ela sabe de você mesmo sem buscar na web
Busca / índice	Indexa páginas pra alimentar respostas com citações e links (ChatGPT Search, Perplexity)	Seu site aparece como fonte citada, com link clicável, nas respostas com busca
Requisição do usuário	Abre sua página em tempo real quando um usuário pede ("veja as tarifas no site X")	O assistente consegue ler sua página ao vivo no momento exato da decisão de compra

A distinção importa porque a decisão de bloquear treino (comum em portais de notícia, que vivem de conteúdo) é outra decisão que bloquear busca ou requisição do usuário. Pra um hotel, como vou argumentar adiante, as três permissões jogam a seu favor.

O censo dos bots: quem é quem, segundo as docs oficiais

Tudo abaixo vem da documentação pública de cada empresa — linko cada uma. Não estou reportando frequência de visita nem comportamento observado por mim: isso varia por site e só os seus logs respondem (seção mais adiante).

OpenAI (ChatGPT)

A OpenAI documenta três user-agents e publica as faixas de IP de cada um:

GPTBot — crawler de treino. Coleta conteúdo que pode ser usado pra treinar modelos. Respeita robots.txt, segundo a doc.
OAI-SearchBot — bot de busca. Indexa sites pra que apareçam citados e linkados nos resultados do ChatGPT Search. A doc afirma que ele não é usado pra treino e respeita robots.txt.
ChatGPT-User — requisição do usuário. Acessa páginas quando um usuário (ou um GPT customizado) pede pra abrir um link. Não faz crawl automático em volume.

Tradução prática: bloquear GPTBot tira você do conhecimento de fábrica dos modelos da OpenAI. Bloquear OAI-SearchBot tira seu link das respostas com busca do ChatGPT. Bloquear ChatGPT-User impede a IA de ler seu site até quando o hóspede pede explicitamente.

Anthropic (Claude)

A Anthropic segue a mesma lógica de três papéis, documentados na central de suporte:

ClaudeBot — crawler principal, coleta conteúdo que pode ser usado no treino dos modelos Claude. Respeita robots.txt, segundo a doc.
Claude-SearchBot — indexação pra melhorar a qualidade dos resultados de busca do Claude.
Claude-User — requisição do usuário: acessa a página quando alguém pede ao Claude pra consultar um site específico.

Perplexity

A Perplexity documenta dois user-agents — e aqui tem uma nuance importante:

PerplexityBot — indexa páginas pra citar como fonte nas respostas. A doc afirma que o conteúdo não é usado pra treinar modelos de fundação, e que o bot respeita robots.txt.
Perplexity-User — requisição do usuário. A doc é transparente: como a visita foi pedida por um humano, esse agente geralmente ignora as regras do robots.txt. Ou seja: bloquear no robots.txt não impede a visita quando um usuário pergunta pelo seu hotel — o que, pra hotelaria, é uma boa notícia.

Google (Gemini e AI Overviews)

O caso do Google é o mais mal-entendido, e vale ler a lista oficial de crawlers com atenção:

Google-Extended não é um robô que visita seu site. É um token de controle no robots.txt: quem coleta a página continua sendo o Googlebot normal; o Google-Extended só diz se esse conteúdo pode ser usado pra treinar e alimentar o Gemini.
Bloquear Google-Extended não te remove dos AI Overviews nem afeta seu ranking na busca — os AI Overviews usam a infraestrutura do Googlebot comum. Também não existe, hoje, um jeito de sair só dos AI Overviews sem sair da busca (fora controles de snippet).
Consequência: se o Googlebot já lê seu site (e lê, se você aparece no Google), sua tarefa aqui é só não bloquear Google-Extended sem querer — coisa que alguns templates de robots.txt "anti-IA" copiados da internet fazem.

Meta (Meta AI)

A Meta documenta seus crawlers:

Meta-ExternalAgent — crawl pra treino de IA e melhoria de produtos.
Meta-ExternalFetcher — busca links em ações iniciadas pelo usuário; a doc avisa que ele pode ignorar robots.txt justamente por ser requisição humana.

Apple (Siri e Apple Intelligence)

Mesma arquitetura do Google, documentada na página do Applebot: quem visita é o Applebot (o mesmo que alimenta Siri e Spotlight há anos). O Applebot-Extended é um token de controle que decide se o conteúdo coletado pode treinar os modelos de fundação da Apple. Bloquear o Applebot-Extended não tira você da Siri; bloquear o Applebot tira.

ByteDance (Doubao / TikTok)

O Bytespider aparece em logs de servidores do mundo todo, mas a ByteDance não mantém documentação pública sobre ele, e relatos recorrentes da indústria apontam que ele nem sempre respeita robots.txt. É o único da lista em que a decisão não é sua de verdade: se quiser bloquear, precisa ser no servidor ou no firewall, não no robots.txt. Pra um hotel, eu não gastaria energia com isso.

Tabela-resumo

User-agent	Empresa	Papel	Respeita robots.txt?*
`GPTBot`	OpenAI	Treino	Sim
`OAI-SearchBot`	OpenAI	Busca / índice	Sim
`ChatGPT-User`	OpenAI	Requisição do usuário	Controlável na doc
`ClaudeBot`	Anthropic	Treino / crawl	Sim
`Claude-SearchBot`	Anthropic	Busca / índice	Sim
`Claude-User`	Anthropic	Requisição do usuário	Ver doc
`PerplexityBot`	Perplexity	Busca / índice	Sim
`Perplexity-User`	Perplexity	Requisição do usuário	Geralmente não (doc)
`Google-Extended`	Google	Token de controle (treino Gemini)	É a própria regra
`Meta-ExternalAgent`	Meta	Treino / produtos	Sim
`Applebot-Extended`	Apple	Token de controle (treino)	É a própria regra
`Bytespider`	ByteDance	Crawl (sem doc pública)	Relatos: nem sempre

* Segundo a documentação oficial de cada empresa, linkada acima. O comportamento real no seu site, só os seus logs confirmam.

O robots.txt de um hotel: o que liberar, o que bloquear

Aqui a hotelaria diverge da mídia. Um portal de notícias vive de conteúdo — pra ele, deixar uma IA absorver o acervo é entregar o produto de graça, e faz sentido bloquear bots de treino. O site de um hotel é o oposto: ele é material de venda. Cada página sua que uma IA lê é um vendedor a mais trabalhando. Você quer que o modelo saiba seu nome, suas tarifas, sua política de pet, sua distância da praia.

Portal de notícia protege conteúdo. Hotel distribui argumento de venda. O robots.txt certo é diferente pra cada um.

Minha recomendação padrão pra hotéis e pousadas:

Bot	Recomendação	Por quê
`GPTBot`	Liberar	Entra no conhecimento de fábrica dos modelos da OpenAI, que alimentam o ChatGPT
`OAI-SearchBot`	Liberar	Seu link citado nas respostas do ChatGPT Search
`ChatGPT-User`	Liberar	Deixa a IA ler tarifas e disponibilidade quando o hóspede pede
`ClaudeBot` + variantes	Liberar	Mesma lógica, ecossistema Claude
`PerplexityBot`	Liberar	Perplexity cita fontes com link em toda resposta — tráfego direto
`Google-Extended`	Liberar	Alimenta o Gemini; bloquear não te tira dos AI Overviews, só do Gemini
`Meta-ExternalAgent`	Liberar	Meta AI dentro do WhatsApp e Instagram — onde seu hóspede já está
`Applebot` / `-Extended`	Liberar	Siri e Apple Intelligence respondem pergunta de viagem também
`Bytespider`	Indiferente	Sem doc oficial e sem garantia de obedecer; não vale a energia

Em robots.txt, "liberar" na prática costuma significar não escrever nada bloqueando — a ausência de regra já é permissão. Mas ser explícito tem valor de auditoria: registra pra você mesmo (e pra quem herdar o site) que a decisão foi tomada, e protege contra template copiado que bloqueava tudo. Um robots.txt explícito pra hotel:

# robots.txt — exemplo pra hotel/pousada
# Bots de IA: liberados de propósito. Não remova sem entender o custo.

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

User-agent: Applebot
Allow: /

User-agent: Applebot-Extended
Allow: /

# Demais robôs (inclui Googlebot)
User-agent: *
Allow: /
Sitemap: https://seuhotel.com.br/sitemap.xml

Se você quiser proteger áreas específicas (admin, carrinho, área do hóspede), use Disallow só nesses caminhos, pra todos os agentes — não bloqueie o site inteiro pra um agente específico.

O detalhe que anula tudo: firewall e CDN

robots.txt é um pedido educado; firewall é uma porta trancada. Mesmo com robots.txt liberado, seu provedor de hospedagem, plugin de segurança (Wordfence e afins) ou CDN pode estar devolvendo erro 403 pros bots de IA. O caso mais relevante: em julho de 2025 a Cloudflare passou a bloquear crawlers de IA por padrão em domínios novos. Se seu site está atrás da Cloudflare — e muito site de hotel está, às vezes sem o dono saber, via agência — vale abrir o painel e conferir as configurações de "AI Crawlers" / "Bots". A intenção da Cloudflare (proteger conteúdo editorial) é legítima; só não é a configuração certa pra quem quer ser recomendado.

Como conferir nos logs que os bots visitam seu site

Nenhuma dessas empresas publica frequência de crawl ("visitamos a cada X dias") — e desconfie de quem afirma isso com precisão. A frequência varia com o tamanho, a autoridade e a taxa de mudança de cada site. A única fonte de verdade sobre o seu site são os logs de acesso do seu servidor. Cada visita de bot fica registrada lá com data, página, código de resposta e user-agent.

1. Ache os logs

Hospedagem compartilhada (cPanel/Plesk): procure "Acesso Bruto" / "Raw Access Logs" ou o visualizador de logs do painel.
VPS ou servidor próprio: normalmente em /var/log/nginx/access.log ou /var/log/apache2/access.log.
Cloudflare: o painel mostra tráfego de bots por user-agent (Analytics → Security/Bots), mesmo sem acesso ao servidor de origem.
Site feito por agência: peça pra agência rodar a verificação abaixo e te mandar o resultado. É pedido de uma linha.

2. Filtre pelos user-agents

# Quantas visitas cada bot de IA fez (Linux/Mac, log padrão Apache/Nginx)
grep -iEo 'GPTBot|OAI-SearchBot|ChatGPT-User|ClaudeBot|Claude-User|Claude-SearchBot|PerplexityBot|Perplexity-User|Meta-ExternalAgent|Applebot|Bytespider' access.log | sort | uniq -c | sort -rn

# Quais páginas o GPTBot leu, e com qual código de resposta
grep -i 'GPTBot' access.log | awk '{print $9, $7}' | sort | uniq -c | sort -rn | head -30

O que interpretar:

Código 200 = o bot leu a página. Ótimo.
Código 403 ou 429 = o bot bateu e foi barrado — provavelmente firewall/CDN, mesmo com robots.txt liberado. É exatamente o problema silencioso deste post.
Bot nenhum aparece = ou o site é novo/sem autoridade (os bots ainda não te acharam), ou algo barra as requisições antes do log. Confira o caminho CDN → firewall → robots.txt, nessa ordem.
Quais páginas eles leem importa tanto quanto se leem: se o bot só visita a home e ignora a página de quartos e a FAQ, seu conteúdo mais vendedor está fora do alcance (linkagem interna fraca ou conteúdo carregado só via JavaScript).

3. Confirme que o bot é quem diz ser

Qualquer script pode se apresentar como "GPTBot" — user-agent é só um texto declarado. Pra separar bot oficial de impostor, a OpenAI publica as faixas de IP oficiais de cada agente, e Google e Apple documentam verificação por DNS reverso. Pra decisão de marketing (saber se as IAs te leem), a checagem por user-agent já resolve; a validação por IP importa mais se você for usar esses números pra decisões de infraestrutura.

Um dado do nosso Estudo GEO Hotelaria 2026 que conversa direto com isso: dos 609 sites de hotéis e pousadas que escaneamos entre maio e julho, 11% estavam fora do ar no momento da coleta. Site que cai pra visitante humano cai pra bot também — e o bot não volta com boa vontade. Antes de discutir crawler, garanta uptime.

O custo de bloquear sem querer

Vamos dimensionar o que está em jogo, com números públicos e verificáveis:

A PhocusWire reportou que só cerca de 16% da oferta hoteleira global aparece nas respostas de IA. O canal que mais cresce na descoberta de viagem enxerga menos de um quinto dos hotéis do mundo.
A Seer Interactive (set/2025) mediu, em 3.119 queries, +35% de cliques pra marcas citadas em AI Overviews versus não citadas.
O estudo de Princeton (Aggarwal et al., 2024) mostrou que táticas de otimização de conteúdo elevam em até 115% a visibilidade em respostas de LLMs — estudo geral, não específico de hotelaria, mas o mecanismo é o mesmo.

Quem bloqueia um bot de IA sem querer está do lado errado dessas três estatísticas ao mesmo tempo. E tem um agravante específico da hotelaria: as OTAs não bloqueiam. Booking, Expedia e afins investem pesado pra serem legíveis por IA. Se o seu site é ilegível, a IA não fica em silêncio sobre seu hotel — ela responde com a versão da OTA: o preço com comissão, a política resumida, a descrição genérica. Escrevi sobre essa disputa de narrativa em OTAs vs LLMs.

Agora, o lado bom — e é aqui que eu vejo janela, não tragédia. No mesmo Estudo GEO Hotelaria 2026 (425 sites auditados com o Protocolo Arsenal de 22 sinais), 62% não têm llms.txt, 43% não têm Schema nenhum e só 24% têm Schema corretamente tipado como hotel. Em Campos do Jordão, 83% dos sites auditados não têm llms.txt e 100% não têm Schema tipado; em Jericoacoara, também 100% sem Schema tipado. A régua do setor está no chão. Quem simplesmente libera o crawl e faz o básico bem-feito não está alcançando o pelotão — está saindo na frente dele. No nosso benchmark de 280 queries em 7 cidades, deu pra ver na prática como cada IA usa (ou não) as fontes que consegue ler.

Checklist prático

Abra seuhotel.com.br/robots.txt no navegador. Procure por GPTBot, ClaudeBot, PerplexityBot, Google-Extended com Disallow: /. Achou? É bloqueio, e provavelmente veio de template.
Se o site usa Cloudflare ou plugin de segurança, confira a configuração de bots de IA — o padrão pode ser bloquear, mesmo com robots.txt liberado.
Rode o grep nos logs (ou peça pra agência): quais bots visitam, quais páginas, com qual código de resposta.
403/429 pra bot de IA? Ache a camada que barra (CDN → firewall → servidor) e libere os agentes documentados.
Nenhum bot aparece? Verifique uptime, sitemap enviado e se o conteúdo existe no HTML (não só via JavaScript).
Crawl liberado? Agora sim vale investir no que os bots vão ler: llms.txt, Schema tipado e FAQ — os 22 sinais do Protocolo Arsenal são o mapa completo.

Perguntas frequentes

Liberar esses bots deixa meu site mais lento?

Pra um site de hotel (dezenas de páginas, não milhões), o volume de requisições dos bots documentados é irrelevante perto do tráfego humano. Se um bot específico exagerar, dá pra limitar taxa no servidor sem bloquear — mas resolva esse problema quando (e se) ele existir nos seus logs, não antes.

Com que frequência o GPTBot visita um site?

A OpenAI não publica frequência, e nenhuma das outras empresas publica. Varia por site. A resposta honesta é: rode o grep nos seus logs uma vez por mês e você terá a frequência real do seu site — que vale mais que qualquer média de terceiros.

Bloquear Google-Extended me tira do Google?

Não. Google-Extended só controla o uso do seu conteúdo pelo Gemini (treino e grounding). Busca orgânica e AI Overviews continuam funcionando via Googlebot normal. Mas pra um hotel não há motivo pra bloquear: é abrir mão do Gemini de graça.

Meu site é Wix/Squarespace e não consigo editar robots.txt. E agora?

Primeiro confira o que a plataforma gera por padrão (abra /robots.txt no navegador). A maioria não bloqueia bots de IA por padrão, então você provavelmente já está liberado. O limite dessas plataformas costuma aparecer depois, no llms.txt e no Schema — detalhei as opções por plataforma no guia de llms.txt.

E se eu não quiser que IA treine com meu conteúdo, mas quiser aparecer nas buscas de IA?

Dá pra separar: bloqueie só os agentes de treino (GPTBot, Meta-ExternalAgent, Google-Extended, Applebot-Extended) e libere os de busca e requisição do usuário (OAI-SearchBot, ChatGPT-User, PerplexityBot, Claude-SearchBot). É a configuração típica de portal de conteúdo. Pra hotel, eu não recomendo — estar no conhecimento de fábrica do modelo é vantagem, não custo.

Seu site está legível pras IAs? Descubra em 2 minutos

O Score Arsenal é gratuito: cola a URL do seu hotel e recebe a leitura dos sinais técnicos de prontidão pra IA — incluindo o que está barrando os bots. E se quiser o raio-X completo, a Auditoria de Presença em IA (R$ 297) mapeia como ChatGPT, Claude, Perplexity e Gemini enxergam seu hotel hoje, query por query.

Rodar o Score grátis →

Ou conheça a Auditoria de Presença em IA · R$ 297