- Existem três papéis de bot: treino de modelo, índice de busca e requisição ao vivo pedida pelo usuário. Cada empresa usa user-agents distintos pra cada papel.
- Pra um hotel, a resposta padrão é liberar todos os bots documentados — seu site é material de venda, não conteúdo editorial a proteger.
- robots.txt liberado não basta: firewall e CDN podem barrar o bot na porta. Desde julho/2025, a Cloudflare bloqueia crawlers de IA por padrão em domínios novos.
- A única forma de saber se os bots visitam seu site é olhar os logs do seu servidor. Ensino o comando neste post.
Por que você precisa conhecer esses robôs
Segundo pesquisa da Booking.com (2025), 63% dos viajantes brasileiros já usaram IA pra planejar ou apoiar uma viagem. Quando esse viajante pergunta "pousada pé na areia em Maragogi com café incluso", a resposta que ele recebe foi montada a partir do que os robôs de IA conseguiram ler na web — inclusive (ou não) no seu site.
No guia de GEO eu descrevi o ciclo em 4 etapas: crawl → estruturação → recuperação → geração. Este post é sobre a etapa zero. Se o crawl não acontece, o resto do trabalho — llms.txt, Schema, FAQ — vira benfeitoria num prédio sem porta de entrada.
E o detalhe traiçoeiro: bloquear um bot de IA não gera erro nenhum. Seu site continua no ar, o Google continua indexando, o Booking continua vendendo. A falha é silenciosa — você só some das respostas geradas, e ninguém te avisa.
Treino, busca e requisição do usuário: três papéis diferentes
O erro mais comum é tratar "bot de IA" como uma coisa só. As empresas de IA operam robôs com papéis distintos, com user-agents distintos, e você pode liberar ou bloquear cada um separadamente. São três papéis:
| Papel | O que faz | O que você ganha liberando |
|---|---|---|
| Treino | Coleta conteúdo que pode ser usado pra treinar as próximas versões do modelo | Seu hotel entra no "conhecimento de fábrica" da IA — ela sabe de você mesmo sem buscar na web |
| Busca / índice | Indexa páginas pra alimentar respostas com citações e links (ChatGPT Search, Perplexity) | Seu site aparece como fonte citada, com link clicável, nas respostas com busca |
| Requisição do usuário | Abre sua página em tempo real quando um usuário pede ("veja as tarifas no site X") | O assistente consegue ler sua página ao vivo no momento exato da decisão de compra |
A distinção importa porque a decisão de bloquear treino (comum em portais de notícia, que vivem de conteúdo) é outra decisão que bloquear busca ou requisição do usuário. Pra um hotel, como vou argumentar adiante, as três permissões jogam a seu favor.
O censo dos bots: quem é quem, segundo as docs oficiais
Tudo abaixo vem da documentação pública de cada empresa — linko cada uma. Não estou reportando frequência de visita nem comportamento observado por mim: isso varia por site e só os seus logs respondem (seção mais adiante).
OpenAI (ChatGPT)
A OpenAI documenta três user-agents e publica as faixas de IP de cada um:
GPTBot— crawler de treino. Coleta conteúdo que pode ser usado pra treinar modelos. Respeita robots.txt, segundo a doc.OAI-SearchBot— bot de busca. Indexa sites pra que apareçam citados e linkados nos resultados do ChatGPT Search. A doc afirma que ele não é usado pra treino e respeita robots.txt.ChatGPT-User— requisição do usuário. Acessa páginas quando um usuário (ou um GPT customizado) pede pra abrir um link. Não faz crawl automático em volume.
Tradução prática: bloquear GPTBot tira você do conhecimento de fábrica dos modelos da OpenAI. Bloquear OAI-SearchBot tira seu link das respostas com busca do ChatGPT. Bloquear ChatGPT-User impede a IA de ler seu site até quando o hóspede pede explicitamente.
Anthropic (Claude)
A Anthropic segue a mesma lógica de três papéis, documentados na central de suporte:
ClaudeBot— crawler principal, coleta conteúdo que pode ser usado no treino dos modelos Claude. Respeita robots.txt, segundo a doc.Claude-SearchBot— indexação pra melhorar a qualidade dos resultados de busca do Claude.Claude-User— requisição do usuário: acessa a página quando alguém pede ao Claude pra consultar um site específico.
Perplexity
A Perplexity documenta dois user-agents — e aqui tem uma nuance importante:
PerplexityBot— indexa páginas pra citar como fonte nas respostas. A doc afirma que o conteúdo não é usado pra treinar modelos de fundação, e que o bot respeita robots.txt.Perplexity-User— requisição do usuário. A doc é transparente: como a visita foi pedida por um humano, esse agente geralmente ignora as regras do robots.txt. Ou seja: bloquear no robots.txt não impede a visita quando um usuário pergunta pelo seu hotel — o que, pra hotelaria, é uma boa notícia.
Google (Gemini e AI Overviews)
O caso do Google é o mais mal-entendido, e vale ler a lista oficial de crawlers com atenção:
Google-Extendednão é um robô que visita seu site. É um token de controle no robots.txt: quem coleta a página continua sendo o Googlebot normal; oGoogle-Extendedsó diz se esse conteúdo pode ser usado pra treinar e alimentar o Gemini.- Bloquear
Google-Extendednão te remove dos AI Overviews nem afeta seu ranking na busca — os AI Overviews usam a infraestrutura do Googlebot comum. Também não existe, hoje, um jeito de sair só dos AI Overviews sem sair da busca (fora controles de snippet). - Consequência: se o Googlebot já lê seu site (e lê, se você aparece no Google), sua tarefa aqui é só não bloquear
Google-Extendedsem querer — coisa que alguns templates de robots.txt "anti-IA" copiados da internet fazem.
Meta (Meta AI)
A Meta documenta seus crawlers:
Meta-ExternalAgent— crawl pra treino de IA e melhoria de produtos.Meta-ExternalFetcher— busca links em ações iniciadas pelo usuário; a doc avisa que ele pode ignorar robots.txt justamente por ser requisição humana.
Apple (Siri e Apple Intelligence)
Mesma arquitetura do Google, documentada na página do Applebot: quem visita é o Applebot (o mesmo que alimenta Siri e Spotlight há anos). O Applebot-Extended é um token de controle que decide se o conteúdo coletado pode treinar os modelos de fundação da Apple. Bloquear o Applebot-Extended não tira você da Siri; bloquear o Applebot tira.
ByteDance (Doubao / TikTok)
O Bytespider aparece em logs de servidores do mundo todo, mas a ByteDance não mantém documentação pública sobre ele, e relatos recorrentes da indústria apontam que ele nem sempre respeita robots.txt. É o único da lista em que a decisão não é sua de verdade: se quiser bloquear, precisa ser no servidor ou no firewall, não no robots.txt. Pra um hotel, eu não gastaria energia com isso.
Tabela-resumo
| User-agent | Empresa | Papel | Respeita robots.txt?* |
|---|---|---|---|
GPTBot | OpenAI | Treino | Sim |
OAI-SearchBot | OpenAI | Busca / índice | Sim |
ChatGPT-User | OpenAI | Requisição do usuário | Controlável na doc |
ClaudeBot | Anthropic | Treino / crawl | Sim |
Claude-SearchBot | Anthropic | Busca / índice | Sim |
Claude-User | Anthropic | Requisição do usuário | Ver doc |
PerplexityBot | Perplexity | Busca / índice | Sim |
Perplexity-User | Perplexity | Requisição do usuário | Geralmente não (doc) |
Google-Extended | Token de controle (treino Gemini) | É a própria regra | |
Meta-ExternalAgent | Meta | Treino / produtos | Sim |
Applebot-Extended | Apple | Token de controle (treino) | É a própria regra |
Bytespider | ByteDance | Crawl (sem doc pública) | Relatos: nem sempre |
* Segundo a documentação oficial de cada empresa, linkada acima. O comportamento real no seu site, só os seus logs confirmam.
O robots.txt de um hotel: o que liberar, o que bloquear
Aqui a hotelaria diverge da mídia. Um portal de notícias vive de conteúdo — pra ele, deixar uma IA absorver o acervo é entregar o produto de graça, e faz sentido bloquear bots de treino. O site de um hotel é o oposto: ele é material de venda. Cada página sua que uma IA lê é um vendedor a mais trabalhando. Você quer que o modelo saiba seu nome, suas tarifas, sua política de pet, sua distância da praia.
Portal de notícia protege conteúdo. Hotel distribui argumento de venda. O robots.txt certo é diferente pra cada um.
Minha recomendação padrão pra hotéis e pousadas:
| Bot | Recomendação | Por quê |
|---|---|---|
GPTBot | Liberar | Entra no conhecimento de fábrica dos modelos da OpenAI, que alimentam o ChatGPT |
OAI-SearchBot | Liberar | Seu link citado nas respostas do ChatGPT Search |
ChatGPT-User | Liberar | Deixa a IA ler tarifas e disponibilidade quando o hóspede pede |
ClaudeBot + variantes | Liberar | Mesma lógica, ecossistema Claude |
PerplexityBot | Liberar | Perplexity cita fontes com link em toda resposta — tráfego direto |
Google-Extended | Liberar | Alimenta o Gemini; bloquear não te tira dos AI Overviews, só do Gemini |
Meta-ExternalAgent | Liberar | Meta AI dentro do WhatsApp e Instagram — onde seu hóspede já está |
Applebot / -Extended | Liberar | Siri e Apple Intelligence respondem pergunta de viagem também |
Bytespider | Indiferente | Sem doc oficial e sem garantia de obedecer; não vale a energia |
Em robots.txt, "liberar" na prática costuma significar não escrever nada bloqueando — a ausência de regra já é permissão. Mas ser explícito tem valor de auditoria: registra pra você mesmo (e pra quem herdar o site) que a decisão foi tomada, e protege contra template copiado que bloqueava tudo. Um robots.txt explícito pra hotel:
# robots.txt — exemplo pra hotel/pousada
# Bots de IA: liberados de propósito. Não remova sem entender o custo.
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Meta-ExternalAgent
Allow: /
User-agent: Applebot
Allow: /
User-agent: Applebot-Extended
Allow: /
# Demais robôs (inclui Googlebot)
User-agent: *
Allow: /
Sitemap: https://seuhotel.com.br/sitemap.xml
Se você quiser proteger áreas específicas (admin, carrinho, área do hóspede), use Disallow só nesses caminhos, pra todos os agentes — não bloqueie o site inteiro pra um agente específico.
O detalhe que anula tudo: firewall e CDN
robots.txt é um pedido educado; firewall é uma porta trancada. Mesmo com robots.txt liberado, seu provedor de hospedagem, plugin de segurança (Wordfence e afins) ou CDN pode estar devolvendo erro 403 pros bots de IA. O caso mais relevante: em julho de 2025 a Cloudflare passou a bloquear crawlers de IA por padrão em domínios novos. Se seu site está atrás da Cloudflare — e muito site de hotel está, às vezes sem o dono saber, via agência — vale abrir o painel e conferir as configurações de "AI Crawlers" / "Bots". A intenção da Cloudflare (proteger conteúdo editorial) é legítima; só não é a configuração certa pra quem quer ser recomendado.
Como conferir nos logs que os bots visitam seu site
Nenhuma dessas empresas publica frequência de crawl ("visitamos a cada X dias") — e desconfie de quem afirma isso com precisão. A frequência varia com o tamanho, a autoridade e a taxa de mudança de cada site. A única fonte de verdade sobre o seu site são os logs de acesso do seu servidor. Cada visita de bot fica registrada lá com data, página, código de resposta e user-agent.
1. Ache os logs
- Hospedagem compartilhada (cPanel/Plesk): procure "Acesso Bruto" / "Raw Access Logs" ou o visualizador de logs do painel.
- VPS ou servidor próprio: normalmente em
/var/log/nginx/access.logou/var/log/apache2/access.log. - Cloudflare: o painel mostra tráfego de bots por user-agent (Analytics → Security/Bots), mesmo sem acesso ao servidor de origem.
- Site feito por agência: peça pra agência rodar a verificação abaixo e te mandar o resultado. É pedido de uma linha.
2. Filtre pelos user-agents
# Quantas visitas cada bot de IA fez (Linux/Mac, log padrão Apache/Nginx)
grep -iEo 'GPTBot|OAI-SearchBot|ChatGPT-User|ClaudeBot|Claude-User|Claude-SearchBot|PerplexityBot|Perplexity-User|Meta-ExternalAgent|Applebot|Bytespider' access.log | sort | uniq -c | sort -rn
# Quais páginas o GPTBot leu, e com qual código de resposta
grep -i 'GPTBot' access.log | awk '{print $9, $7}' | sort | uniq -c | sort -rn | head -30
O que interpretar:
- Código 200 = o bot leu a página. Ótimo.
- Código 403 ou 429 = o bot bateu e foi barrado — provavelmente firewall/CDN, mesmo com robots.txt liberado. É exatamente o problema silencioso deste post.
- Bot nenhum aparece = ou o site é novo/sem autoridade (os bots ainda não te acharam), ou algo barra as requisições antes do log. Confira o caminho CDN → firewall → robots.txt, nessa ordem.
- Quais páginas eles leem importa tanto quanto se leem: se o bot só visita a home e ignora a página de quartos e a FAQ, seu conteúdo mais vendedor está fora do alcance (linkagem interna fraca ou conteúdo carregado só via JavaScript).
3. Confirme que o bot é quem diz ser
Qualquer script pode se apresentar como "GPTBot" — user-agent é só um texto declarado. Pra separar bot oficial de impostor, a OpenAI publica as faixas de IP oficiais de cada agente, e Google e Apple documentam verificação por DNS reverso. Pra decisão de marketing (saber se as IAs te leem), a checagem por user-agent já resolve; a validação por IP importa mais se você for usar esses números pra decisões de infraestrutura.
Um dado do nosso Estudo GEO Hotelaria 2026 que conversa direto com isso: dos 609 sites de hotéis e pousadas que escaneamos entre maio e julho, 11% estavam fora do ar no momento da coleta. Site que cai pra visitante humano cai pra bot também — e o bot não volta com boa vontade. Antes de discutir crawler, garanta uptime.
O custo de bloquear sem querer
Vamos dimensionar o que está em jogo, com números públicos e verificáveis:
- A PhocusWire reportou que só cerca de 16% da oferta hoteleira global aparece nas respostas de IA. O canal que mais cresce na descoberta de viagem enxerga menos de um quinto dos hotéis do mundo.
- A Seer Interactive (set/2025) mediu, em 3.119 queries, +35% de cliques pra marcas citadas em AI Overviews versus não citadas.
- O estudo de Princeton (Aggarwal et al., 2024) mostrou que táticas de otimização de conteúdo elevam em até 115% a visibilidade em respostas de LLMs — estudo geral, não específico de hotelaria, mas o mecanismo é o mesmo.
Quem bloqueia um bot de IA sem querer está do lado errado dessas três estatísticas ao mesmo tempo. E tem um agravante específico da hotelaria: as OTAs não bloqueiam. Booking, Expedia e afins investem pesado pra serem legíveis por IA. Se o seu site é ilegível, a IA não fica em silêncio sobre seu hotel — ela responde com a versão da OTA: o preço com comissão, a política resumida, a descrição genérica. Escrevi sobre essa disputa de narrativa em OTAs vs LLMs.
Agora, o lado bom — e é aqui que eu vejo janela, não tragédia. No mesmo Estudo GEO Hotelaria 2026 (425 sites auditados com o Protocolo Arsenal de 22 sinais), 62% não têm llms.txt, 43% não têm Schema nenhum e só 24% têm Schema corretamente tipado como hotel. Em Campos do Jordão, 83% dos sites auditados não têm llms.txt e 100% não têm Schema tipado; em Jericoacoara, também 100% sem Schema tipado. A régua do setor está no chão. Quem simplesmente libera o crawl e faz o básico bem-feito não está alcançando o pelotão — está saindo na frente dele. No nosso benchmark de 280 queries em 7 cidades, deu pra ver na prática como cada IA usa (ou não) as fontes que consegue ler.
Checklist prático
- Abra
seuhotel.com.br/robots.txtno navegador. Procure porGPTBot,ClaudeBot,PerplexityBot,Google-ExtendedcomDisallow: /. Achou? É bloqueio, e provavelmente veio de template. - Se o site usa Cloudflare ou plugin de segurança, confira a configuração de bots de IA — o padrão pode ser bloquear, mesmo com robots.txt liberado.
- Rode o grep nos logs (ou peça pra agência): quais bots visitam, quais páginas, com qual código de resposta.
- 403/429 pra bot de IA? Ache a camada que barra (CDN → firewall → servidor) e libere os agentes documentados.
- Nenhum bot aparece? Verifique uptime, sitemap enviado e se o conteúdo existe no HTML (não só via JavaScript).
- Crawl liberado? Agora sim vale investir no que os bots vão ler: llms.txt, Schema tipado e FAQ — os 22 sinais do Protocolo Arsenal são o mapa completo.
Perguntas frequentes
Liberar esses bots deixa meu site mais lento?
Pra um site de hotel (dezenas de páginas, não milhões), o volume de requisições dos bots documentados é irrelevante perto do tráfego humano. Se um bot específico exagerar, dá pra limitar taxa no servidor sem bloquear — mas resolva esse problema quando (e se) ele existir nos seus logs, não antes.
Com que frequência o GPTBot visita um site?
A OpenAI não publica frequência, e nenhuma das outras empresas publica. Varia por site. A resposta honesta é: rode o grep nos seus logs uma vez por mês e você terá a frequência real do seu site — que vale mais que qualquer média de terceiros.
Bloquear Google-Extended me tira do Google?
Não. Google-Extended só controla o uso do seu conteúdo pelo Gemini (treino e grounding). Busca orgânica e AI Overviews continuam funcionando via Googlebot normal. Mas pra um hotel não há motivo pra bloquear: é abrir mão do Gemini de graça.
Meu site é Wix/Squarespace e não consigo editar robots.txt. E agora?
Primeiro confira o que a plataforma gera por padrão (abra /robots.txt no navegador). A maioria não bloqueia bots de IA por padrão, então você provavelmente já está liberado. O limite dessas plataformas costuma aparecer depois, no llms.txt e no Schema — detalhei as opções por plataforma no guia de llms.txt.
E se eu não quiser que IA treine com meu conteúdo, mas quiser aparecer nas buscas de IA?
Dá pra separar: bloqueie só os agentes de treino (GPTBot, Meta-ExternalAgent, Google-Extended, Applebot-Extended) e libere os de busca e requisição do usuário (OAI-SearchBot, ChatGPT-User, PerplexityBot, Claude-SearchBot). É a configuração típica de portal de conteúdo. Pra hotel, eu não recomendo — estar no conhecimento de fábrica do modelo é vantagem, não custo.
Seu site está legível pras IAs? Descubra em 2 minutos
O Score Arsenal é gratuito: cola a URL do seu hotel e recebe a leitura dos sinais técnicos de prontidão pra IA — incluindo o que está barrando os bots. E se quiser o raio-X completo, a Auditoria de Presença em IA (R$ 297) mapeia como ChatGPT, Claude, Perplexity e Gemini enxergam seu hotel hoje, query por query.
Rodar o Score grátis →