- 22 sinais técnicos definem se a IA cita seu hotel. 5 deles têm peso maior — sem eles, os outros 17 não compensam.
- 14 sinais base + 5 sinais V2 (qualidade técnica) + 3 sinais Princeton 2024 (copy validada em laboratório).
- O score Arsenal pondera os 22 sinais — abaixo de 30 indica problemas estruturais; entre 30-65 indica pendências táticas; acima de 65 indica refinamento.
- Maio de 2026: V4 adiciona type-aware scoring — hotéis são cobrados em 22 sinais; consultorias em 20; páginas pessoais em 18. Hotéis competem com hotéis.
Como a IA decide citar (ou ignorar)
Quando alguém pergunta ao ChatGPT "melhor pousada boutique em Ilhabela com vista pro mar até R$ 900", a IA executa em frações de segundo um processo chamado RAG (Retrieval-Augmented Generation): busca em sua base interna + sites confiáveis, pondera relevância, e gera a resposta citando as 3-5 marcas que melhor encaixam na pergunta.
Quem é citado e quem é ignorado depende de 22 sinais técnicos auditáveis. Esses sinais não são segredo — estão na documentação pública da OpenAI, Anthropic, Google, no paper acadêmico de Princeton (Aggarwal et al., 2024) e em estudos da Ahrefs, Seer Interactive e Eight Oh Two Marketing. Mas a maioria dos sites de hotelaria boutique brasileira tem 5 ou 6 desses sinais ativos. Por isso aparecem 30% do tempo, no melhor dos casos.
Lift máximo de citação em LLMs quando se aplica a tática "Cite Sources" (links pra fontes externas autoritativas) no rank 5, conforme estudo Princeton 2024 (Aggarwal et al., paper acadêmico revisado).
Os 5 sinais de alta prioridade
1. robots.txt liberando crawlers de IA
Sem isso, o ciclo nem começa. Seu robots.txt precisa permitir explicitamente GPTBot, ClaudeBot, PerplexityBot, Google-Extended, anthropic-ai, OAI-SearchBot e ChatGPT-User. Templates de WordPress pré-2024 ainda costumam vir bloqueando — verifique manualmente.
2. llms.txt na raiz do domínio
Arquivo de texto estruturado em seudominio.com.br/llms.txt descrevendo o hotel em prosa direta — guia completo aqui. Sem ele, a IA precisa garimpar seu HTML e perde precisão.
3. Schema.org/Hotel completo
JSON-LD com Hotel, LodgingBusiness, aggregateRating, amenityFeature, priceRange, address, geo. Schema vazio (só name e URL) conta zero. Schema completo move o ponteiro.
4. FAQ HTML estruturado
Bloco de perguntas e respostas reais, marcado com FAQPage Schema. IAs citam respostas literalmente quando bem estruturadas. 6 a 12 perguntas reais que hóspedes fazem (preço, pet, café, distância da praia, eventos próximos).
5. Open Graph completo
og:title, og:description, og:image, og:type=hotel. Mesmo IAs que respeitam OG (Bing/Copilot, parcialmente Perplexity) precisam disso pra contextualizar visualmente. Sem og:image, sua marca não aparece em previews — perde 30% de propensão de citação em respostas que renderizam thumbnails.
Os 9 sinais de prioridade média (sinais 6 a 14)
6. AggregateRating Schema
Se você tem reviews em TripAdvisor/Booking/Google, agregue a média no seu próprio Schema (aggregateRating com ratingValue + reviewCount). Permite que a IA cite "X estrelas em N avaliações" sem ter que buscar fontes externas.
7. Service Schema (categorias de quartos)
Liste cada categoria de suíte como Service ou Offer com nome, descrição, faixa de preço, capacidade. IAs preferem essa estrutura quando alguém pergunta "quartos disponíveis pra família de 4".
8. Sitemap.xml otimizado
Sitemap atualizado mensalmente com lastmod em todas as URLs. Informa pra IA quais páginas mudaram recentemente (gatilho de re-crawl + frescor).
9. Canonical URLs corretas
Cada página com <link rel="canonical"> apontando pra versão oficial. IAs penalizam conteúdo duplicado — se você tem versão de mobile separada, www vs non-www, garanta canonical sempre.
10. HTTPS válido
Certificado SSL ativo, sem warning. IAs de 2025+ depriorizam fortemente sites HTTP. Cloudflare gratuito resolve em 5 minutos.
11. Latitude e longitude no Schema
geo: { latitude, longitude } dentro do Hotel Schema. Permite IA confirmar localização exata pra queries do tipo "hotel a 5min do Píer da Vila em Ilhabela".
12. Copy semântica na home
Reescrever copy de marketing genérica em frases factuais. "Vista de tirar o fôlego" vira "Vista pro canal de São Sebastião com cobertura de 270 graus". IAs descartam adjetivos, citam fatos.
13. Internal linking estratégico
Links entre páginas relacionadas (home → quartos → FAQ → contato) com âncoras textuais que descrevem destino. Ajuda IA a mapear estrutura semântica do site.
14. URL estável (sem parâmetros)
URLs amigáveis sem query strings. /quartos/suite-vista-mar > /page.php?id=123&type=suite&view=mar. IAs guardam URLs amigáveis com mais persistência.
Os 5 sinais V2 — qualidade técnica e prova externa (sinais 15 a 19)
Em maio de 2026 expandimos a engine pra cobrar 5 sinais novos que diferenciam um site "funcional" de um site "pronto pra IA". Esses sinais aparecem hoje em produção como parte da auditoria automatizada.
15. schema_depth — Schema com profundidade real
Nó Hotel/LocalBusiness com pelo menos 4 propriedades além de @type, @context e name. Schema "vazio" (só nome e URL) conta zero. Schema com endereço, telefone, horário, faixa de preço, área servida e tipo de serviço passa neste sinal.
16. aggregate_rating — Rating qualificado
Não basta ter AggregateRating no HTML; ele precisa ter ratingValue >= 4.0 e reviewCount >= 10. Rating baixo ou poucas avaliações sinalizam fragilidade reputacional pra IA.
17. alt_images — Imagens com alt acessível
Pelo menos 80% das <img> da página com atributo alt de 3 ou mais caracteres descritivos. IAs multimodais (GPT-4o, Gemini, Claude com vision) usam alt como pista textual quando processam imagens — sem alt, a IA "vê" a imagem mas não sabe o que ela representa.
18. off_page — Menções externas confirmadas
Buscamos menções do nome do hotel em motores externos (DuckDuckGo Instant Answer) e contamos quantos resultados aparecem fora do próprio domínio. Sinal de presença distribuída na web: o hotel é citado em blogs de turismo, IC&VBs, agências locais, listings independentes.
19. perf_mobile — Performance mobile mínima
Lighthouse mobile (via PageSpeed Insights) com score >= 50. Sites lentos são deprorizados por IAs em 2026 porque AI Overviews e respostas geradas têm latência baixa e priorizam fontes que carregam rápido também. Se o teste falhar por timeout, o sinal entra como skipped e o peso é redistribuído proporcionalmente.
Os 3 sinais Princeton 2024 — táticas validadas em laboratório (sinais 20 a 22)
"Adicionar Cite Sources, Quotation Addition e Statistics Addition aos textos de uma página produziu lift médio de 30-40% na taxa de citação em respostas geradas por LLMs, alcançando 115% no rank 5 — enquanto Keyword Stuffing reduz a performance em até 10% sob a baseline."
— Aggarwal, P. et al. (Princeton University, paper acadêmico revisado, 2024) — arxiv.org/abs/2311.09735
O paper testou 9 táticas em 10.000 queries reais contra modelos generativos. Apenas 3 mostraram lift estatisticamente significativo e consistente em todos os modelos. Adicionamos esses 3 sinais ao score em maio de 2026.
20. has_blockquotes — Quotation Addition
Pelo menos 2 blocos <blockquote> ou aspas longas (mais de 15 caracteres entre aspas duplas curvilíneas) no copy da página. Citações diretas aumentam autoridade percebida pela IA — ela tende a replicar texto literal quando encontra material citado por terceiros.
21. has_quantitative_data — Statistics Addition
Pelo menos 5 menções quantitativas: percentuais (35%), números absolutos contextuais (3.119 queries, 25,1M impressões), médias e medianas. A engine remove <script> e <style> antes de regexar pra evitar contagem de números em código. IAs preferem afirmações com números concretos sobre afirmações abstratas.
22. has_external_authority_citations — Cite Sources
Pelo menos 2 domínios externos distintos linkados a partir da página, ignorando redes sociais, trackers e subdomínios próprios. Links pra Princeton (arxiv.org), Schema.org, Ahrefs, Seer Interactive, OpenAI docs etc valem como prova de pesquisa. Foi o sinal com maior lift no paper Princeton: até 115% no rank 5.
Como o score Arsenal pondera os 22 sinais
| Sinal | Peso V3 |
|---|---|
| site_loads (site responde HTTP 2xx) | 10 pts |
| https (certificado válido) | 5 pts |
| has_robots_txt | 4 pts |
| allows_gptbot | 5 pts |
| allows_claudebot | 5 pts |
| allows_perplexitybot | 5 pts |
| has_llms_txt | 15 pts |
| has_sitemap_xml | 4 pts |
| has_jsonld | 10 pts |
| has_hotel_schema (Hotel/LocalBusiness) | 10 pts |
| has_faq_schema (FAQPage) | 6 pts |
| has_meta_description | 3 pts |
| has_viewport | 4 pts |
| has_visible_faq (≥3 details) | 3 pts |
| schema_depth (≥4 props extras) | 6 pts |
| aggregate_rating (≥4.0 · ≥10 reviews) | 7 pts |
| alt_images (≥80% das <img> com alt) | 4 pts |
| off_page (≥2 menções externas) | 6 pts |
| perf_mobile (Lighthouse mobile ≥50) | 3 pts |
| has_blockquotes (Quotation Addition) | 4 pts |
| has_quantitative_data (Statistics Addition) | 6 pts |
| has_external_authority_citations (Cite Sources) | 5 pts |
| Total | 100 pts |
Pesos validados por suíte de testes Vitest na engine de produção. Total soma exatamente 100. Cap dinâmico em perf_mobile quando o teste é pulado por timeout: o peso é redistribuído proporcionalmente entre os 21 sinais restantes.
V4 type-aware: hotéis competem com hotéis
Em maio de 2026 (V4), a engine passou a detectar o tipo canônico do site antes de calcular o score. Cobrar todos os 22 sinais de um site de consultoria ou página pessoal era injusto: has_hotel_schema e aggregate_rating ficariam false artificialmente, deflacionando o score.
- Hotel (Hotel, Resort, LodgingBusiness, BedAndBreakfast, Hostel, Motel) — cobrado nos 22 sinais.
- Serviço / Consultoria (ProfessionalService, LocalBusiness, Service, Organization) — cobrado em 20 sinais (sem has_hotel_schema e aggregate_rating).
- Pessoa / Autoridade (Person) — cobrado em 18 sinais (sem os 2 anteriores mais has_faq_schema e has_visible_faq).
- Página web genérica (default sem JSON-LD reconhecido) — cobrado em 20 sinais (mesmo de Service).
Princípio: a engine não infla, só remove o que não se aplica. Hotel continua cobrado em 22 sinais. O score V4 de um hotel é matematicamente idêntico ao V3 (validado por teste de integração).
Tiers do score
- 0-29 (Frágil): hotel não é citado por nenhuma IA com consistência. Implementação completa necessária.
- 30-65 (Regular): aparece esporadicamente. Plano de Ação (R$ 597) resolve em 24h.
- 66-89 (Forte): citado em maioria das respostas. Refinamento via Diagnóstico Estratégico (R$ 297).
- 90-100 (Dominante): raro. Citado em 9 de cada 10 respostas. Posição protegida.
Por onde começar
Faça o diagnóstico grátis em 60 segundos. Você cola a URL, recebe o score 0-100 e a lista priorizada do que falta. Se score for menor que 30, contrata implementação completa. Se for entre 30-65, o Plano de Ação resolve. Se for acima de 65, faça o Diagnóstico Estratégico pra refinar.
Perguntas frequentes
Posso implementar todos os 22 sinais sozinho?
Sim, mas leva tempo. Implementação técnica completa (sem agência) demanda 14-18 horas de trabalho concentrado pra um hoteleiro com conhecimento básico de HTML. O Plano de Ação (R$ 597) entrega os 4 arquivos críticos em 24h.
Quanto tempo até o score subir após implementação?
Crawlers revisitam em 3-7 dias. Score sobe em 14-30 dias após implementação correta. Citações começam a aumentar em 30-60 dias. Trajetória completa (frágil → regular → forte) leva 60-90 dias.
E se meu site é WordPress simples? Funciona?
Sim, todos os 22 sinais são compatíveis com WordPress, Wix, Webflow, Squarespace e custom. Cada plataforma tem caminho próprio (plugin Yoast/Rank Math pra Schema, FTP pra llms.txt, etc) — o Plano de Ação inclui guia por plataforma.
Schema.org não é só pra Google?
Não. ChatGPT, Claude e Perplexity processam Schema JSON-LD com peso significativo. Estudo Ahrefs (2024) mostrou que 73% das fontes citadas pelas IAs tinham Schema completo, vs 28% em sites não citados.
Tem como saber se os crawlers estão lendo meu site?
Sim, via logs de servidor (cPanel, Cloudflare logs, Vercel analytics). Procure user-agents 'GPTBot', 'ClaudeBot', 'PerplexityBot', 'CCBot'. Frequência típica de visita: 1-3x por semana em sites com llms.txt e Schema.
O que é Princeton GEO e por que adicionamos 3 sinais novos?
O paper Aggarwal et al. (Princeton, 2024) validou em laboratório que 3 táticas de copy aumentam citação em LLMs em 30-40% (pico de 115% no rank 5): Cite Sources (links pra fontes externas autoritativas), Statistics Addition (dados quantitativos com números) e Quotation Addition (blockquotes com citações). Adicionamos esses 3 sinais ao score em maio de 2026, tornando-os o degrau 20-21-22 da escada.
Quer auditar os 22 sinais agora?
O diagnóstico grátis (60s) audita os 22 sinais com type-aware scoring e devolve score + plano priorizado direto na sua caixa de entrada.
Diagnóstico grátis · 60s →
Publicado em 9 de maio de 2026 · atualizado em 12 de maio de 2026 · Por Thiago Acerola.
Esse post é parte da série "Fundamentos GEO" do Arsenal Hospitality.