Alexandre Caramaschi

Posted on Apr 16 • Originally published at alexandrecaramaschi.com

Por que o Brasil deveria estar pesquisando GEO antes do resto do mundo — e o que encontrei em 1.004 consultas a LLMs

#ai #seo #brazil #marketing

Por que o Brasil deveria estar pesquisando GEO antes do resto do mundo

Na semana passada, colei dois prompts idênticos no ChatGPT, Claude, Gemini e Perplexity. A única diferença: um estava em português, outro em inglês. A pergunta era a mesma — "quais os melhores bancos digitais do Brasil?". A resposta em português citou Nubank, Inter, C6 Bank nove vezes em dez. A versão em inglês citou os mesmos nomes em cinco de dez respostas, e nas outras cinco apareceram Revolut, N26, Monzo — marcas europeias que nem operam aqui.

A diferença não foi opinião. Foi +29 pontos percentuais de visibilidade — 79,4% de citação em português contra 50,4% em inglês, medido sobre um dataset empírico de 1.004 consultas estruturadas rodando há 24 dias em paralelo nos quatro principais motores generativos.

Esse número sozinho inverte a lógica que domina agências brasileiras: não faz sentido escrever conteúdo em inglês para "ampliar alcance" quando o motor que decide quem aparece na resposta já aprendeu a citar marcas brasileiras em português melhor do que em inglês. E esse é apenas um dos achados.

A tese central: quem não aparece em IA nos próximos 18 meses vai desaparecer

O Brasil tem uma janela curta para fazer Generative Engine Optimization virar disciplina antes do resto do mundo. Esta não é uma afirmação de marketing — é uma observação empírica ancorada em três assimetrias raramente discutidas em conjunto:

A primeira é linguística. Os LLMs citam marcas brasileiras em português com densidade 29pp maior que em inglês. Isso cria um domínio onde o conteúdo publicado em pt-BR tem valor específico no treinamento e no grounding retrieval desses modelos — algo que concorrentes em espanhol, alemão ou francês não desfrutam na mesma intensidade.

A segunda é institucional. Não existe hoje, no Brasil, um framework empírico público medindo continuamente como LLMs tratam marcas locais em série temporal longitudinal. Nenhuma ABRADi, ABComm, Endeavor ou universidade pública publicou um dataset aberto comparável a CC-GSEO-Bench (China) ou SAGEO Arena (EUA) para o mercado brasileiro. Quem medir primeiro define a metodologia.

A terceira é comercial. O agentic commerce — agentes de IA fazendo compras em nome de humanos — vai chegar no varejo brasileiro nos próximos 18 meses. Quem aparecer nas recomendações desses agentes vende. Quem não aparecer, não existe.

Eu sou Alexandre Caramaschi, CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq), cofundador da AI Brasil. Há seis meses larguei consultorias pontuais para construir a primeira infraestrutura científica de GEO no Brasil. O que segue é o relato técnico do que estamos medindo, por que estamos medindo, e o que os primeiros resultados sugerem.

A arquitetura da pesquisa: quatro verticais, cinco LLMs, 69 entidades

O protocolo tem quatro componentes metodológicos. Cada um responde a uma objeção que um revisor rigoroso levantaria.

Quatro verticais independentes. Fintech, saúde, tecnologia e varejo. Cada vertical tem sua coorte de entidades monitoradas: 21 em fintech, 16 em saúde, 16 em tecnologia, 16 em varejo. A escolha de verticais diferentes testa se os achados são generalizáveis ou específicos de um setor (Proposal 8 do design doc de concorrentes internacionais incluídos para cross-market comparison).

Cinco LLMs consultados em paralelo. ChatGPT 4o-mini, Claude Haiku 4.5, Gemini 2.5 Pro, Perplexity Sonar e, desde hoje, Groq Llama 3.3 70B. A diversidade é intencional: três modelos comerciais fechados e dois open-weight. Isso isola o efeito "modelo da OpenAI" do efeito "LLM em geral" quando uma marca aparece em todos.

Oito entidades fictícias para calibração. Aqui mora a contribuição metodológica que considero mais forte. Inserimos oito marcas inventadas — Banco Floresta Digital, FinPay Solutions, MegaStore Brasil, ShopNova Digital, HealthTech Brasil, Clínica Horizonte Digital, TechNova Solutions, DataBridge Brasil — distribuídas uma por vertical. Se qualquer LLM citar uma dessas, sabemos que está alucinando. Zero tolerância.

1.004 consultas empíricas em 24 dias. Cada query é estruturada, tem categoria (descoberta, comparativo, confiança, produto, B2B, investimento, alternativas), idioma (PT ou EN) e é executada contra todos os LLMs simultaneamente. O banco SQLite (papers.db) fica versionado no git, público, auditável. Qualquer pesquisador pode baixar o dataset e reproduzir nossos números em trinta minutos.

O achado publicável: specificity = 100%

Se eu pudesse escolher um único resultado para entrar no abstract do paper que estamos escrevendo para submissão em julho de 2026, seria este:

Zero menções às oito entidades fictícias em 1.004 respostas. False positive rate = 0,00%. Specificity = 100%.

Isso significa duas coisas. Primeiro, que o denominador da nossa pesquisa é confiável — quando contamos citações, estamos contando citações reais, não alucinações do modelo. Segundo, que os LLMs que testamos não inventam marcas brasileiras sob prompts de descoberta, comparação e confiança. Esse é um achado não-trivial. Existem setores e idiomas onde LLMs alucinam empresas em volume — nossa calibração mostra que, em português sobre marcas brasileiras reais, a alucinação é residual.

Essa validação sustenta todos os outros números que vou citar.

Os números que estão vivos agora em alexandrecaramaschi.com/research

A página de research é dinâmica: puxa o snapshot consolidado do repositório de coleta a cada hora. Conforme o dataset cresce, os números atualizam. No momento em que escrevo, este é o estado:

Taxa global de citação: 62,4% (IC 95% de Wilson: 59,3% — 65,3%). Em outras palavras, quando uma query relevante é feita a um LLM, existe uma em três chances de uma marca brasileira aparecer na resposta. Isso é alto — mais alto do que os 15-30% que benchmarks internacionais reportam para marcas em outros mercados emergentes.

Ranking de LLMs por taxa de citação:

LLM	Taxa	IC 95%	n
Claude Haiku 4.5	67,8%	62,2% — 72,9%	298
Perplexity Sonar	65,3%	58,6% — 71,4%	213
ChatGPT 4o-mini	63,0%	57,5% — 68,2%	316
Gemini 2.5 Pro	48,6%	41,3% — 56,0%	177

Claude lidera. Gemini fica atrás por uma combinação de dois fatores: respostas mais curtas (média de 300 tokens contra 800 dos outros) e latência 13 vezes maior que Claude, o que sugere que o modelo está pensando mais antes de responder — paradoxalmente, citando menos.

Taxa por vertical:

Vertical	Taxa	n
Fintech	68,5%	336
Tecnologia	65,5%	252
Varejo	63,4%	191
Saúde	48,9%	225

Fintech brasileira é o setor mais citado. Saúde é o menos. A diferença sugere que marcas com histórico digital forte — fintechs que nasceram online — têm presença desproporcional no corpus de treinamento. Marcas de saúde, mesmo as grandes como Dasa, Fleury e Rede D'Or, competem com terminologia técnica genérica ("hospital em São Paulo") que dissolve o sinal de marca.

Taxa por categoria de prompt:

Descobrimos que a categoria da pergunta importa mais do que o modelo escolhido. Perguntas de confiança (Nubank é seguro?) geram 100% de citação porque o nome já está embutido. Perguntas de descoberta (quais os melhores bancos?) geram 87% — alta densidade, mas com variância entre LLMs. Perguntas abertas de reputação (quais as marcas mais inovadoras do Brasil?) caem para 61%.

A implicação prática é direta: prompt engineering de marca é responsável por mais variância do que a escolha de LLM. Uma marca que aparece em 80% das queries de descoberta em português mas em 30% das queries em inglês tem um problema de presença de idioma, não de SEO tradicional.

O mecanismo técnico: por que português funciona

A diferença de 29 pontos percentuais entre português e inglês merece explicação técnica, porque pode soar mágica.

Três hipóteses sustentam o achado. A primeira é densidade de corpus. LLMs treinados em grandes volumes de texto em português brasileiro — sites, notícias, redes sociais, documentação fiscal — têm embeddings densos para marcas locais. Quando o prompt está em pt-BR, o retrieval puxa exatamente esses embeddings, com alta cosine similarity para as marcas monitoradas.

A segunda é efeito de contexto. Uma query em inglês aciona um espaço latente global. "Best digital banks" tem Revolut, Monzo, N26, Chime como vizinhos fortes no embedding — a marca brasileira compete contra um pool internacional. Uma query em português aciona o espaço latente brasileiro, onde Nubank e Inter são os vizinhos fortes.

A terceira é grounding retrieval. Perplexity e as versões recentes de ChatGPT consultam a web em tempo real. Quando a query está em português, o retrieval traz sites brasileiros. Em inglês, traz Forbes, Bloomberg, The Economist — veículos que raramente escrevem sobre bancos digitais brasileiros fora do hype Nubank.

O mecanismo é compatível com o que Karpathy chamou de "LLM as a compression of the internet". A internet brasileira, em português, tem densidade de marca local. A internet em inglês, não.

O que decidimos medir a seguir

Este dataset tem 24 dias de idade. A meta é atingir 10.000 consultas em 7 dias (com a expansão aplicada hoje: 35 queries por vertical, duas coletas diárias às 6h e 18h BRT, cinco LLMs em paralelo). Daqui até 15 de julho de 2026, temos 90 dias de coleta contínua para submeter à primeira publicação acadêmica peer-reviewed sobre GEO no mercado brasileiro.

As próximas perguntas já estão na fila:

Sensibilidade ao prompt (Proposal 6). Vamos rodar 30 paráfrases da mesma query. Uma marca que aparece em 80% das variações é forte. Uma que aparece em 20% depende de formulações específicas — fragilidade que um agente de IA autônomo vai expor quando parafrasear a pergunta do usuário.

Efeito de intervenção (Módulo 4). Quando a marca publica uma peça de conteúdo específica — por exemplo, um llms.txt estruturado, um post com schema.org ItemList — a taxa de citação muda em 7 dias? 14? 30? Medir isso com grupo de controle e teste-t de Welch pareado nos dá causalidade, não correlação.

Cross-LLM agreement. Quando Claude, ChatGPT e Perplexity concordam em citar a mesma marca para a mesma query, a probabilidade de um quarto LLM também citar é 91%. Quando apenas um LLM cita, a probabilidade de um segundo concordar é 23%. Isso cria um sinal de robustez: marcas que aparecem em múltiplos LLMs têm presença estrutural no corpus. Marcas que aparecem em apenas um podem estar num viés idiossincrático.

Temporal stability. Com 90 dias de série, conseguiremos rodar Mann-Kendall para detectar tendências e decomposição sazonal para isolar efeitos de ciclo. A hipótese que quero testar é que a taxa de citação de marcas médias oscila mais do que a de marcas grandes — sinal de que LLMs estão aprendendo e esquecendo em janelas curtas.

Por que isso importa para o Brasil antes do que para qualquer outro país

A oportunidade é específica e tem data de validade.

No Ocidente, GEO já virou departamento em agências enterprise. Na China, universidades publicaram CC-GSEO-Bench. No Brasil, apenas cases dispersos sem framework comparável. Isso cria uma janela de 18 meses — até o final de 2027 — onde quem medir com rigor científico define a literatura, os padrões e os casos canônicos.

Três movimentos aceleram essa janela:

Primeiro, o agentic commerce vai chegar no Brasil em 2027, talvez antes. Agentes de IA comprando em nome de consumidores. O OpenAI Operator, o Google Mariner, o Anthropic Claude computer use estão em beta pública. Quando esses agentes escolherem onde comprar seu Pix, seu cartão, seu plano de saúde, a resposta vai depender do ranking no modelo — não do ranking no Google. Marcas que só fizeram SEO tradicional estão cegas para o que decide a venda.

Segundo, o custo de coleta é trivial. Toda a infraestrutura que mantém essa pesquisa — cinco LLMs, quatro verticais, dois runs diários, 70 observações por célula por dia, pipeline automatizado em GitHub Actions — custa 27 dólares por mês. Isso está dentro do budget de cinco dias de tráfego pago de qualquer empresa média. O gargalo não é capital, é convicção.

Terceiro, o Brasil tem ativos únicos. Português é o quinto idioma mais falado no mundo e o terceiro mais presente em LLMs. Temos marcas que venceram na era mobile (Nubank), na era social (iFood) e agora precisam vencer na era agentic. E temos pesquisadores, engenheiros e operadores com track record em AI — da AI Brasil à Semantix, passando por dezenas de startups.

O que falta é alguém colocando a infraestrutura no chão. Estamos colocando.

O que estou oferecendo

Ao longo dos próximos 90 dias, o dataset de pesquisa vai triplicar de tamanho. Vou publicar o preprint em ArXiv até 24 de maio. A submissão a um journal peer-reviewed — CSCW, CHI ou ACL — está agendada para 15 de julho. Todos os dados ficam abertos em alexandrecaramaschi.com/research.

Paralelamente, rodo Sprints GEO de 20 horas para marcas que querem entrar no dataset como cases tratados: medição de baseline, diagnóstico estrutural, intervenção de conteúdo, medição pós-intervenção com grupo de controle. Cinco marcas por ciclo. A próxima leva abre em maio.

Se você dirige marketing ou produto em uma marca que ainda não tem auditoria de visibilidade em IA, dois caminhos:

O primeiro é rodar o diagnóstico gratuito que mantenho em brasilgeo.ai. Ele usa a mesma metodologia do paper, aplicada a uma marca específica, em menos de 10 minutos.

O segundo é enviar email direto para agendar conversa sobre onde sua marca cai no corpus atual — quais LLMs te citam, em qual idioma, em qual categoria de query — antes que o agentic commerce torne essa conversa tarde demais.

O Brasil pode ser potência em GEO e em agentic commerce antes do resto do mundo. Não porque somos melhores que os outros mercados. Porque a janela está aberta, o idioma trabalha a nosso favor e ninguém ainda ocupou o lugar de referência científica. Quem ocupar agora vai definir o resto da década.

Alexandre Caramaschi é CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq), cofundador da AI Brasil. Escreve sobre pesquisa empírica em Generative Engine Optimization em alexandrecaramaschi.com. O dataset completo desta pesquisa está em alexandrecaramaschi.com/research.

DEV Community