Uma Boa Prática de AEO, Desmentida Pelos Próprios Dados

A gente mandou você publicar um llms.txt. Assim como a maioria dos conselhos de prontidão para IA espalhados pela internet. Virou item de checklist, uma coisa que você entrega para provar que seu site está pronto para a era dos agentes. Então a Ahrefs foi lá e contou.

Eles analisaram 137.210 domínios contra os dados de tráfego de maio de 2026. Dos sites que se deram ao trabalho de publicar um llms.txt, 97% desses arquivos receberam zero requisições. Não foi tráfego baixo. Foi zero. Apenas cerca de 3% tiveram alguma leitura mensurável.

Isso é uma boa prática reprovada no próprio teste. E a reprovação é instrutiva, porque revela exatamente qual IA está tocando seu site e qual fica de fora.

O arquivo que ninguém pediu

O llms.txt foi proposto como uma camada de descoberta para modelos de linguagem. Um único arquivo na raiz do domínio, listando o que existe e onde encontrar. Um sitemap para máquinas que leem em vez de rastrear. A lógica era limpa: os agentes estão chegando, dê a eles um mapa.

A falha está na premissa. Um mapa só ajuda se alguém for procurá-lo. A Ahrefs coloca de forma direta: zero bots de IA vão procurar arquivos llms.txt que não existem, e quase nenhum vai procurar os que existem. O padrão presumiu que os agentes adotariam uma convenção que ninguém os construiu para usar. Não adotaram.

John Mueller, do Google, já tinha dito a parte incômoda. Ele chamou o llms.txt de “uma muleta temporária” e “não é algo com que sites não voltados a desenvolvedores precisem se preocupar”. Essa avaliação agora tem 137 mil domínios de evidência por trás.

Repare na assimetria. A Ahrefs encontrou que 28% dos domínios na amostra publicam um llms.txt válido, e sinaliza isso como um teto, porque os dados deles pendem para o lado técnico. A adoção real na web aberta é menor. Então você tem uma fatia relevante de sites tecnicamente sofisticados gastando esforço num arquivo que, 97% das vezes, nenhuma máquina lê. Isso é esforço de governança desperdiçado, apontado para uma superfície que não existe para os leitores que ela deveria atender.

Quem está de fato lendo seu site

O mesmo conjunto de dados responde à pergunta mais útil. Se os agentes não buscam o llms.txt, o que eles buscam, e quais agentes são esses?

A Ahrefs separou o tráfego de bots em categorias. A atividade relacionada a IA soma 19,5% do tráfego de bots, e a divisão importa mais que o número de manchete:

Agentes e infraestrutura de IA: 10,5%. É a maior fatia, de longe.
Crawlers de treinamento: 5,3%. Os bots que colhem conteúdo para treinar modelos.
Assistentes de IA: 2,5%. Aqui estão Perplexity, navegação do ChatGPT, os motores de resposta voltados ao consumidor que todo mundo otimiza.
Bots de recuperação de IA: 1,1%. Os bots que buscam sob demanda, puxando uma página para responder a uma consulta ao vivo.

Encare esses dois últimos números. Os assistentes de IA e os bots de recuperação, a categoria inteira em torno da qual os conselhos de AEO foram construídos, respondem por 3,6% do tráfego de bots somados. Aquilo que a maioria dos times de marketing otimiza é um erro de arredondamento nos próprios logs.

A fatia de agentes e infraestrutura é onde a ação acontece. E dentro dela, a Ahrefs descobriu que o Claude Code buscou mais páginas do que qualquer assistente ou bot de recuperação, exceto o GPTBot. Um agente de código. Algo distinto de um motor de busca, de um motor de resposta ou de um chatbot resumindo sua página para um humano curioso. Uma ferramenta que desenvolvedores rodam de um terminal, indo ler sua documentação enquanto escreve código contra a sua API.

Isso muda quem é o seu segundo público. O leitor que aparece em volume é o agente do desenvolvedor, puxando sua documentação de referência para integrar contra a sua API, enquanto o consumidor perguntando ao Perplexity sobre o seu produto mal registra. Esses dois leitores querem coisas completamente diferentes, e você provavelmente vinha otimizando para aquele que mal aparece.

A lição real é sobre logs, não sobre arquivos

A história do llms.txt é uma falha específica com uma causa geral. Uma tática se espalhou como boa prática antes de alguém validá-la contra o tráfego. A convenção parecia certa. Mapeava bem como humanos pensam em descoberta. Só faltava evidência de que os leitores que ela mirava algum dia a usariam.

Isso acontece o tempo todo em prontidão para IA. Um fornecedor dá nome a uma técnica, a técnica soa sofisticada, e ela se propaga por posts de blog e palestras de conferência até parecer obrigatória. Ninguém checa os logs, porque checar logs é chato e a técnica já parece verdadeira.

Seus logs de servidor não ligam para o que parece verdadeiro. Eles registram exatamente quais user-agents buscaram quais páginas, com que frequência, e se voltaram. Esse registro é a única resposta honesta para “nosso site está funcionando para IA”. A Ahrefs construiu toda a descoberta sobre esse tipo de dado primário, e derrubou uma prática muito repetida em um único estudo.

A disciplina operacional aqui é simples de enunciar e rara de seguir. Antes de adotar uma tática de prontidão para IA, pergunte que evidência existe de que ela funciona. Depois de adotar, cheque se o tráfego que você esperava realmente chegou. Se o arquivo que você publicou recebe zero leituras, pare de publicá-lo e ponha o esforço onde os agentes já estão.

Faça isso agora

Puxe seus logs de acesso dos últimos 30 dias e segmente por user-agent. Três perguntas:

Algo está buscando seu llms.txt? Rode um grep. Se a contagem de requisições for zero ou perto disso, você tem sua resposta sobre aquele arquivo, e pode recuperar o esforço de manutenção.
Quais bots de IA de fato batem no seu site? Ordene por volume. Se agentes de código como o Claude Code dominam, sua prioridade é documentação limpa, precisa e legível por máquina, não SEO de motor de resposta.
Onde o tráfego real de agentes está caindo? Essas são as páginas que merecem atenção de governança. As que os agentes nunca tocam dispensam qualquer estratégia de IA. Basta deixá-las em paz.

Os times que vencerem a era dos agentes não serão os que entregaram todos os arquivos recomendados. Serão os que leram os próprios logs e apontaram o esforço para o tráfego que está de fato lá.

Fontes

Ahrefs. “We Analyzed 137K Sites: 97% of llms.txt Files Never Get Read.” Junho de 2026.

A Victorino ajuda times a validar táticas de prontidão para IA com dados reais de tráfego, não com hype de fornecedor: contato@victorino.com.br | www.victorino.com.br