16 mil Rodadas de Compra Simuladas: O Primeiro Dado Duro sobre Agentes de IA

Por dois anos a conversa “marketing para agentes” viveu de hipótese. Fornecedores vendiam schema, manuais de AEO prometiam lift de citação, e o stack de persuasão seguiu funcionando como se o comprador ainda fosse humano. Os céticos, nós inclusos, argumentavam que a fundação tinha mudado. Tínhamos intuição. Não tínhamos experimento controlado.

Esta semana ganhamos dois.

Pesquisadores da Bayes Business School e da King’s Business School, na Harvard Business Review de 12 de maio, rodaram mais de 16 mil situações de escolha simuladas em quatro agentes de IA e oito mecanismos promocionais, em quatro categorias de produto. A manchete: só rating empurrou consistentemente a escolha do agente para cima. Preço riscado, escassez, contagem regressiva, prova social, o stack inteiro de persuasão do e-commerce produziu efeitos instáveis e dependentes de modelo. Modelos de raciocínio penalizaram ativamente sinais agressivos, como se lessem manipulação.

Um dia antes, a Ahrefs publicou um estudo difference-in-differences com 1.885 páginas que adicionaram JSON-LD schema e mediu o efeito em três superfícies: AI Mode, ChatGPT e AI Overviews. Schema produziu 2,4% de lift em AI Mode, estatisticamente indistinguível de zero. Em AI Overviews, as páginas com schema perderam em média 12 citações diárias.

Dois estudos, uma mensagem. A era da hipótese acabou. A tática mais recomendada de AEO não funciona, e o manual de persuasão que construiu o e-commerce moderno não transfere para o agente.

O que o estudo da HBR mediu de fato

O desenho importa porque é a primeira pesquisa de marketing que tratou o agente de IA como a farmacologia trata um medicamento. Sabbah e Acar testaram GPT-4.1-mini, GPT-5, Gemini 2.5 Pro e Gemini 2.5 Flash Lite. Mantiveram o set de produtos constante, variaram um sinal promocional de cada vez e mediram se a escolha do agente mudava. Quatro categorias (fones de ouvido, aspiradores, vitaminas, tênis de corrida), oito mecanismos (preço riscado, desconto percentual, escassez, contagem regressiva, ratings, prova social, badges, frete grátis), mais de 16 mil rodadas.

Os achados, em ordem de peso prático.

Rating funcionou em todo lugar. Em todos os quatro modelos e todas as quatro categorias, estrela mais alta aumentou a probabilidade de seleção. É o único efeito universal do estudo. É também o único sinal que mapeia para algo verificável na página do produto, independente de como o lojista decora a listagem.

Sinais de desconto funcionaram de forma irregular. Preço riscado melhorou seleção no GPT-4.1-mini e no Gemini 2.5 Flash Lite. A resposta do Gemini 2.5 Pro enfraqueceu conforme o desconto ficava mais extremo. O GPT-5 deu sinais de penalizar escassez em certas categorias. O mesmo gatilho, desenhado para empurrar o mesmo comprador humano na mesma direção por trinta anos de e-commerce, produziu reações opostas em quatro agentes na mesma prateleira.

Modelos de raciocínio penalizaram a persuasão. Essa é a linha que deveria estar no quadro de todo CMO. Os modelos avançados se comportaram como se a intensidade em si fosse sinal de qualidade baixa. “Só restam 2” não criou urgência. Criou suspeita. O agente parece ler a manipulação, inferir que o vendedor é do tipo que manipula, e desconta a oferta de acordo.

A leitura dos autores está certa. A arquitetura de persuasão otimizada para vieses cognitivos humanos (aversão à perda, ancoragem, heurística de escassez) não transfere para um sistema que leu a literatura inteira sobre esses vieses e foi treinado, pelo menos em parte, para resistir.

O que o estudo da Ahrefs matou

Patrick Stox e equipe rodaram um difference-in-differences em 1.885 páginas que adicionaram JSON-LD schema entre outubro de 2025 e fevereiro de 2026. Compararam o comportamento de citação dessas páginas contra um grupo de controle pareado em três superfícies de IA.

Os números, secos:

AI Mode: +2,4% de lift de citação, p-valor não significativo.
ChatGPT: +2,2% de lift, também não significativo.
AI Overviews: -4,6% no comportamento de citação. Perda média de cerca de 12 citações diárias por página depois do schema.

Se schema funcionasse do jeito que dois anos de recomendação AEO afirmaram, esse estudo teria mostrado lift de dois dígitos em pelo menos uma superfície. Mostrou cara-ou-coroa em duas e penalidade mensurável na terceira. O resultado em AI Overviews, que contradiz o consenso de maneira mais agressiva, exige a ressalva de que DiD em dado observacional não prova causalidade. Adicionar schema talvez não cause a perda. Pode apenas correlacionar com sites que estão se reestruturando de forma que o AI Overviews já não gostava. De qualquer modo, o ganho prometido aos praticantes não está no dado.

A leitura correta não é “schema é nocivo”. É “schema decorativo é ruído”. Se seu schema melhora a apresentação para o humano, mantenha. Se você está incluindo JSON-LD porque uma ferramenta disse que aumenta citação em IA, a ferramenta estava errada.

Lendo os dois estudos juntos

Se você lê o HBR isolado, a lição soa como “redesenhe seu stack de persuasão para agentes”. Se lê o Ahrefs isolado, soa como “pare de otimizar markup”. Lidos juntos, o padrão é estrutural.

Persuasão para de funcionar quando o comprador consegue ler a manipulação. AEO para de funcionar quando o motor de resposta otimiza para substrato em que já confia (publishers, reviews, bases transacionais) em vez de decoração que o autor controla.

Os dois estudos apontam para os mesmos fundamentos. Sinais verificáveis de produto. Reviews de terceiros autênticos. Honestidade de preço. Substrato que o agente consegue auditar contra o resto da web. As jogadas que sobrevivem são as que já eram verdadeiras antes do agente chegar. As que falham são as que eram marketing fantasiado de informação.

O framework Organic Media Mix da Brainlabs, publicado na mesma semana, dá a esse argumento o enquadramento operacional que um CMO pode realmente usar. O dado de caso deles em uma única marca mostrou 23% das citações do ChatGPT vindas do Reddit, contra 3% das citações do AI Overviews vindas da mesma fonte. Canais importam por plataforma, e o mix que vence em um motor pode ser irrelevante em outro. O OMM para de tratar “visibilidade em IA” como bloco único. Trata cada superfície como um problema editorial próprio, com substrato próprio.

É consistente com o que argumentamos em nossa peça sobre a pilha de governança de marketing assimétrica: a camada que o marketing realmente controla é mais estreita do que os fornecedores sugerem. HBR e Ahrefs acabam de fornecer o dado controlado para esse argumento.

O agente não é uma busca que aprendeu a conversar

A pressuposição maior em dois anos de literatura AEO foi que IA de busca é busca-mais-resumo. Otimize o índice, seja citado. O dado da HBR falsifica essa hipótese para compras. O dado da Ahrefs falsifica para citação em pelo menos uma superfície.

O agente está mais perto de um analista júnior com uma calculadora e uma lista de leitura do que de um motor de busca. Penaliza venda óbvia. Dá peso a sinais que consegue cruzar. Trata conteúdo decorativo como decoração. Modelos de raciocínio vão ficar melhores nisso, não piores. A penalidade por intensidade que Sabbah e Acar acharam não é bug em correção. É feature em treino.

A implicação passa por toda a página de produto. Se o agente lê intensidade de marketing como sinal de qualidade ao contrário, então as superfícies de alta pressão que o marketing adora (popups, contagens, badges de prova social, “X pessoas vendo agora”) viram passivo no momento em que um agente lê. A mesma superfície pode gerar conversão humana às 9h e deprimir a recomendação do agente às 9h05. O tráfego de agentes ainda é pequeno, mas cresce mês a mês, e o custo de operar dois incentivos opostos na mesma página não é zero.

O que já sabíamos e o que esses dados confirmam

Argumentamos em a peça sobre o colapso da verificação em compras com IA que o agente trataria as alegações de produto do jeito que um auditor trata PR de fornecedor. A penalidade dos modelos de raciocínio na HBR é a versão empírica desse argumento. Argumentamos em a peça da superfície AEO legível por agentes que o marketing escreve agora para dois leitores, e um deles conta tokens. O estudo de schema da Ahrefs nos diz que o segundo leitor não paga adicional por tokens decorativos. Argumentamos em a peça dos sinais difíceis que fundamentos venceriam tática. Dois meses depois, o dado controlado chegou.

Esse é o valor de um arco de conteúdo que capitaliza. Não estávamos esperando esses estudos para saber o que recomendar. Estávamos esperando para tornar a recomendação inegável.

O que fazer esta semana

Cinco movimentos, em ordem de retorno por hora investida.

Primeiro, audite sua página de produto pela intensidade de persuasão. Conte os sinais de escassez, contagens regressivas, badges de “vendendo rápido” e popups de carrinho abandonado disparando na página. Cada um virou troca de dois lados. Se o tráfego de agentes já passa de 5% das sessões e cresce, a troca já é negativa em alguns segmentos. A correção não é remoção universal. É tornar intensidade uma camada configurável que rebaixa quando o user-agent ou o sinal comportamental se parece com sessão de agente.

Segundo, invista em substrato de rating. O estudo da HBR confirma o que fornecedores de plataforma de review dizem há anos, com uma condição nova: o agente verifica. Ratings inflados, reviews plantados e padrões de bloqueio de avaliação que o agente detecta cruzando plataformas de review com políticas do lojista serão descontados do mesmo jeito que o agente descontou escassez. Rating é durável só se for real.

Terceiro, pare de gastar orçamento novo em schema decorativo. Se você tem implementação de schema que ajuda a apresentação para o humano (receitas, eventos, produtos com preço e disponibilidade estruturados que aparecem em SERP), mantenha. Não encomende projeto novo de schema com a promessa de lift em citação por IA. O DiD da Ahrefs é o teste mais limpo que temos. A resposta é não.

Quarto, construa um mapa de citação por superfície no formato do OMM da Brainlabs. Pare de tratar “visibilidade em IA” como número único. Reddit move ChatGPT, notícia move AI Mode, base transacional move agente de compra. Cada superfície ganha seu plano de substrato.

Quinto, escreva sua política de governança para a camada de persuasão como você escreveu para a camada de consentimento. Quais superfícies estão autorizadas a disparar quando o leitor provável é agente. Quem aprova uma campanha que inclua tática de pressão. O que entra na trilha de auditoria. Governança de marketing não é só consentimento e dado; é também a integridade do sinal de compra. O estudo da HBR acabou de tornar esse argumento inevitável.

O stack de persuasão que construiu o e-commerce moderno foi um acúmulo de trinta anos de economia comportamental, otimizado para cognição humana. Nunca ia transferir limpo para um leitor que leu os manuais. A boa notícia no dado é que as jogadas duráveis seguem duráveis. Reviews reais. Preço honesto. Substrato que o agente consegue verificar. A má notícia é que as jogadas decorativas, incluindo aquelas em que o marketing mais gastou em 2024 e 2025, agora são mensuráveis como decoração.

A era da hipótese acabou. O dado chegou. Planeje de acordo.

Fontes

Harvard Business Review. “Research: Traditional Marketing Doesn’t Work on AI Shopping Agents.” Maio de 2026.
Ahrefs. “We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.” Maio de 2026.
Brainlabs. “The Organic Media Mix.” Maio de 2026.

A Victorino ajuda times de marketing a construir medição e governança conscientes de agentes: contato@victorino.com.br | www.victorino.com.br