Poder Estatístico É a Falha Oculta de Governança de IA em Marketing

Todo deck de marketing deste trimestre traz uma linha parecida com “nossa campanha de IA aumentou conversão em 44% com 99% de confiança”. A maior parte desses slides está errada, e o motivo é um número que ninguém reporta.

Ronny Kohavi, ex-Distinguished Engineer da Microsoft e VP do Airbnb, coautor de Trustworthy Online Controlled Experiments (Cambridge, 2020), publicou no LinkedIn este mês um exemplo trabalhado. De acordo com a análise de Kohavi, um uplift de 44% reportado com 99% de confiança, calculado a partir de um experimento com 6,9% de poder estatístico, tem 87% de chance de ser um falso positivo. Oitenta e sete por cento. Não o inverso de 99%. Não 1%. Oitenta e sete.

A confiança de 99% era honesta no sentido em que a maior parte do reporte de marketing é honesta. Também era funcionalmente irrelevante, porque é o poder, não a confiança, que governa se um resultado é real.

Essa é a camada que falta na pilha de marketing com IA. Passamos um ano discutindo arquitetura de consentimento, visibilidade de citação e governança de agentes. Por baixo de tudo isso está a governança de experimentação, e hoje a maioria das áreas de marketing simplesmente não tem uma.

Confiança não é o que as pessoas pensam que é

Confiança responde a uma pergunta estreita. Se não existe efeito real, com que frequência eu veria por acaso um resultado tão extremo quanto este? Confiança de 99% quer dizer: em 1% das vezes, só o ruído já produziria isso. Útil, mas só sob a condição de que o experimento foi montado para detectar um efeito real desde o início.

Poder estatístico é a segunda condição. Poder responde: se existe um efeito real de tamanho X, com que frequência meu experimento o pegaria de fato? O padrão de indústria para experimentos controlados é 80% de poder. O exemplo de Kohavi tem 6,9%.

Veja o que 6,9% de poder significa na prática. O experimento foi montado de modo que, mesmo se um uplift genuíno de 5% existisse no mundo real, o teste só o detectaria em 7% das vezes. Isso não é um instrumento de medição. É uma moeda viciada levemente para um lado. Quando um experimento desse tipo reporta 44% de uplift, a explicação mais provável não é “a IA funciona tanto assim”. A explicação mais provável é “peguei uma cauda da distribuição de ruído e congelei como verdade”.

Combine os dois: poder baixo mais efeito chamativo mais alta confiança resulta em 87% de falso positivo, segundo os números de Kohavi. A frase para guardar é “alta confiança em um instrumento ruidoso não é alta confiança no resultado”.

Por que campanhas de IA pioram isso

Otimização de marketing com IA roda mais experimentos, mais rápido, em incrementos menores de tráfego, com regras de parada mais frouxas do que a literatura de experimento controlado pressupunha. Cada um desses movimentos degrada o poder.

Mais variantes dividem o tráfego, o que reduz a amostra por braço e derruba o poder. Ciclos mais rápidos tentam o time a declarar vencedor no terceiro dia de um teste de quatorze dias, o que infla a taxa de falso positivo. Regras de parada frouxas (“a gente espia e fecha quando a linha cruza”) destroem as garantias estatísticas em que o número de confiança se apoiava.

A parte da IA agrava o problema de um jeito que deveria preocupar qualquer operador. Sistemas de auto-otimização realimentam o “vencedor” de ontem na segmentação de amanhã. Se o vencedor era ruído, o sistema agora otimiza em direção a um fantasma. Componha isso ao longo de um trimestre de testes semanais e você não tem uma máquina de marketing. Tem um caça-níquel com marca.

O arco de governança de marketing se fecha aqui. Argumentamos na peça da pilha de governança que consentimento é a única coluna de governança real que marketing controla hoje, enquanto medição é observabilidade vestida de controle. Governança de experimentação é a camada abaixo das duas. Se o instrumento de medição está quebrado, nenhum dashboard salva as decisões que saem dele.

O que governança de experimentação realmente exige

Trate isso como engenharia trata governança de deploy. Três artefatos, sempre, antes do primeiro usuário ver o teste.

Um cálculo de poder. Antes do lançamento, calcule o efeito mínimo detectável a 80% de poder dado seu tráfego. Se seu tráfego semanal só permite detectar 12% de uplift a 80% de poder, então um resultado de 4% é não interpretável. Não “pequeno mas real”. Não interpretável.

Um compromisso de amostra e duração. Decida, antes do lançamento, quanto tempo o teste roda e qual amostra ele precisa. Escreva. Parar antes deve exigir override explícito com revisor, do mesmo jeito que um hotfix em produção exige.

Uma hipótese pré-registrada. Diga o que você espera observar e o que falsificaria a hipótese. Variantes geradas por IA são especialmente vulneráveis a “testamos cem coisas e reportamos as três que ganharam”. Pré-registro mata esse padrão.

Nada disso é novidade. Trustworthy Online Controlled Experiments é o manual operacional há uma década. O que mudou é que a otimização por IA removeu o atrito lento e manual que costumava impor essas disciplinas por acidente. Sem o atrito, as disciplinas precisam virar governança, não hábito.

A falha cultural por baixo

O motivo dessa camada estar ausente não é técnico. É de incentivo. Um time de marketing que reporta “rodamos 40 testes neste trimestre e 12 produziram uplifts significativos” recebe elogios. Um time que reporta “rodamos 40 testes neste trimestre, 27 estavam subdimensionados e não interpretáveis e 3 produziram uplifts significativos que conseguimos defender” recebe perguntas. O primeiro time é premiado por ruído. O segundo é premiado por honestidade, mas só por gestores que entendem a diferença.

É o mesmo padrão que engenharia atravessou com testes instáveis. Por anos, times subiam código com CI verde que estava verde porque a instabilidade calhou de cair certo naquele dia. A correção não foi melhorar os testes. Foi tratar instabilidade como bug a ser pago, com métricas que expunham o problema. Experimentação de marketing está no momento equivalente. Testes subdimensionados são instabilidades. Não são “vitórias pequenas”. São relatórios de ruído.

O CMO que aprende a perguntar “qual era o poder daquele teste” antes de perguntar “qual foi o uplift” é o que para de definir estratégia em cara ou coroa. A pergunta não custa nada. O custo é admitir que a maioria das “vitórias” do trimestre não eram medições.

O que fazer na segunda-feira

Puxe os últimos dez relatórios de experimento que o seu time rodou. Para cada um, faça três perguntas. Qual era o poder estatístico no tamanho de uplift reportado? Qual era a amostra e a duração pré-comprometidas, e você honrou? Qual era a hipótese pré-registrada? Se você não consegue responder as três para a maioria dos dez, você não está rodando experimentos. Está rodando anedotas com gráfico. Conserte os próximos dez antes de consertar qualquer outra coisa, porque cada decisão de otimização de IA a jusante é só tão confiável quanto o teste que a alimentou.

Fontes

Ronny Kohavi. “This A/B Test Result With 99% Confidence Is 87% Likely to Be Wrong.” Maio de 2026.
Kohavi, Tang & Xu. “Trustworthy Online Controlled Experiments.” Cambridge University Press, 2020.

A Victorino ajuda times de marketing e produto a desenhar governança de experimentação que captura falsos positivos antes que virem estratégia: contato@victorino.com.br | www.victorino.com.br