Sua Feature de IA Está Pronta Quando Você Mediu a Variância e Ensaiou a Recuperação

Uma feature determinística está pronta quando os testes passam. Você escreve a especificação, escreve as asserções, sinal verde, sobe. A definição de pronto ficou estável por trinta anos porque o comportamento é estável: mesma entrada, mesma saída, sempre.

Features de IA quebram esse contrato na raiz. O mesmo prompt contra o mesmo modelo pode devolver uma resposta defensável na terça e uma fabricação confiante na quarta. Não existe asserção que fique vermelha no segundo caso, porque a saída nunca foi errada no sentido que sua suíte de testes entende. Foi plausível. Só era falsa. Jeff Gothelf, que passou quinze anos escrevendo sobre como times de produto definem o trabalho, deu uma borda afiada ao problema em junho de 2026: “Pronto é uma calibração sobre uma variância aceitável de saída e comportamento, não um resultado binário sobre aderência à especificação.”

Leia de novo. Pronto é uma calibração. A palavra exige um número, um dono e um ensaio. A maioria dos times que sobe features de IA não tem nenhum dos três.

Um Número de uma Avaliação Real

A abstração continua confortável até alguém medir. Em maio de 2026, a MeasuringU rodou um experimento que deveria estar colado na parede de todo time que coloca IA dentro de um fluxo de trabalho. Pegaram um único vídeo de usabilidade de seis minutos, do tipo que um pesquisador de UX revisa para achar atrito em uma interface, e pediram que humanos e modelos de fronteira encontrassem os problemas de forma independente.

Os modelos não eram brinquedo. ChatGPT-5.4 Thinking e Gemini 3 Flash Thinking, quatro execuções cada, as configurações que um time sério de fato colocaria em produção. Os humanos encontraram 9 problemas. A IA levantou 14. Apenas 3 problemas coincidiram entre todas as partes. Até aqui parece vitória das máquinas: mais achados, cobertura mais ampla, mais velocidade.

Então conferiram os 11 achados que a IA levantou e nenhum humano levantou. Um era uma percepção genuína que um humano havia perdido. Um. Os outros dez se dividiram em sete falsos alarmes e três alucinações: problemas descritos com plena confiança que não existiam no vídeo. Em taxas, 9% genuíno, 64% falso alarme, 27% fabricado. Para colher a única percepção real que a IA adicionou, um humano teve que atravessar dez distrações, três delas pura invenção.

É essa a variância de que Gothelf fala, expressa como medição e não como preocupação. A IA foi útil. E também estava errada na maioria das vezes em que abriu a boca. As duas afirmações são verdadeiras ao mesmo tempo, e uma definição de pronto que captura só a primeira não é uma definição. É um slide de marketing.

Por Que “Os Testes Passam” Não Sustenta Esse Peso

O instinto é recorrer à ferramenta antiga: escrever mais testes, apertar as asserções, subir a barra até o ruído parar. Não funciona, e a razão é estrutural, não uma questão de esforço.

Um teste codifica uma saída esperada. Uma feature probabilística tem uma distribuição esperada. Você consegue afirmar que uma função retorna 4 para uma entrada de 2 mais 2. Não consegue afirmar que um revisor de usabilidade retorna exatamente estes nove achados, porque a resposta aceitável é uma faixa, e a linha entre um achado criativo mas válido e uma alucinação confiante é justamente o julgamento que você esperava automatizar. A taxa de 64% de falso alarme não é um defeito que se corrige com patch. É uma propriedade da ferramenta na capacidade atual, e vai se mover, para cima ou para baixo, a cada atualização de modelo que você não controla.

Então a aceitação tem que sair de um ponto único para uma banda. Pronto deixa de ser “retornou a resposta certa”. Pronto vira “ao longo de N execuções, a saída permaneceu dentro de uma distribuição com a qual concordamos em conviver, e sabemos o que acontece quando ela desliza para fora dessa banda”. O resultado da MeasuringU dá o formato da pergunta que todo time agora precisa responder antes de subir: que taxa de falso alarme as pessoas a jusante conseguem de fato absorver, e em que ponto o custo de filtrar o ruído apaga o valor do sinal?

As Três Coisas Que “Pronto” Agora Exige

Gothelf nomeia a segunda metade da definição com clareza: “Você está pronto quando as pessoas a jusante da feature sabem o que fazer quando ela se comporta mal.” Não se ela se comporta mal. Quando. Essa única palavra reorganiza o trabalho. Eis a forma operacional.

Uma distribuição de saída aceita. Antes de subir, rode a feature o suficiente sobre entradas representativas para caracterizar a faixa dela, do jeito que a MeasuringU caracterizou quatro execuções em dois modelos. Escreva a tolerância como um número que o time assina embaixo. Não “funciona bem”. Uma taxa: este é o nível de falso positivo que aceitamos, este é o piso de sinal genuíno que exigimos, e abaixo disto não subimos.

Um dono nomeado para triagem de falha. Quando a feature emite uma fabricação confiante dentro de um fluxo a jusante, exatamente uma pessoa é dona da resposta. Não o time. Um nome. O achado da MeasuringU torna o custo concreto: todo falso positivo que a IA levanta é tempo humano gasto desprovando um problema que nunca esteve lá. Alguém tem que ser dono desse loop de filtragem, decidir o que chega ao cliente e carregar o orçamento da verificação que isso exige.

Um rollback ensaiado atrelado a um gatilho. Um sinal de monitoramento observa a distribuição em produção. Quando a taxa de falso positivo cruza a banda que você aceitou, um alarme dispara e um rollback que você já praticou executa. Ensaiado é a palavra que sustenta a frase. Um rollback que você nunca rodou é uma esperança, não um controle. A primeira vez que você o exercita não pode ser durante o incidente.

Três artefatos. Nenhum deles é código. Todos eles são a feature.

O Loop Humano É o Produto

A conclusão incômoda dos números da MeasuringU é que o loop de supervisão humana não é um andaime temporário que você remove quando o modelo melhorar. A 64% de falso alarme, o revisor que filtra a saída é quem faz o trabalho que sustenta tudo. O modelo amplia a busca; o humano decide o que é real. Tire o humano e você sobe os 64% direto no fluxo, onde custa mais para limpar do que economizou para gerar.

É por isso que “pronto” para uma feature de IA tem que incluir o loop. Já escrevemos antes sobre como construir o sistema de captura que intercepta alucinações e sobre o imposto de verificação que a supervisão impõe a cada saída. A definição de pronto é onde essas duas ideias viram contrato: você não pode chamar a feature de terminada até que o sistema de captura exista, o imposto tenha um dono com orçamento para pagá-lo, e a revisão em camadas que paradoxalmente pode somar risco tenha sido ajustada para que a filtragem não custe mais do que o sinal vale.

Faça Isto Agora

Escolha uma feature de IA que você já subiu. Faça três perguntas, em voz alta, com o time na sala.

Primeira: qual é a distribuição de saída aceita, como número? Se a resposta for um sentimento em vez de uma taxa, você subiu uma calibração que nunca calibrou. Rode vinte vezes sobre entradas reais esta semana e anote a faixa.

Segunda: quem faz a triagem de uma fabricação confiante, com nome? Se a resposta for “o time” ou “a gente perceberia”, ninguém é dono, e a falha vai cair em cima de quem tiver azar.

Terceira: quando foi a última vez que você ensaiou o rollback? Se a resposta for nunca, você tem uma esperança com botão de deploy, não um controle.

Uma feature determinística estava pronta quando os testes ficavam verdes. Uma feature de IA está pronta quando a variância foi medida, o dono foi nomeado e a recuperação foi rodada pelo menos uma vez antes de ser necessária. Tudo aquém disso é um checkbox fingindo ser uma calibração.

Fontes

Jeff Gothelf. “What ‘Done’ Means When You’re Shipping AI Features.” Junho de 2026.
MeasuringU. “Does AI Find Real UI Problems or Just Hallucinations?.” Maio de 2026.

A Victorino ajuda times a definir aceitação operacional de features de IA, com o loop de supervisão já no lugar: contato@victorino.com.br | www.victorino.com.br