O Julgamento do Seu Agente de IA Não É Medido. Uma Rubrica de PM Mostra o Que Corrigir.

Empresas gastam fortunas medindo o que agentes de IA produzem. Volume de código, tickets resolvidos, campanhas disparadas. Ninguém mede a qualidade das decisões que levaram a esse output.

Jeff Gothelf, autor de Lean UX, publicou uma rubrica para avaliar julgamento de produto em gerentes de produto. A rubrica tem quatro dimensões, pontuação de 1 a 3 cada, máximo de 12 pontos. Foi desenhada para PMs humanos.

O que Gothelf talvez não tenha percebido: ele criou um instrumento de governança para qualquer tomador de decisão. Incluindo agentes de IA.

O problema que a rubrica resolve

Julgamento sempre foi o diferencial entre profissionais competentes e excelentes. Dois PMs com acesso aos mesmos dados, mesmas ferramentas, mesmo mercado, produzem resultados radicalmente diferentes. A diferença não está na execução. Está na qualidade das decisões que antecedem a execução.

Quando diagnosticamos o problema de medição em janeiro, o foco era produtividade. Desenvolvedores acreditavam estar 20% mais rápidos; estavam 19% mais lentos. A distorção de percepção era o sintoma. A causa: medir atividade em vez de resultado.

A rubrica de Gothelf ataca a causa diretamente. Não pergunta “quanto você produziu?” Pergunta “quão bem você decidiu o que produzir?”

As quatro dimensões

Cada dimensão usa escala de 1 a 3. A pontuação total indica maturidade de julgamento.

1. Evidência do cliente

O que fundamenta as decisões?

Pontuação 1: suposição ou opinião interna. “Acho que o usuário quer isso.” Pontuação 2: dados de segunda mão ou analytics. “O funil mostra queda de 30% no checkout.” Pontuação 3: sinais diretos do cliente. Entrevistas, pesquisa primária, observação de comportamento real.

A maioria dos agentes de IA opera no nível 1. Quando um agente de segmentação de campanha escolhe audiências, ele trabalha com padrões estatísticos, não com entendimento do cliente. Quando um agente jurídico recomenda cláusulas, ele replica precedentes sem considerar o contexto específico do cliente.

Analytics sem interpretação é nível 2 no máximo. O salto para nível 3 exige contato com o usuário final, algo que pouquíssimos agentes sequer tentam fazer.

2. Clareza do resultado

Quão bem definida é a mudança pretendida?

Pontuação 1: vago. “Melhorar a experiência do usuário.” Pontuação 2: direcional. “Reduzir fricção no checkout.” Pontuação 3: mudança comportamental específica. “Cliente completa checkout sem precisar contatar suporte.”

A diferença entre 2 e 3 é a diferença entre intenção e verificabilidade. “Reduzir fricção” não é mensurável por observação direta. “Completar sem suporte” é. Você sabe que aconteceu ou não aconteceu.

Agentes de IA tendem a operar em nível 2. São bons em definir direção, ruins em especificar mudança comportamental observável. Peça a um agente para “otimizar” qualquer coisa e ele vai otimizar métricas proxy. Peça para mudar um comportamento específico e ele frequentemente não sabe como traduzir isso em ação.

3. Raciocínio de trade-off

Como a escolha é justificada em relação às alternativas?

Pontuação 1: “devemos fazer isso.” Sem comparação, sem alternativa considerada. Pontuação 2: “em vez de X.” Alternativa mencionada, mas sem justificativa estruturada. Pontuação 3: “escolhemos isso em vez de X por causa de Y insight do cliente.”

Este é o ponto onde a maioria dos agentes colapsa. Modelos de linguagem são treinados para responder, não para deliberar. Quando você pede uma recomendação, recebe uma. Quando pede alternativas, recebe uma lista. Quando pede raciocínio comparativo fundamentado em evidência do cliente, recebe simulação de raciocínio.

Simulação não é raciocínio. É a diferença entre um PM que diz “escolhemos A porque os dados de entrevista mostram que o comportamento B causa abandono” e um agente que diz “A é a opção recomendada com base na análise disponível.”

4. Estimativa de impacto

Existe pensamento de custo-retorno?

Pontuação 1: sem menção a custo ou ROI. Pontuação 2: estimativa grosseira, sem ROI comparativo. Pontuação 3: custo claro, impacto esperado e ROI comparado com a alternativa.

Como documentamos no problema dos 2%, 40% das organizações usam IA, mas apenas 2% das horas são efetivamente economizadas. A diferença entre investimento e retorno é gritante. A maioria das decisões de adoção de IA operava em nível 1 desta dimensão: sem pensamento de ROI, apenas entusiasmo.

Por que isso é governança, não apenas gestão de produto

A rubrica de Gothelf funciona porque trata julgamento como algo mensurável e treinável, não como talento inato. Essa mudança de perspectiva transforma o instrumento.

Se PMs humanos precisam pontuar 12/12, agentes de IA também precisam. Quando um agente toma decisões (segmentação de campanha, escolhas de design, recomendações jurídicas, priorização de backlog), as mesmas quatro perguntas se aplicam. Qual evidência fundamenta essa decisão? O resultado pretendido é verificável? Alternativas foram consideradas e comparadas? O custo-retorno foi estimado?

Na prática, a maioria dos agentes de IA pontua entre 4 e 6. Trabalham com dados (nível 2 em evidência), definem direção sem especificidade comportamental (nível 2 em clareza), não deliberam sobre alternativas (nível 1 em trade-off) e não calculam ROI comparativo (nível 1 em impacto).

Isso não torna agentes de IA inúteis. Torna a supervisão obrigatória. E a rubrica define exatamente onde a supervisão precisa atuar.

Como usar isso na prática

Três passos concretos.

Primeiro: pontue seus agentes atuais. Pegue as últimas dez decisões que cada agente tomou. Aplique a rubrica. O padrão vai emergir rápido. Você provavelmente vai descobrir que seus agentes são consistentemente fortes em uma dimensão e consistentemente fracos em outra.

Segundo: defina o piso aceitável por tipo de decisão. Decisões reversíveis (layout de email, ordem de backlog) podem operar com pontuação total de 6. Decisões irreversíveis (recomendação jurídica, segmentação de público em campanha com orçamento significativo) precisam de 9 ou mais. Se o agente não atinge o piso, a decisão sobe para um humano.

Terceiro: use o déficit como roadmap de melhoria. Se o agente pontua 1 em trade-off, o problema não é “o agente é ruim.” O problema é que o prompt, o contexto ou a arquitetura não exigem raciocínio comparativo. Corrija a estrutura, não o agente.

Como exploramos em O Imposto de Verificação, 4,6 horas economizadas geram 3,8 horas de verificação. A rubrica de Gothelf oferece uma forma de saber onde esse imposto de verificação será mais alto: nas dimensões onde o agente pontua mais baixo.

O que Gothelf acertou sem saber

Uma frase do artigo original merece ser isolada: “Você pode superar um concorrente em execução cada vez menos. Mas ainda pode pensá-lo melhor.”

Execução está convergindo. Ferramentas de IA nivelam velocidade, volume, alcance. Se todo mundo tem acesso aos mesmos modelos, a execução vira commodity. O que não vira commodity é a qualidade do julgamento que direciona a execução.

Para PMs humanos, isso significa que julgamento é a habilidade que justifica o salário. Para agentes de IA, significa que julgamento é a capacidade que justifica a confiança. E confiança sem medição é fé.

A rubrica de Gothelf transforma fé em métrica. Quatro dimensões, doze pontos, um número que você pode acompanhar ao longo do tempo. Simples o suficiente para ser usado. Rigoroso o suficiente para ser útil.

Comece pontuando. O número vai te dizer mais sobre seus agentes do que qualquer log de execução.

Fontes

Jeff Gothelf. “You Can Quantify Cost. Here Are Four Ways to Measure Judgment..” Março 2026.

Victorino Group ajuda empresas a medir e governar o julgamento de IA em escala. contato@victorino.com.br | www.victorino.com.br