benn.substack Acaba de Nomear o que a Releezy Entrega: 'Vitórias Acima do Claude.'

TV
Thiago Victorino
6 min de leitura
benn.substack Acaba de Nomear o que a Releezy Entrega: 'Vitórias Acima do Claude.'

Divulgação antes do argumento. A Victorino vende medição relativa à baseline para trabalho com IA. É justamente por isso que este texto existe: um analista de fora acabou de nomear a unidade que entregamos, e prefiro citar ele do que a mim mesmo.

No dia 22 de maio, a benn.substack publicou um ensaio chamado “WAC”. A sigla vem do beisebol, onde “Wins Above Replacement” mede quantas vitórias adicionais um jogador entrega em relação ao substituto genérico que viria da liga de acesso. Benn propõe um análogo para compra de software. Wins Above Claude. Vitórias Acima do Claude. Valor gerado acima do que o Claude default integrado com seus MCPs já entrega de fábrica, antes de qualquer wrapper, agente ou “feature de IA” vendida por fornecedor entrar no jogo.

O enquadramento é amigável para compras, levemente sarcástico, e estruturalmente correto. Também encerra um debate que a indústria vinha evitando.

A era do benchmark acabou porque a baseline andou

Benchmarks comparam modelos contra um conjunto de testes fixo. O teste é constante. O modelo é a variável. Esse regime funcionava enquanto modelos de fronteira avançavam uma ou duas vezes por ano. Não funciona mais. Benn cita o llm-stats.com: 62 modelos de IA lançados em 126 dias. A constante deixou de ser constante. Qualquer pontuação de benchmark com data de publicação acima de seis semanas está descrevendo uma indústria diferente.

Pior: benchmarks avaliam modelos em condição de teste. A decisão de compra é sobre entregáveis produzidos dentro das ferramentas, da cultura, do código e do fluxo de trabalho da empresa. Nada disso está no benchmark. Um modelo que pontua 78% no SWE-bench pode ser inútil dentro de um monorepo específico, com um sistema de build específico, sob uma cultura de code review específica. Um modelo de 62% pode ser transformador no mesmo ambiente. O benchmark não consegue dizer qual.

A WAC consertou o lado errado da equação. Em vez de fixar o teste e variar o modelo, você fixa o contexto de implantação, sua empresa, suas ferramentas, seus fluxos, e varia o que entra em campo. A baseline passa a ser “o Claude default com os MCPs padrão, trabalhando nos seus problemas reais”. Qualquer fornecedor vendendo um agente, um wrapper ou uma feature de IA precisa demonstrar valor acima dessa baseline. Não contra uma avaliação sintética. Contra a coisa que o comprador já consegue contratar sozinho por US$ 20 por assento.

Por que isso generaliza além do Claude

A sigla é simpática, mas o princípio é portátil. Troque por qualquer default suficientemente capaz. Vitórias Acima do ChatGPT Enterprise. Vitórias Acima do Gemini Workspace. Vitórias Acima do Copilot. A mecânica é a mesma: já existe um assistente baseline dentro do fluxo de trabalho que entrega uma fração não-trivial do serviço, e a única medição honesta é o ganho marginal que um fornecedor pago adiciona em cima dele.

Isso não é hipotético. Pergunte a qualquer líder de engenharia o que os desenvolvedores efetivamente usam no dia a dia. A resposta envolve Claude, ChatGPT ou Copilot mais vezes do que qualquer ferramenta de IA aprovada pela área de compras. A baseline já está lá. Só não está no placar.

Essa é a consequência para a área de compras. Toda pitch de fornecedor de “produtividade com IA” em 2026 está vendendo um delta. A maior parte está fingindo que a baseline é zero. A contribuição do benn é nomear a mentira em voz alta. A baseline não é zero. A baseline é o que o assistente default já entrega dentro do seu contexto, e você precisa medir antes de avaliar a promessa de melhoria de qualquer fornecedor.

A analogia com contratação, que é a parte mais útil

Benn aponta a prática de contratação da Linear. Trials remunerados de dois a cinco dias, em vez de entrevistas tradicionais. O candidato executa trabalho real, no código real, com o time real, e o time mede saída real. Passou no trial, é contratado. Não passou, recebe pelo trabalho feito e a separação é respeitosa.

Por que isso importa para compra de IA: resolve o mesmo problema que os benchmarks não resolveram. Você não consegue avaliar um candidato, humano ou IA, no vácuo. A performance é contextual. Depende do código, das ferramentas, das normas do time, da cultura de revisão. A Linear descobriu que a única forma de saber se um engenheiro sênior é de fato sênior no contexto deles é colocá-lo no contexto e medir saída. O mesmo vale para um fornecedor de IA. A única forma de saber se um agente entrega valor acima da baseline do Claude no seu ambiente é implantá-lo no seu ambiente, ao lado da baseline, e medir.

A implicação: toda decisão relevante de compra de IA nos próximos 18 meses vai envolver alguma versão de trial remunerado. Não uma demo. Não um slideshow de prova de conceito. Uma implantação real, com trabalho real designado, medida contra a baseline, por tempo suficiente para gerar confiança estatística. Fornecedores que recusam esse formato estão dizendo que o delta deles não sobrevive ao contato com a realidade.

O que o comprador efetivamente precisa construir

WAC como expressão faz trabalho real. WAC como sistema de medição é mais difícil, e é aqui que a maior parte das empresas vai descobrir o custo de ter evitado o problema.

Para medir Vitórias Acima do Claude, o comprador precisa de quatro coisas que provavelmente não tem. Primeira, uma definição do que “vencer” significa para o trabalho em questão (tickets entregues, casos resolvidos, leads qualificados, contratos minutados, a unidade varia). Segunda, uma baseline instrumentada da versão “assistente default” desse trabalho ao longo de uma janela de tempo crível (semanas, não horas). Terceira, uma amostra do mesmo trabalho executada com a ferramenta do fornecedor no lugar, idealmente em split A/B ou sequencial sob condições pareadas. Quarta, um modelo de atribuição que sobrevive aos confundidores óbvios (diferenças de habilidade entre operadores, mix de dificuldade dos tickets, efeitos de calendário).

Isso não é benchmark. É infraestrutura operacional de medição. A maior parte das empresas também não opera essa infraestrutura para times humanos, e parte de por que o problema parece estranho aplicado à IA está aí. O Google acabou de expandir a caixa de busca pela primeira vez em 25 anos para acomodar queries de IA mais longas. A interface mudou porque o comportamento mudou. A interface de medição também precisa mudar. WAC é a versão do lado do comprador dessa mudança de interface.

Por que estamos reivindicando isso agora

A razão de termos publicado este texto na mesma semana que o benn é que “Vitórias Acima do Claude” é o nome do lado comprador para o que a Victorino vinha argumentando do lado vendedor há nove meses. Chamamos de medição relativa à baseline, ganho sobre o default, agente versus piso. Nenhum desses pegou. WAC vai pegar, porque a comunidade compradora de IA já está treinada em benchmarks, e substituto de benchmark ganha tração mais rápido do que categoria nova.

Prefiro operar dentro do vocabulário do benn do que do meu. O trabalho é o mesmo. Meça a baseline antes de acreditar na promessa. Construa o harness de trial antes de assinar contrato. Trate qualquer fornecedor que não passa em trial estilo Linear no seu contexto como fornecedor que não testou o próprio discurso.

Uma ressalva. O perigo de nomear uma categoria é que a categoria se dilui. “WAC-compliant” vai aparecer em deck de fornecedor dentro de um trimestre, e a maior parte desses decks vai estar vendendo o número errado. A defesa é mecânica, não retórica. Se o fornecedor não consegue descrever (a) qual é a sua baseline, (b) como ela foi medida, (c) em que janela, (d) qual delta ele reivindica em cima dela, com qual confiança, o selo WAC é decorativo. Faça as quatro perguntas sempre.

Faça isto agora

Antes da próxima reunião com fornecedor de IA, rode um exercício de três passos. Escolha um fluxo de trabalho que você está cogitando pagar para melhorar. Meça como o assistente default Claude ou ChatGPT performa nesse fluxo nas próximas duas semanas, instrumentado, com pelo menos três operadores. Essa é a sua baseline. Agora exija que todo fornecedor que entrar reivindique um delta específico acima desse número, com janela de medição proposta e intervalo de confiança. Quem articula isso ganha trial remunerado. Quem não articula ganha uma reunião de retorno depois que se organizar.

A forma mais rápida de tornar a compra de IA honesta é parar de deixar a baseline invisível. O benn acabou de dar nome à baseline. Use.


Fontes

A Victorino ajuda times de compra e venda a construir a medição relativa à baseline que transforma promessas de fornecedores de IA em deltas verificáveis: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa