Metade dos Seus Benchmarks Está Errada: Quando a IA Avalia a Si Mesma

Em março de 2026, três coisas aconteceram na mesma semana. O METR provou que benchmarks de código superestimam a capacidade real dos modelos em mais de 24 pontos percentuais. A Anthropic quantificou que a infraestrutura de teste introduz até 6 pontos percentuais de ruído nos resultados. E a OpenAI comprou o PromptFoo, a principal ferramenta independente de avaliação de IA.

Separadamente, cada evento é interessante. Juntos, formam um padrão: a infraestrutura que empresas usam para decidir quais modelos comprar está se deteriorando em três frentes simultâneas.

O Que os Mantenedores Realmente Pensam

O estudo do METR de março de 2026 fez algo que nenhum benchmark anterior tentou. Em vez de usar avaliadores automatizados para julgar código gerado por IA, os pesquisadores pediram a mantenedores reais de projetos open-source que revisassem 296 pull requests produzidos por agentes de IA.

Quatro mantenedores ativos de três repositórios (scikit-learn, Sphinx, pytest) avaliaram os PRs com o mesmo rigor que aplicariam a qualquer contribuição humana. A cobertura foi parcial: 95 das 500 issues do SWE-bench Verified, em 3 dos 12 repositórios. Mas o resultado é revelador.

A taxa de aceitação pelos mantenedores ficou 24,2 pontos percentuais abaixo do que os avaliadores automatizados atribuíam (erro padrão: 2,7). Para dar contexto: quando os mesmos mantenedores avaliaram patches escritos por humanos, 68% foram aceitos. A diferença não é marginal. É estrutural.

O Claude Sonnet 4.5, um dos modelos mais avançados do mercado, mostrou superestimação de aproximadamente 7x pelo avaliador automatizado. Sete vezes. Um número que o avaliador dizia “aprovado”, o mantenedor rejeitava seis em cada sete vezes.

A categoria número um de rejeição? Qualidade de código. Não erros funcionais. Não falhas de lógica. Qualidade. Os modelos resolvem o problema imediato, mas produzem código que nenhum mantenedor responsável aceitaria em um projeto que precisa ser mantido por anos.

Como exploramos no estudo anterior do METR, a distância entre medição automatizada e julgamento humano vem crescendo. Este estudo coloca um número preciso nessa distância: 24 pontos percentuais, com significância estatística.

O Ruído que Ninguém Controlava

A Anthropic publicou em março de 2026 um estudo menos chamativo, mas igualmente perturbador. A equipe de engenharia mediu quanto a configuração de infraestrutura afeta os resultados de benchmarks de agentes de código.

A resposta: 6 pontos percentuais de variação entre a configuração mais restritiva e a mais generosa no Terminal-Bench 2.0 (p < 0.01). Seis pontos que não têm nada a ver com a capacidade do modelo. São artefatos da máquina onde o teste roda.

Os números de taxa de erro contam a história. Com enforcement estrito de recursos, 5,8% dos testes falham por problemas de infraestrutura. Com três vezes mais recursos, cai para 2,1%. Com recursos ilimitados, 0,5%. O limiar de 3x se mostrou crítico: abaixo dele, recursos adicionais corrigem falhas de confiabilidade. Acima, permitem que o agente adote estratégias completamente diferentes.

A implicação prática é direta. Quando você lê que o Modelo A superou o Modelo B por 2 pontos percentuais em um benchmark de código, essa diferença pode ser inteiramente explicada pela configuração do servidor onde o teste rodou. A conclusão da Anthropic é explícita: “Diferenças de leaderboard abaixo de 3 pontos percentuais merecem ceticismo.”

Isso é particularmente relevante porque a maioria das decisões de compra se baseia exatamente nessas diferenças pequenas. Leaderboards de modelos são apresentados com precisão de décimos de ponto percentual, como se cada fração representasse capacidade real. Parte desses décimos é ruído de infraestrutura.

O ruído é corrigível. A Anthropic demonstrou isso. Mas corrigir exige padronização de ambientes de teste, o que nenhum laboratório tem incentivo competitivo para adotar unilateralmente. Se sua configuração de benchmark favorece seu modelo, por que mudar?

O Árbitro Trocou de Time

E então, a terceira peça do quebra-cabeça.

Em março de 2026, a OpenAI anunciou a aquisição do PromptFoo. Para quem não conhece: o PromptFoo era a principal ferramenta independente de avaliação de modelos de IA. Mais de 350 mil desenvolvedores. 130 mil usuários mensais ativos. Mais de 25% da Fortune 500 usando em produção. Projeto open-source com comunidade ativa.

A palavra-chave é “era”. O projeto open-source “persistirá”, segundo a OpenAI. Mas agora sob governança de um dos laboratórios sendo avaliados.

A analogia é simples. Imagine que a Moody’s fosse comprada pelo Goldman Sachs. A agência continuaria publicando ratings. Usaria as mesmas metodologias. Os analistas seriam os mesmos profissionais. Mas algo mudaria na credibilidade de cada rating publicado dali em diante. Não por fraude. Pela estrutura de incentivos.

O mesmo se aplica aqui. Não estou sugerindo que a OpenAI vai manipular o PromptFoo. Estou dizendo que a independência do avaliador é parte do que torna a avaliação confiável. Quando essa independência deixa de existir, a confiança precisa ser reconstituída de outra forma.

Para as empresas da Fortune 500 que usam PromptFoo em produção, a pergunta operacional é concreta: sua infraestrutura de avaliação de modelos agora depende de uma ferramenta controlada por um dos fornecedores sendo avaliados. Isso não invalida a ferramenta. Mas muda o perfil de risco da dependência.

Três Vetores, Um Problema

O que conecta esses três eventos?

Benchmarks automatizados superestimam capacidade real. A infraestrutura de teste introduz ruído não controlado. E a principal ferramenta independente de avaliação agora pertence a um laboratório.

Cada vetor sozinho seria administrável. A combinação dos três cria um cenário específico: empresas que dependem de scores públicos de benchmark para decisões de compra de IA estão operando com instrumentos de medição que superestimam em 24 pontos, flutuam em 6 pontos por ruído de infraestrutura, e são avaliados por uma ferramenta que perdeu independência.

Como analisamos em The Benchmark Is Contaminated. Now What?, a contaminação de benchmarks já era um problema antes desses três eventos. A OpenAI aposentou o SWE-bench Verified depois de encontrar defeitos em 59% dos problemas auditados. O estudo do METR agora adiciona evidência de que mesmo benchmarks não contaminados superestimam a utilidade prática dos modelos.

A dívida de verificação que documentamos em fevereiro está se tornando mais cara de servir. Não porque os modelos pioraram. Porque os instrumentos que deveriam medir a qualidade dos modelos se mostraram menos confiáveis do que pareciam.

O Que Resta Quando os Instrumentos Falham

Se benchmarks públicos não são confiáveis, leaderboards sofrem de ruído de infraestrutura, e a ferramenta independente de avaliação mudou de mãos, o que sobra?

Testes internos com seus próprios dados. Avaliação no seu contexto, com suas tarefas, medindo o que importa para sua operação. É mais caro que consultar um leaderboard. Também é a única abordagem que produz informação que você pode usar para tomar decisões.

Três perguntas que qualquer empresa comprando modelos de IA deveria estar fazendo agora.

Seus critérios de avaliação são internos ou terceirizados? Se você escolhe modelos com base em scores publicados pelos próprios laboratórios ou por ferramentas que pertencem a eles, seus critérios são terceirizados. Isso não significa que estão errados. Significa que você não tem como verificar.

Você controla o ambiente de teste? Seis pontos percentuais de variação por infraestrutura são suficientes para inverter rankings inteiros. Se você não padronizou o ambiente onde avalia modelos, qualquer comparação que fizer contém ruído que pode ser maior que a diferença real entre os modelos.

Sua avaliação mede capacidade ou utilidade? Um modelo pode pontuar alto em um benchmark e produzir código que nenhum mantenedor aceitaria. A distância de 24 pontos percentuais do estudo METR é a distância entre “resolve o problema no teste” e “produz algo que vale a pena manter.” Se sua avaliação mede apenas a primeira coisa, você está comprando capacidade. Utilidade é outra medida.

Os dados do METR merecem uma ressalva. A cobertura foi de 19% das issues e 25% dos repositórios do SWE-bench Verified. É uma amostra, não um censo. Os números do PromptFoo (350 mil desenvolvedores, 130 mil MAU) são auto-reportados. E o ruído de infraestrutura que a Anthropic identificou é, por definição, corrigível com padronização. Nenhum desses fatos invalida o padrão. Todos exigem que você leia os números com precisão, não com alarme.

A convergência desses três sinais não é alarmante. É informativa. Diz que o mercado de IA entrou em uma fase onde a capacidade de medir é tão importante quanto a capacidade de construir. Quem tem infraestrutura própria de avaliação opera com dados. Quem depende de benchmarks públicos opera com marketing.

A diferença entre os dois vai ficar cada vez mais cara.

Fontes

METR. “Many SWE-Bench-Passing PRs Would Not Be Merged.” Março 2026.
Anthropic Engineering. “Quantifying Infrastructure Noise in Agentic Coding Evals.” Março 2026.
PromptFoo. “PromptFoo Joining OpenAI.” Março 2026.

O Grupo Victorino ajuda empresas a construir infraestrutura de verificação que não depende dos laboratórios sendo avaliados: contato@victorino.com.br | www.victorino.com.br