A Nota do Seu LLM É um Artefato de Scaffold. Eis o Que Realmente Importa.

Você troca o framework que executa uma tarefa de benchmark. Não o modelo. Não o prompt. Não os dados de teste. Só o scaffold, o código que orquestra a execução. O score do modelo oscila 15%.

Quinze pontos percentuais. Por causa de infraestrutura de avaliação.

Uma pesquisa da Epoch AI documentou exatamente isso no SWE-bench Verified: a mesma tarefa, o mesmo modelo, scaffolds diferentes. A variação chega a 15%. Isso significa que quando um leaderboard mostra um modelo com 72% e outro com 68%, a diferença pode não ser capacidade. Pode ser implementação.

O Que o Benchmark Realmente Mede

A maioria das organizações trata benchmarks como se fossem termômetros. Você mede, obtém um número, o número reflete a realidade. Só que benchmarks de LLM são sistemas complexos com pelo menos quatro fontes de variância: qualidade dos dados, formato de avaliação, scaffold de execução e critério de julgamento.

Cameron Wolfe, pesquisador da Netflix, dissecou a anatomia desses sistemas em uma análise técnica abrangente. Os achados são instrutivos.

O MMLU, o benchmark mais citado da indústria, contém aproximadamente 6,49% de erros em seus dados. Na subcategoria de Virologia, 57% das questões foram sinalizadas como problemáticas pela auditoria MMLU-Redux. Não são questões difíceis. São questões erradas.

O GPQA, desenhado para ser tão difícil que especialistas de domínio acertam apenas 65%, ilustra outro problema. Não-especialistas com acesso a ferramentas de busca atingem 34%. A distância entre “especialista humano” e “não-especialista com Google” é menor do que gostaríamos de admitir. E é contra essas baselines que comparamos modelos.

A Lei de Goodhart, Ao Vivo e em Cores

O IFEval mede a capacidade de modelos seguirem instruções formatadas: “responda em JSON”, “use exatamente três parágrafos”, “inclua a palavra X”. O TULU-3-8B atingiu 82,4 nesse teste.

Então pesquisadores criaram o IFBench, um teste equivalente com instruções novas que nenhum modelo havia visto durante treinamento. O mesmo TULU-3-8B caiu para 28,9.

De 82 para 28. Não porque o modelo perdeu capacidade entre um teste e outro. Porque ele havia memorizado os padrões do primeiro teste. Charles Goodhart formulou isso em 1975: quando uma medida se torna alvo, ela deixa de ser uma boa medida. Quarenta e um anos depois, estamos vendo a lei operar em escala industrial.

Como exploramos em artigo anterior, a contaminação dos benchmarks é um problema estrutural, não pontual. O IFEval é mais um exemplo.

O Problema Que Ninguém Vê (Literalmente)

Benchmarks de modelos visuais (VLMs) têm um defeito particular. Até 70% das questões em benchmarks populares de VLM podem ser respondidas sem olhar para a imagem. O modelo lê o texto da pergunta, ignora o input visual, e acerta.

A pesquisa DatBench revelou algo pior: até 42% dos dados de raciocínio espacial estavam rotulados incorretamente. Não é questão de modelo. É questão de dataset.

O filtro SMART, proposto para resolver parte desse problema, reduziu datasets em 48% enquanto melhorou a correlação com avaliações humanas reais (medida pelo ChatBot Arena). Menos dados, melhor sinal. O volume do benchmark trabalhava contra a qualidade da medição.

IRT: A Ferramenta Que Muda a Equação

A Teoria de Resposta ao Item (IRT) vem da psicometria. Cada questão de um teste recebe parâmetros estatísticos: dificuldade, discriminação, e probabilidade de acerto por chute. A questão passa a ter identidade própria, não apenas uma resposta certa ou errada.

Aplicada a benchmarks de LLM, a IRT permite algo que parece bom demais para ser verdade. Pesquisadores da IBM demonstraram no ICLR 2024 que 100 itens âncora, selecionados via IRT, reproduzem os resultados do MMLU completo (14.000 itens) com menos de 2% de erro. Redução de 140 vezes no custo de avaliação.

Não é aproximação grosseira. É engenharia de medição. A IRT identifica quais questões carregam informação discriminativa e descarta as que adicionam ruído sem sinal. O benchmark fica menor, mais barato, e mais preciso.

Existe uma limitação importante: a IRT assume traços latentes estáveis. LLMs apresentam saltos descontínuos de capacidade entre versões. Um modelo pode ser fraco em raciocínio matemático e, na versão seguinte, dar um salto qualitativo por causa de mudanças na arquitetura ou nos dados de treinamento. A calibração IRT de ontem pode não se aplicar ao modelo de amanhã. Isso não invalida a técnica, mas exige recalibração periódica.

Scaffold: A Variável Invisível

Volto ao ponto inicial porque ele merece repetição. Quando a Epoch AI documenta oscilações de 15% por troca de scaffold, ela está revelando algo que a maioria dos leaderboards ignora: o código que executa o benchmark é parte do benchmark.

O scaffold decide como formatar o prompt, como gerenciar contexto, como parsear a resposta do modelo, como lidar com timeouts. Cada uma dessas decisões afeta o score. Duas organizações avaliando o mesmo modelo no mesmo benchmark podem chegar a resultados significativamente diferentes porque seus scaffolds diferem.

Isso tem uma implicação direta para governança. Se você compara modelos usando scores de leaderboards diferentes, está comparando scaffolds, não modelos. Já mostramos que vendors vencem seus próprios benchmarks. Agora a questão é mais sutil: mesmo benchmarks idênticos produzem resultados diferentes dependendo de quem implementa a execução.

O Que Fazer Com Isso

Três ações concretas.

Primeira: separe o sinal do ruído na sua avaliação. Antes de comparar dois modelos, confirme que ambos foram avaliados com o mesmo scaffold, o mesmo formato de prompt, e os mesmos critérios de julgamento. Se qualquer uma dessas variáveis diferir, a comparação é inválida.

Segunda: considere IRT para avaliações internas. Se sua organização avalia modelos regularmente (e deveria), a redução de 140x no custo de avaliação que a IRT oferece não é trivial. Cem questões bem calibradas superam catorze mil questões mal calibradas. Invista na engenharia de medição, não no volume de testes.

Terceira: trate o scaffold como código de produção. Versione-o. Teste-o. Documente suas decisões de implementação. Quando o score de um modelo muda, sua primeira pergunta deve ser “o scaffold mudou?” antes de “o modelo melhorou?”

A Infraestrutura Que Falta

O problema com benchmarks de LLM não é que os benchmarks são ruins. Alguns são excelentes. O MMLU, apesar de seus 6,49% de erros, operou como padrão da indústria por anos. O GPQA levanta questões genuinamente difíceis. O SWE-bench, antes da contaminação que documentamos, media algo real sobre capacidade de codificação.

O problema é que organizações tratam scores de benchmarks como fatos quando são artefatos. Artefatos do dataset, do formato, do scaffold, da contaminação, da Lei de Goodhart. Cada score é o resultado de uma cadeia de decisões de engenharia, e cada decisão introduz variância.

A resposta não é abandonar benchmarks. É construir infraestrutura de medição que reconheça essa complexidade. IRT para eficiência. Controle de scaffold para reprodutibilidade. Avaliação operacional no seu contexto específico para relevância. Recalibração periódica para robustez temporal.

Sua organização provavelmente tem mais rigor ao medir a performance de um endpoint de API do que ao medir a capacidade do LLM que tomou decisões de negócio nesta semana. Esse desequilíbrio é a verdadeira questão de governança.

Fontes

Wolfe, Cameron R. “The Anatomy of an LLM Benchmark.” Março 2026.
Epoch AI. “Why Benchmarking Is Hard.” 2025.
Anthropic. “Demystifying Evals for AI Agents.” 2025.
Vendrow et al. “Do Large Language Model Benchmarks Test Reliability?.” 2025.
Gupta et al. “Improving Model Evaluation using SMART Filtering.” 2024.

Victorino Group ajuda organizações a construir infraestrutura de avaliação que mede o que realmente importa: contato@victorino.com.br | www.victorino.com.br