O Ruído É o Sinal: Dados do METR Mostram Que Medir IA Está Mais Difícil, Não Mais Fácil

Em fevereiro, escrevemos sobre o problema de dependência do METR: a organização não conseguia mais manter grupos de controle limpos porque desenvolvedores se recusavam a trabalhar sem IA. Era uma crise de medição no nível do experimento.

Novos dados do METR, reportados por Timothy B. Lee no Understanding AI, revelam uma crise mais profunda. Os próprios instrumentos de medição estão quebrando. Benchmarks estão saturando. O ruído no nível de tarefas abrange faixas tão amplas que resultados individuais são quase insignificantes. E o custo de estabelecer baselines humanas está se tornando proibitivo.

O problema de medição não está melhorando com metodologia melhor. Está ficando estruturalmente pior.

O Teto dos Benchmarks

O MMLU era o padrão ouro para capacidade geral de IA. Veja o que aconteceu com ele:

GPT-3 (2020): 43,9%
GPT-4 (2023): 86,4%
GPT-4o (2024): 88,7%
GPT-4.1 (2025): 90,2%

A curva achatou. Não porque os modelos pararam de melhorar, mas porque o teste ficou sem espaço. Pesquisa de Northhouse et al. (2024) encontrou que aproximadamente 6,5% das questões do MMLU contêm erros, colocando o teto teórico em torno de 93%. A distância entre o GPT-4 e esse teto é ruído, não sinal.

Este é o paradoxo dos benchmarks que identificamos em nossa análise anterior: quando um benchmark satura, ele para de medir diferenças de capacidade e começa a medir artefatos do teste. A comunidade respondeu criando testes mais difíceis. O Humanity’s Last Exam (HLE) foi lançado com o o3-mini pontuando 13,4%. O Gemini 3.1 agora lidera com 44,7%. O padrão já está se repetindo. Esses benchmarks também vão saturar. Sempre saturam.

O Benchmark de Duração de Tarefas do METR: Explosão de Capacidade

O benchmark de duração de tarefas do METR mede algo diferente: por quanto tempo um agente de IA consegue trabalhar autonomamente, medido em esforço equivalente de um programador humano? A progressão é impressionante:

GPT-3.5: ~30 segundos
GPT-4 (março 2023): ~4 minutos
o1 (dezembro 2024): ~40 minutos
GPT-5 (agosto 2025): ~3 horas
Claude Opus 4.6 (fevereiro 2026): ~12 horas
Claude Opus 4.6 com CI (fevereiro 2026): 5 a 66 horas

O salto de 30 segundos para 12 horas em três anos é extraordinário. Mas olhe a última linha. O Claude Opus 4.6 com infraestrutura computacional pontua algo entre 5 e 66 horas. Isso não é uma medição. É uma confissão de que a medição nessa escala ainda não funciona.

”Extremamente Ruidoso” É um Eufemismo

David Rein, do METR, disse sem rodeios: “Quando dizemos que a medição é extremamente ruidosa, estamos falando sério.”

Joel Becker, também do METR, tornou concreto: “Se tirássemos uma tarefa ou adicionássemos outra, potencialmente em vez de 14,5 horas, mediríamos 8 ou 20 horas.”

Considere o que isso significa. Uma única adição ou remoção de tarefa pode alterar a capacidade medida em quase 2x. O benchmark não está medindo uma propriedade estável do modelo. Está medindo a interação entre um modelo específico e um conjunto específico de tarefas, e essa interação é dominada por quais tarefas estão no conjunto.

Isso é fundamentalmente diferente de benchmarks tradicionais de software, onde adicionar mais um caso de teste não dobra nem reduz pela metade a pontuação. A capacidade de IA na fronteira é irregular. Modelos são brilhantes em algumas tarefas e incompetentes em tarefas intimamente relacionadas. Um benchmark que captura um pico parece transformador. O mesmo benchmark levemente deslocado parece medíocre.

O Problema da Baseline de US$ 8 Mil

Aqui está a parte que torna o problema de ruído estrutural em vez de solucionável. Para medir se uma IA consegue lidar com uma tarefa de 160 horas, você precisa de uma baseline humana. Precisa que um humano realmente execute a tarefa para ter um ponto de comparação.

A taxas profissionais, isso custa mais de US$ 8 mil por tarefa. E você precisa de múltiplas baselines humanas por tarefa para estabelecer variância. E precisa de dezenas de tarefas para obter significância estatística.

O METR está descrevendo um regime de medição que custa centenas de milhares de dólares por execução de benchmark. Essa não é uma metodologia escalável. À medida que a capacidade da IA aumenta e a duração das tarefas cresce, o custo das baselines humanas cresce linearmente com ela. Eventualmente, estabelecer o que um humano consegue fazer se torna mais caro do que construir o sistema de IA que você está tentando medir.

Esta é a versão de medição do problema de dependência que documentamos em fevereiro. Naquela análise, desenvolvedores não conseguiam separar trabalho assistido por IA de trabalho sem IA. Agora, a infraestrutura de medição não consegue escalar para acompanhar a capacidade que está tentando medir.

O Que Benchmarks Saturados Realmente Dizem

Quando um benchmark satura, organizações enfrentam uma escolha. Podem tratar a pontuação saturada como evidência de que o problema está resolvido (não está). Podem criar um benchmark mais difícil e reiniciar o ciclo. Ou podem aceitar que benchmarks nunca foram o instrumento certo para a decisão que estão tentando tomar.

A maioria das decisões de aquisição de IA depende de comparações de benchmarks. Modelo A pontua 90,2% no MMLU. Modelo B pontua 88,7%. Modelo A vence. Mas se o teto é 93% e 6,5% das questões estão erradas, a diferença entre 90,2% e 88,7% é estatisticamente irrelevante. Você está comparando ruído com ruído.

As organizações que tomam as melhores decisões de seleção de modelos já superaram a aquisição baseada em benchmarks. Elas executam seus próprios frameworks de avaliação contra suas próprias tarefas, com seus próprios critérios de sucesso. Isso é caro. Também é a única abordagem que produz sinal acionável.

As Implicações para Governança

Três coisas seguem dos dados do METR.

Primeiro, as alegações de benchmark dos fornecedores estão se tornando menos informativas, não mais. Quando a diferença entre modelos em benchmarks saturados é menor que a taxa de erro do próprio benchmark, os números são decorativos. Trate-os como tal. Qualquer framework de governança que dependa de limiares de benchmark para decisões de aquisição ou risco precisa de recalibração.

Segundo, a capacidade está ultrapassando a medição. O Claude Opus 4.6 consegue lidar com tarefas equivalentes a 12 horas de esforço de programação humana. Mas o intervalo de confiança nesse número pode abranger 4x. Organizações adotando modelos de fronteira estão implantando capacidades que não conseguem caracterizar com precisão. Isso não é necessariamente uma razão para parar de implantar. É uma razão para investir em sua própria stack de verificação em vez de depender de números reportados por fornecedores.

Terceiro, o custo de medição rigorosa está se tornando uma restrição de governança. Se estabelecer uma baseline humana para uma tarefa custa US$ 8 mil, a maioria das organizações não vai fazer isso. Vão depender de benchmarks de fornecedores, relatos de pares ou intuição. A lacuna entre o que medição rigorosa custa e o que organizações estão dispostas a gastar é uma vulnerabilidade de governança. Significa que a maioria das decisões de implantação de IA é tomada com menos informação do que os tomadores de decisão acreditam ter.

Medição Como Infraestrutura

Temos acompanhado essa trajetória desde nossa primeira análise sobre o METR. O padrão é consistente: cada avanço em capacidade de IA degrada os instrumentos usados para medir capacidade de IA.

O METR está fazendo um trabalho honesto e transparente. Está publicando sua incerteza em vez de escondê-la. Essa transparência é valiosa precisamente porque revela o quanto o resto da indústria está mascarando.

As organizações que navegarem bem por isso tratarão medição como infraestrutura, não como um exercício pontual de aquisição. Vão construir pipelines internos de avaliação. Vão definir critérios de sucesso em termos de resultados de negócio em vez de pontuações de benchmark. Vão orçar o custo de saber o que seus sistemas de IA realmente fazem.

O ruído não vai embora. Está ficando mais alto. A questão é se seu framework de governança contabiliza isso ou finge que não existe.

Esta análise se baseia na reportagem de Timothy B. Lee no Understanding AI (abril de 2026), incorporando dados do benchmark de duração de tarefas do METR, análise de saturação do MMLU segundo Northhouse et al. (2024) e dados de progressão do Humanity’s Last Exam. Veja também nossas análises anteriores: Quando a Medição de IA Falha: O Problema de Dependência do Estudo METR, O Paradoxo dos Benchmarks e Sua Pontuação de Benchmark É um Artefato de Scaffold.

O Victorino Group ajuda organizações a construir infraestrutura de medição que produz sinal acionável quando benchmarks da indústria já não produzem. Vamos conversar.