Verificação É o Novo Custo de Compute — e o Vendor Controla a Avaliação

Por quase dois anos, a conversa sobre economia de IA foi sobre treinamento. Quem tem o data center maior. Quem garante os chips mais escassos. Quem gastou mais no pré-treino. Essa conversa virou obsoleta.

No final de abril de 2026, a EvalEval Coalition da HuggingFace publicou os primeiros números sólidos sobre o que custa avaliar um agente de forma crível. Uma única execução do Claude Opus no benchmark GAIA: US$ 2.829. O agregado do leaderboard HAL, somando modelos e tarefas: cerca de US$ 40 mil por execução. Aplique um protocolo de confiabilidade k=8 — o mínimo estatístico para que um benchmark de agente signifique alguma coisa — e o agregado salta para US$ 320 mil. O PaperBench, que avalia 6 modelos com 3 seeds cada, ultrapassa US$ 150 mil por rodada.

Leia esses números ao lado do orçamento de treinamento de um frontier lab. Leia ao lado do seed round de uma startup. O cruzamento das curvas deixou de ser teoria. Para a maioria das tarefas agênticas que vale a pena medir, a verificação agora custa mais do que o modelo que produziu a resposta. O gargalo de compute mudou de lugar. Quase ninguém atualizou os critérios de procurement.

O Cruzamento de Custos É Numérico, Não Retórico

A Victorino já escreveu sobre o imposto da verificação — a diferença entre o que a IA parece economizar e o que humanos gastam reconferindo. Aquele argumento era qualitativo. Era sobre horas e julgamento. Os dados da HuggingFace pegam o mesmo formato e forçam para dentro de uma planilha financeira.

O número que importa é o multiplicador. Uma única execução de agente no GAIA custa baixos milhares de dólares. Para tornar essa execução estatisticamente defensável — para afirmar, com cara séria, que um agente é melhor que outro — você precisa de repetição k=8, porque a variância de agentes é alta. Precisa de múltiplas seeds, porque a estocasticidade do scaffold e do prompt domina o resultado. Precisa de comparação cruzada entre modelos, porque scores isolados não significam nada sem contexto.

Cada um desses requisitos é um multiplicador. Empilhe-os, e uma única execução de benchmark sai de US$ 2.829 para US$ 320 mil. Isso não é mais uma linha de procurement. É uma série A.

A implicação é estrutural: apenas organizações com orçamento de frontier lab conseguem produzir benchmarks de agente estatisticamente confiáveis. Todo o resto está publicando scores de execução única que praticamente não significam nada. Quem paga escreve o leaderboard, porque ninguém mais pode arcar com a verificação.

O Problema do Scaffolding Que Ninguém Lê no Deck de Vendas

O número mais disruptivo dos dados da EvalEval não é o custo absoluto. É a variância.

A análise da Exgentic, citada no relatório da HuggingFace, encontrou variação de custo de 33× para tarefas idênticas de agente, baseada apenas em escolhas de scaffolding e prompt. Não escolha de modelo. Não escolha de tarefa. Scaffolding. O mesmo modelo, respondendo a mesma pergunta, pode custar US$ 50 ou US$ 1.650 para avaliar, dependendo de como o harness ao redor está configurado.

A diferença de 9× entre SeeAct (US$ 171 com 42% de acurácia) e Browser-Use (US$ 1.577 com 40% de acurácia) torna isso concreto. Uma diferença de dois pontos percentuais em acurácia custa quase uma ordem de grandeza a mais de compute. Qual configuração o vendor coloca no deck de marketing? A barata, quando acurácia é o que importa. A cara, quando acurácia é onde estão perdendo. O número de benchmark no press release é o scaffold que deixou o gráfico mais bonito. Ninguém publica o custo-por-tarefa ao lado.

Isso não é erro de medição. É escolha de design de medição que vendors estão fazendo de forma invisível, e que compradores estão aceitando porque não sabem o que perguntar.

A Pragmatic Engineer Confirma o Padrão Macro

Se os números da EvalEval estivessem isolados em benchmarks acadêmicos, daria para descontar. Não estão.

A Pragmatic Engineer reportou em 30 de abril que uma empresa seed-stage de infraestrutura de IA viu seu gasto com tokens subir de US$ 200 por desenvolvedor por mês para US$ 3.000 por desenvolvedor por mês — 15× — em seis meses. Não porque o time cresceu. Porque os loops agênticos subjacentes, que a própria empresa entrega como produto, ficaram mais caros para rodar conforme os clientes os usavam de forma mais agressiva. A mesma janela de seis meses viu contas agregadas de tooling de IA dobrarem ou triplicarem em várias empresas de infra, sem crescimento proporcional de headcount ou receita.

Esses não são custos de eval no sentido estrito da EvalEval. São custos de operação. Mas o mecanismo é idêntico. À medida que workflows agênticos substituem prompts de tiro único, o trabalho se expande até ocupar o orçamento de tokens disponível. Cada tarefa gera subtarefas. Cada subtarefa gera chamadas de verificação. Cada verificação gera retries. O custo de operar IA compõe. E, porque compõe dentro de produto que está na frente do cliente, o vendor precisa ou comer a margem ou repassar — e a maioria está começando a repassar.

Duas Curvas de Custo Convergentes Que Ninguém Empilha

Se você ler EvalEval e Pragmatic Engineer lado a lado, vê duas curvas de custo subindo ao mesmo tempo. O custo de confiar num resultado de IA — avaliação adequada, protocolos de confiabilidade, comparação cruzada — está passando do custo de treinar o modelo que gerou a resposta. O custo de operar IA em produção — tokens, retries, recursão agêntica — está subindo 15× em seis meses no nível do operador.

Ambas as curvas empurram na mesma direção. O centro de gravidade econômico está mudando de “conseguimos construir o modelo” para “podemos pagar para saber se o modelo é bom, e podemos pagar para mantê-lo rodando depois que estiver em produção”. Frontier labs absorvem as duas curvas porque têm capital, escala e integração vertical. A maioria dos compradores que lê os leaderboards deles não tem.

O leaderboard é a parte que aparece. A estrutura de custo abaixo é a parte que o vendor controla. Quando avaliação custa mais que treinamento, o controle da eval é o moat — e procurement que não sabe disso está comprando a um preço que o vendor define duas vezes.

Pronto Para o RFP: O Que Exigir Antes de Assinar

A resposta prática não é abandonar benchmarks de vendor. É recusar comprar com base em acurácia agregada. Os dados de custo de eval dão ao comprador, pela primeira vez, a linguagem para exigir transparência sobre a estrutura por trás do score.

Três exigências precisam entrar em todo documento de procurement de IA neste trimestre.

Exija divulgação de scaffold. Qualquer número de benchmark apresentado num movimento de venda precisa vir acompanhado da configuração completa de scaffold e prompt que o produziu. Se o vendor não pode ou não quer entregar o harness, o número é infalseável. Variação de custo de 33× em tarefas idênticas significa que o gráfico do vendor não significa nada sem a configuração que o gerou.

Exija detalhamento de custo por tarefa, não agregados. Acurácia agregada esconde diferenças de 9× em custo. Insista em tabelas de custo-por-tarefa e acurácia-por-tarefa, segmentadas por categoria. A pergunta de procurement não é “quão bom é este agente”, mas “quanto este agente custa por tarefa no nível de acurácia que meu workflow precisa”. São perguntas diferentes, e só a segunda é respondível com dados reais.

Exija protocolos de confiabilidade. Pergunte ao vendor: quantas seeds, quantas execuções, qual a variância entre execuções. Se a resposta for “rodamos uma vez”, o score é decoração. O padrão k=8 existe porque qualquer coisa abaixo disso não consegue distinguir uma melhoria real de ruído amostral — e a diferença de custo entre uma afirmação de uma execução e uma afirmação de oito execuções é o ponto inteiro deste artigo.

Um comprador que entra na avaliação de vendor com essas três exigências não está mais confiando no leaderboard. Está auditando a estrutura de custo por baixo dele. Essa é a única postura de procurement que funciona depois que verificação ultrapassou treinamento como custo dominante.

O gargalo de compute ficava no início do pipeline. Mudou para o final. Os vendors que entendem isso — e que controlam a eval — estão silenciosamente desenhando a sua próxima conta de IA.

Fontes

HuggingFace / EvalEval Coalition. “AI Evals Are Becoming the New Compute Bottleneck.” Abril 2026. https://huggingface.co/blog/evaleval/eval-costs-bottleneck
Pragmatic Engineer. “The Pulse: Token Spend Breaks Budgets — What Next?” Abril 2026. https://blog.pragmaticengineer.com/the-pulse-token-spend-breaks-budgets-what-next/

Leitura relacionada: O Imposto da Verificação · A Fratura da Economia de IA · Quando Agentes Aprovam o Próprio Orçamento · Claude Como Âncora de ROI do CFO · A Lacuna de Governança da Infraestrutura de Benchmarks

A Victorino ajuda empresas a reconstruir critérios de procurement de IA em torno de custo por tarefa e divulgação de scaffold: contato@victorino.com.br | www.victorino.com.br