Capacidade é commodity. Scaffolding é o moat.

Há dois anos, toda reunião de compra de IA gira em torno da mesma pergunta: qual modelo a gente compra? Claude ou GPT? Open-weights ou fronteira? Cada deck de fornecedor, cada RFP, cada slide de conselho parte do pressuposto de que a resposta mora dentro do modelo.

Na primeira semana de abril de 2026, três grupos de pesquisa independentes publicaram papers que nada têm em comum. Um laboratório universitário em Berkeley quebrou benchmarks. Uma startup de segurança encontrou bugs no OpenBSD. Um grupo no Arxiv auditou roteadores de LLM. Autores diferentes, agendas diferentes, domínios diferentes.

Leia os três na mesma tarde e a mensagem fica impossível de ignorar. Capacidade de modelo é commodity. O moat é tudo que está ao redor do modelo.

O paper de Berkeley: benchmarks como teatro

Hao Wang e colegas do Center for Responsible Decentralized Intelligence, em Berkeley, fizeram o que, em retrospecto, alguém precisava fazer. Pegaram os oito benchmarks de agentes mais respeitados do mercado e tentaram colar neles. Não para melhorar pontuação. Para descobrir se colar era possível.

Era. Em taxas que envergonham a área.

Terminal-Bench: 100% de exploração. SWE-bench Verified: 100%. SWE-bench Pro: 100%. WebArena: cerca de 100%. FieldWorkArena: 100%. CAR-bench: 100%. GAIA: 98%. OSWorld: 73%.

E a expressão que os autores usam para descrever os resultados é a que importa: zero soluções legítimas das tarefas. Os exploits deles não envolveram resolver os problemas bem. Envolveram não resolver os problemas. Ler a resposta direto da memória do avaliador. Enviar o suíte de testes junto com a solução. Chamar eval() em strings que o benchmark esperava manter em sandbox. Injetar prompts em juízes LLM que não tinham nenhum saneamento de entrada.

O paper cataloga o que os autores chamam de “sete padrões mortais”. Ambientes compartilhados entre o agente e seu avaliador. Dados de teste visíveis ao código que está sendo testado. Funções de avaliação inseguras. Respostas armazenadas ao lado dos prompts. Juízes LLM sem hardening de entrada. Lê-se como um OWASP Top Ten para uma área que nunca escreveu um OWASP Top Ten porque ninguém teve a ideia.

Isso não é problema hipotético. O paper documenta o IQuest-Coder-V1 inflando sua pontuação de benchmark em 5,2% através da exploração de git log. No mundo real. Em um modelo que recebeu atenção.

Aqui está o ponto para pensar com calma. Quando uma empresa decide comprar “o melhor agente de código”, ela está olhando para leaderboards. Esses leaderboards são sistemas de ranking cujo teto, em abril de 2026, foi demonstrado como sendo quase totalmente forjável. A pergunta “qual é o melhor modelo” é downstream de um aparato de medição que não funciona.

O paper da AISLE: orquestração ganha de parâmetros

Em outro continente, uma pequena empresa de segurança chamada AISLE publicou um post de blog com um título que soa marketing e uma metodologia que não soa. “AI Cybersecurity After Mythos: The Jagged Frontier.”

A AISLE usa IA para encontrar vulnerabilidades em código open source. Desde meados de 2025, já reportaram mais de 180 CVEs validados externamente. O estado da arte hoje, no nível de laboratório de fronteira, é o Claude, da Anthropic, rodando o que a indústria chama de protocolo Mythos. A afirmação central da AISLE: eles conseguem igualar o Mythos na descoberta de bugs usando um modelo open-weights de 3,6 bilhões de parâmetros, a US$ 0,11 por milhão de tokens.

Os detalhes é onde o argumento vive. A AISLE recuperou a cadeia completa de exploit de um bug de 27 anos no OpenBSD usando um modelo open-weights de 5,1 bilhões de parâmetros. Não é modelo de fronteira. Não é Claude. Não é GPT. É um modelo aberto duas ordens de grandeza menor do que a maioria dos compradores imagina ser necessário para trabalho de segurança.

A metáfora que a AISLE usa vale roubar. “Mil detetives medianos procurando em todo lugar vão encontrar mais bugs do que um detetive brilhante.” O detetive brilhante é o modelo. Os mil detetives medianos são o scaffolding, a camada de orquestração, o desenho do avaliador, a política de busca, a lógica de retry, a gestão de contexto, a decomposição do problema em pedaços que um modelo pequeno de fato consegue resolver.

O que a AISLE está demonstrando, com números, é que a engenharia interessante não acontece dentro dos pesos do modelo. Acontece fora deles. E quando o fora é bem feito, o dentro vira intercambiável.

O paper do Arxiv: o encanamento está quebrado

O terceiro paper é aquele que ninguém estava procurando. Um grupo no Arxiv estudou 428 roteadores de API de LLM — a camada de middleware que fica entre uma aplicação e o modelo de fundação com o qual ela conversa. Roteadores são encanamento. Roteadores são chatos. Roteadores são onde você coloca rate limiting, balanceamento de carga e, eventualmente, um modelo de fallback.

Veja o que o paper encontrou.

Um roteador pago e oito roteadores gratuitos estavam ativamente injetando código no tráfego que proxeavam. Dezessete roteadores estavam acessando credenciais AWS que não tinham motivo nenhum para tocar. Um roteador estava drenando carteiras de criptomoeda. Não na teoria. Em produção. Em tráfego real de clientes.

E aqui está a frase do paper que deveria fazer qualquer CTO parar: zero dos provedores estudados aplicavam integridade criptográfica entre o cliente e o modelo upstream.

Zero. Não é “a maioria falhou”. Não é “muitos tinham lacunas”. Zero deles conseguiam provar que os bytes que a aplicação mandou foram os bytes que o modelo recebeu, ou que os bytes que o modelo devolveu foram os bytes que a aplicação recebeu de volta. A cadeia de suprimentos da IA está funcionando no regime de confiança mútua.

Isso importa por causa de um padrão que a indústria vem normalizando em silêncio. “A gente usa Claude via roteador” é uma frase que, até esse paper, soava como um detalhe menor de implementação. Depois desse paper, é uma frase que descreve uma fronteira de confiança completamente não auditada. O modelo que você acha que está pagando não é necessariamente o modelo que você está recebendo. A saída que você acha que o modelo produziu não é necessariamente a saída que o modelo produziu.

A tese

Agora ponha os três papers lado a lado.

Benchmarks que classificam modelos podem ser forjados a taxas próximas de 100%. Logo, a evidência que os compradores usam para escolher modelos é, em muitos casos, ficção.

Um modelo de 3,6 bilhões de parâmetros consegue igualar um modelo de fronteira na descoberta de vulnerabilidades reais, dado o scaffolding certo. Logo, a evidência de que modelos maiores são necessários é, em muitos casos, também ficção.

A camada de roteadores que conecta aplicações a modelos não tem garantia nenhuma de integridade, e parte dela é abertamente maliciosa. Logo, a evidência de que “usar Claude” significa que sua aplicação está falando com Claude é, em muitos casos, também ficção.

Se você acreditar em um desses papers, a pergunta “qual modelo” fica mais fraca. Se acreditar nos três, a pergunta para de fazer sentido.

O valor nos sistemas de IA está migrando, de forma visível, para a camada ao redor do modelo. O harness de verificação que decide se uma saída é real. O avaliador que pega seus próprios exploits. A orquestração que faz um modelo pequeno encontrar coisas que um modelo grande perde. A integridade do roteador que garante que os bytes recebidos são os bytes que o modelo enviou. A garantia de cadeia de suprimentos que confirma que ninguém está minerando cripto com suas credenciais.

Essas não são peças exóticas de infraestrutura. São as partes chatas. As partes que não aparecem em demo de produto. E são, a partir de abril de 2026, as partes que separam sistemas de IA que funcionam de sistemas de IA que apenas aparentam funcionar.

O que comprar

Já escrevemos antes sobre dívida de verificação, sobre a revolução da verificação, sobre como o stack de verificação está se consolidando e sobre a lacuna de arquitetura de segurança em sistemas com agentes. Esses textos argumentavam, por ângulos diferentes, que a camada de governança estava virando o produto.

Os três papers desta semana colapsam o argumento em uma frase. Capacidade é commodity. Scaffolding é o moat.

Os compradores que continuarem a avaliar fornecedores de IA pelo nome do modelo estão rodando RFPs contra uma ficção. Os compradores que avaliarem pelo desenho do harness, pela robustez do avaliador, pela qualidade da orquestração, pela integridade do roteador e pela garantia da cadeia de suprimentos estão avaliando as coisas que de fato determinam se o sistema funciona.

A lacuna de verificação de segurança da Waymo existe em direção autônoma porque a indústria mede a coisa errada. O paper de Berkeley acabou de demonstrar que a indústria de agentes de IA também mede a coisa errada. O paper da AISLE demonstrou que o que você faz com um modelo mediano importa mais do que qual grande modelo você escolhe. O paper do Arxiv demonstrou que o encanamento abaixo de tudo isso não tem integridade nenhuma.

Três papers, uma semana, uma mensagem. Pare de perguntar qual modelo. Comece a perguntar qual harness.

Fontes

Hao Wang et al. “How We Broke Top AI Agent Benchmarks.” UC Berkeley RDI, abril de 2026. rdi.berkeley.edu/blog/trustworthy-benchmarks-cont
AISLE. “AI Cybersecurity After Mythos: The Jagged Frontier.” Abril de 2026. aisle.com/blog/ai-cybersecurity-after-mythos-the-jagged-frontier
“LLM Supply Chain.” Arxiv, abril de 2026. arxiv.org/abs/2604.08407

Ajudamos compradores a avaliar sistemas de IA pelo scaffolding, não pelo modelo: contato@victorino.com.br | www.victorino.com.br