Determinismo É Governança: A Camada de Controle É o Código ao Redor do Modelo

Em 2 de junho de 2026, a Anthropic lançou os dynamic workflows no Claude Code: o Claude agora escreve a orquestração em JavaScript em tempo de execução, distribui o trabalho para dezenas ou centenas de subagentes com contexto novo e escopado, e itera até os resultados convergirem (InfoQ, junho de 2026). O plano de múltiplas etapas deixou de viver na memória em contexto do modelo. Ele se mudou para código inspecionável.

Esse movimento é o argumento inteiro. Já escrevemos que o workflow é uma primitiva de governança e que o harness é onde o comportamento do agente é moldado. Aqueles textos defenderam a tese em princípio. Junho deu ao princípio um mecanismo e uma medição. O mecanismo é método como código. A medição são os números de recuperação da PwC, que mostram quanto uma decisão de harness move a acurácia em um modelo que você não pode alterar.

O plano pertence ao código, não à janela de contexto

Uma tarefa de agente de longa duração é um plano de múltiplas etapas. A etapa três depende do que a etapa dois encontrou. A etapa sete revisa a etapa quatro. Quando esse plano vive na janela de contexto do modelo, ele se degrada como qualquer estado em contexto se degrada: tokens saem da atenção, decisões anteriores são parafraseadas em algo levemente diferente, e na etapa nove o agente raciocina sobre uma cópia borrada da própria intenção inicial.

Os dynamic workflows da Anthropic colocam o plano em JavaScript. A lógica de orquestração é escrita e depois executada. Um laço que distribui o trabalho para duzentos subagentes é um for com uma checagem de convergência, não um parágrafo de instrução que o modelo precisa reler e voltar a honrar a cada turno. Cada subagente recebe um contexto novo e escopado, em vez de herdar o desvio acumulado do pai. O portão de convergência é uma condição no código: continue iterando até os resultados pararem de mudar, então pare.

Isso é auditável de um jeito que um prompt nunca é. Você consegue ler o laço. Consegue colocar um breakpoint. Consegue provar quantos subagentes rodaram, qual contexto cada um recebeu e qual condição encerrou a iteração. Um prompt que diz “continue refinando até a resposta ficar boa” não entrega nada disso. A superfície de controle é o código ao redor do modelo, e código é inspecionável por construção.

A camada determinística agora tem nome

O texto da Builder.io sobre Agent Experience batiza a camada que o resto da indústria vinha construindo sem nomear. Os sete princípios deles descrevem o que é preciso para agentes trabalharem com segurança dentro de uma base de código real, e dois deles são determinismo puro.

O primeiro é segurança determinística: sandboxing, credenciais escopadas e portões de aprovação que se sustentam independentemente do que o modelo decida fazer. O modelo propõe; a camada determinística dispõe. Uma credencial escopada não pode ser convencida a sair do seu escopo por uma geração esperta. Um portão de aprovação dispara por uma condição, não pela confiança do modelo.

O segundo é verificação antes da passagem adiante. Um agente não entrega a saída rio abaixo pela força de tê-la produzido. A saída passa por uma checagem, escrita em código, antes que algo dependa dela. A forma como a Builder.io descreve a economia disso é exata: “Gaste tokens antes de gastar a atenção do revisor.” Deixe o agente queimar computação verificando o próprio trabalho contra um teste determinístico, para que o revisor humano veja apenas o que sobreviveu ao teste. A atenção do revisor é o recurso escasso. A checagem determinística é como você a protege.

Nenhum dos dois princípios confia no modelo para governar a si mesmo. Ambos colocam a garantia no código ao redor. Essa é a mesma forma do laço de orquestração da Anthropic, alcançada pela direção oposta: um vem de como agentes planejam, o outro de como agentes entregam.

Até a recuperação é uma decisão de harness

A evidência mais forte de que o controle vive no harness vem da PwC, na pesquisa publicada como Is Grep All You Need? (junho de 2026). O time rodou o LongMemEval, um benchmark de 116 perguntas para recuperação em contexto longo, variando apenas o harness ao redor de um modelo fixo.

O resultado principal: o grep venceu a busca vetorial. O grep agêntico marcou de 83,6 a 93,1 por cento. A recuperação vetorial ficou entre 62,9 e 83,6 por cento. Um agente que busca um corpus com padrões literais de texto, do jeito que um engenheiro dá grep numa base de código, superou a maquinaria de embeddings e similaridade que a geração aumentada por recuperação trata como padrão. O modelo era idêntico nos dois casos. O método de recuperação era a variável.

Mais dois números deixam o ponto mais nítido. O design do harness sozinho moveu a acurácia de 76,7 para 93,1 por cento, um intervalo de 16 pontos no mesmo modelo, sem mudança de pesos ou de prompt. E o modo de entrega importou ainda mais: passar os resultados ao agente inline marcou 93,1 por cento, enquanto escrever os mesmos resultados em um arquivo que o agente depois tinha de abrir derrubou o número para 55,2 por cento. Mesmo modelo, mesmos dados, mesmo conjunto de perguntas. A única diferença foi uma decisão determinística sobre como o harness apresentava a informação ao modelo.

Um colapso de 38 pontos a partir de uma decisão entre arquivo e inline ultrapassa qualquer detalhe de ajuste fino. Ele prova que o substrato ao redor do modelo carrega mais do resultado do que o próprio modelo. Você paga por um modelo melhor e recupera alguns pontos. Você corrige o harness e recupera trinta e oito. A alavancagem está na camada que você escreve, não na que você licencia.

O que isso significa para governança

Auditar um prompt diz o que você pediu. Não diz o que aconteceu. O prompt é uma intenção; o harness é a execução. Quando a orquestração é método como código, a segurança são portões determinísticos e a recuperação é uma escolha inspecionável, o comportamento do agente vira algo que você consegue rastrear, testar e reproduzir. Essa é a definição de governável.

Isso reposiciona para onde vai o trabalho de governança. A maioria dos times gasta o orçamento de governança em revisão de prompt e seleção de modelo, as duas superfícies que menos determinam o resultado. As superfícies que mais determinam, lógica de orquestração, escopo de credenciais, portões de verificação e método de recuperação, muitas vezes não têm dono nenhum. O intervalo de 38 pontos da PwC veio de uma camada que a maioria dos times sequer instrumenta.

Faça isto agora

Escolha um agente em produção e localize a superfície de controle dele. Faça três perguntas. Onde vive o plano de múltiplas etapas: na janela de contexto, ou em código que você consegue ler? Quando ele recupera, ele dá grep ou faz embedding, e alguém mediu a diferença no seu corpus? Quando ele passa o trabalho adiante, qual checagem determinística roda antes, e quem é dono dessa checagem?

Se as respostas honestas forem “a janela de contexto”, “embeddings, sem teste” e “nenhuma checagem”, o seu agente não tem camada de controle governável. Tem um prompt e uma esperança. Construa a camada determinística em seguida: um laço de orquestração escrito com uma condição de convergência, um método de recuperação medido e um portão de verificação que roda antes de qualquer humano olhar. Gaste os tokens antes de gastar a atenção.

O modelo é a parte que você não pode mudar. O código ao redor é a parte que você governa. Junho tornou isso concreto: o plano agora é JavaScript, a segurança agora é um portão, e o método de recuperação agora é uma decisão medida, de 38 pontos. A camada de controle nunca foi o prompt.

Fontes

InfoQ. “Dynamic workflows in Claude Code.” Junho de 2026.
Builder.io. “Agent Experience is the new Developer Experience.” Junho de 2026.
PwC. “Is Grep All You Need?.” Junho de 2026.

A Victorino projeta a camada determinística de harness onde o controle dos agentes de fato reside: contato@victorino.com.br | www.victorino.com.br