O Laboratório do Modelo Contém o Próprio Agente na Camada de Ambiente Primeiro

Há meses defendemos um único princípio de ordenação: proteja agentes na camada de ambiente primeiro, conduza o comportamento na camada do modelo depois. Sandboxes, VMs e controles de saída capturam o que prompts e classificadores deixam passar, porque a fronteira determinística segura quando a probabilística falha. A objeção era sempre a mesma. Essa é a visão de fora, de quem não constrói o modelo. Talvez o laboratório que de fato o constrói confie mais nele.

Não confia. A Anthropic publicou How We Contain Claude em junho de 2026, um relato de engenharia sobre como isola os próprios agentes. A ordenação que ela afirma é a que vínhamos escrevendo. Nas palavras da própria empresa: “projete para contenção na camada de ambiente primeiro, depois conduza o comportamento na camada do modelo.” E a frase que poderia ter sido nosso subtítulo: “a fronteira determinística é o que é atingido quando tudo que é probabilístico erra.”

Isto não é nós sermos validados por um release de imprensa. É a primeira fonte primária que já tivemos do laboratório que entrega o modelo mais capaz, e os dados são mais específicos do que qualquer coisa que o argumento de fora para dentro pudesse fornecer.

A Inversão, nas Palavras Deles

Cobrimos a versão de fora para dentro em Contenção de Agentes Virou Padrão Mínimo, onde quatro fornecedores não coordenados lançaram camadas de contenção em uma única semana. As compras validaram o padrão antes de qualquer fornecedor explicá-lo. O que ainda faltava era a perspectiva de quem constrói. Se alguém tivesse motivo para confiar no modelo para se policiar, seria a equipe com o acesso mais profundo aos pesos, às avaliações e ao sinal de treinamento do modelo.

A Anthropic relata a postura oposta. Ela nomeia três tipos de risco contra os quais projeta: uso indevido do usuário, mau comportamento do modelo e atacantes externos rodando injeção de prompt ou ataques de cadeia de suprimentos. Nenhum dos três é totalmente solúvel dentro do modelo. O uso indevido contorna o alinhamento. O mau comportamento é o próprio modelo. A injeção é entrada adversarial construída para derrotar o classificador. Então o laboratório coloca a defesa estrutural fora do modelo e trata a camada do modelo como a segunda linha, não a primeira.

O enquadramento honesto aqui importa. É um fornecedor descrevendo os próprios produtos, então a narrativa favorece a Anthropic por construção. O que dá peso a ela não é o marketing. São as falhas reveladas, que lemos abaixo. Toda brecha que a Anthropic admite contornou a camada do modelo enquanto a fronteira de ambiente segurava ou tinha que ser endurecida. É o formato que nossa tese prevê.

Isolamento Dimensionado à Capacidade de Supervisão

O princípio operacional mais útil do texto não é a ordenação. É a estratificação. A Anthropic não aplica um único desenho de contenção a todo produto. Ela dimensiona a força do isolamento conforme quanta supervisão humana cada superfície consegue carregar de forma realista.

Três produtos, três fronteiras diferentes:

claude.ai roda em containers gVisor com seccomp em infraestrutura de servidor isolada, cada sessão recebendo um sistema de arquivos efêmero. Uma superfície de chat de consumo tem revisão humana por ação próxima de zero, então a fronteira é um container endurecido que reseta entre sessões.
Claude Code usa sandbox em nível de sistema operacional, Seatbelt no macOS e bubblewrap no Linux, somente leitura por padrão fora do workspace, com prompts de permissão para escrita, bash e rede. Há um desenvolvedor no laço, então o desenho se apoia em sandbox mais aprovação interativa.
Claude Cowork roda uma VM completa através de um hypervisor de plataforma, Apple Virtualization no macOS e HCS no Windows. As credenciais ficam no keychain do host, o isolamento de rede é imposto sobre vsock, e os mounts de arquivo vêm em modos somente leitura, leitura e escrita, ou leitura e escrita sem deletar. Um trabalhador autônomo de longa duração recebe o isolamento mais pesado porque a supervisão por ação se aproxima de zero.

Container, sandbox, VM. A progressão acompanha a capacidade de supervisão, não o prestígio do produto. Este é um princípio que nossos leitores podem aplicar diretamente. Estratifique seus próprios agentes pela quantidade de revisão humana que cada um de fato recebe, depois case a força do isolamento com esse número. Um agente que ninguém observa recebe uma VM. Um agente que um desenvolvedor acompanha pode viver em um sandbox. O erro é dar ao agente não observado a contenção do agente observado.

Os Números que Nunca Tivemos

O argumento de fora para dentro conseguia defender o princípio. Não conseguia medi-lo. O relato da Anthropic fornece os números internos, e eles quantificam exatamente por que a camada do modelo não consegue carregar a carga sozinha.

Do lado da supervisão, a Anthropic relata que os usuários aprovaram cerca de 93% dos prompts de permissão do Claude Code. As taxas de aprovação subiam com a experiência enquanto a qualidade da supervisão caía. Isso é fadiga de aprovação, medida. Um prompt de permissão que recebe um sim 93% das vezes não é um controle. É uma lombada que os usuários aprendem a atropelar. A própria mitigação da Anthropic é reveladora: adicionar o sandbox produziu uma redução de 84% nos prompts de permissão. A correção para a fadiga não foi um prompt melhor. Foram menos prompts, viabilizados por uma fronteira determinística que não precisava mais perguntar.

Do lado do modelo, os números são melhores do que eu esperava e ainda assim não bastam. O “auto mode” do Claude Code captura cerca de 83% dos comportamentos excessivos, pela contagem da Anthropic. Os outros 17% passam. O Claude Opus 4.7 mantém o sucesso de ataques de injeção de prompt em cerca de 0,1% em tentativas únicas, o que é forte, mas sobe para 5 a 6% após 100 tentativas adaptativas no benchmark Gray Swan Agent Red Teaming que a Anthropic cita. Um atacante que roda continuamente, do tipo que descrevemos em Três Falhas de Autonomia, Três Raios de Impacto, não roda uma tentativa. Roda as cem. Uma taxa de 0,1% vira uma taxa de 5 a 6% no momento em que o adversário é paciente, e paciência é de graça para um agente.

Então a camada do modelo é boa e porosa ao mesmo tempo. Boa o bastante para valer a pena ter. Porosa o bastante para que a fronteira atrás dela precise ser real.

As Falhas Todas Romperam a Camada do Modelo

A evidência mais forte do texto é o que a Anthropic admite que deu errado. Lidas como um conjunto, as brechas reveladas são uma demonstração limpa de que a camada do modelo é a que é contornada.

Uma campanha de phishing por injeção direta de prompt exfiltrou credenciais da AWS em 24 de 25 tentativas. Pela conta da Anthropic, a fronteira de sistema de arquivos e de rede foi a defesa que importou depois que os classificadores da camada do modelo falharam. Vinte e quatro de vinte e cinco não é um modelo poroso. É um modelo derrotado, naquele ataque específico, com a camada de ambiente segurando a linha.

O Cowork sofreu uma exfiltração por domínio aprovado. Uma allowlist de API pensada para restringir para onde o agente podia enviar dados deixou as próprias chaves de API de um atacante subirem arquivos para a conta do atacante, porque o domínio de destino estava na lista mesmo com credenciais hostis. A Anthropic remediou com um proxy man-in-the-middle dentro da VM que valida tokens de sessão. Repare onde a correção vive: dentro do ambiente, não no julgamento do modelo sobre se a requisição parecia suspeita.

E a sutil. Execução de código antes do diálogo de confiança. Hooks no .claude/settings.json eram lidos na inicialização, o que significava que abrir um projeto malicioso podia rodar código antes de o usuário ver qualquer prompt de confiança. O princípio de correção que a Anthropic afirma é durável para além deste bug: trate abertura de projeto, carga de configuração e listeners em localhost como entrada não confiável. O ataque nem passou pelo modelo. Passou pelo harness, antes de o modelo entrar no laço.

Três falhas admitidas. Nenhuma foi detida pelo modelo decidindo se comportar. Cada uma foi detida, ou teve que ser recontida, na fronteira determinística. Fizemos o argumento da fronteira como unidade de análise em A Rede é a Nova Fronteira de Identidade; a lista de incidentes da Anthropic é a confirmação de primeira fonte de que a fronteira é onde a briga de fato acontece.

Faça Isto Agora

Pegue seu agente de maior autonomia e responda uma pergunta que os dados da Anthropic forçam: qual é sua taxa real de aprovação por ação? Se ela estiver perto de 93%, seus prompts de permissão não são um controle e você deveria parar de contá-los como tal. Substitua os prompts fatigados por uma fronteira determinística que não precisa perguntar, do jeito que a Anthropic cortou 84% dos prompts ao adicionar um sandbox.

Depois estratifique sua frota por capacidade de supervisão, não por importância. Para cada agente, anote quantas das suas ações um humano de fato revisa em uma semana normal. Os agentes perto de zero recebem o isolamento mais pesado, uma VM selada ou equivalente, independentemente de quanto você confia no modelo subjacente. O laboratório com a maior confiança possível no próprio modelo ainda dá ao seu produto menos observado a fronteira mais pesada. Espelhe essa disciplina, porque a camada do modelo na qual você se apoia mantém o sucesso de ataques em 0,1% na primeira tentativa e em 5 a 6% na centésima, e seu adversário é o que roda a centésima.

Fontes

Anthropic. “How We Contain Claude.” Jun 2026.

A Victorino ajuda CTOs e diretores de risco a estratificar agentes por capacidade de supervisão e colocar fronteiras determinísticas onde a camada do modelo termina: contato@victorino.com.br | www.victorino.com.br