O Stack de Contenção Amadureceu: Quatro Camadas em Uma Semana

TV
Thiago Victorino
8 min de leitura
O Stack de Contenção Amadureceu: Quatro Camadas em Uma Semana

Já desenhamos o diagrama. Em abril, quatro superfícies de controle de agentes ganharam implementações de referência em uma semana, e nós as mapeamos como quatro andares de um mesmo edifício: computação, dados, conhecimento, identidade. Esse diagrama continua valendo. Esta semana é diferente. Esta semana, o mesmo conceito de contenção chegou em quatro altitudes distintas do stack técnico, de um blob WASM de 362KB até um gateway em Rust empurrando 500 mil consultas por segundo. A arquitetura não ficou mais larga. Ficou mais alta.

A virada que vale nomear: contenção não é mais uma camada única que você acopla. É uma pilha de fronteiras aninhadas, e a pergunta viva para qualquer time de plataforma é qual altitude carrega o seu raio de explosão. Trace baixo demais e um processo comprometido sai direto pelo egress de rede. Trace alto demais e você paga latência de gateway em cada chamada de função inofensiva. Quatro fornecedores acabaram de publicar respostas de referência, cada uma em um andar diferente.

Camada 1: O Runtime de Linguagem

A camada mais baixa é a que a maioria dos times esquece que existe. Antes das microVMs, antes dos gateways, dá para conter no nível do próprio interpretador.

O MicroPython em sandbox WASM de Simon Willison é a demonstração mais limpa da semana. Um blob de MicroPython de 362KB compilado para WebAssembly, conduzido por 78 linhas de código C no host. Sem sistema de arquivos. Sem rede. CPU limitada pelo mecanismo de fuel do wasmtime, então um loop infinito morre por orçamento em vez de travar um core. O agente escreve Python, o Python roda, e o runtime fisicamente não alcança nada além do que você entregou.

Isso é contenção como propriedade do ambiente de execução, não uma política empilhada por cima. O valor é densidade e velocidade: dá para subir milhares desses, eles iniciam em microssegundos, e a fronteira de confiança é a própria memória linear do WASM. O custo é capacidade. Sem sistema de arquivos não há pip install, não há leitura de um CSV em disco, não há toolchain de verdade. Esta camada serve para avaliar trechos de código não confiável, não para rodar um agente de programação que precisa construir um projeto.

Camada 2: A MicroVM

Um andar acima, você troca densidade por um computador de verdade. Os LangSmith Sandboxes chegaram à disponibilidade geral em 5 de junho, e a formulação no anúncio da LangChain é a frase que todo engenheiro de plataforma deveria escrever na parede: “a fronteira de um container não é uma fronteira de isolamento.”

O produto dá a cada agente uma microVM virtualizada por hardware. Os sandboxes são privados ao criador por padrão, então o ambiente de um agente não é silenciosamente alcançável por outro. As credenciais chegam ao workload por um auth-proxy que as injeta no momento da requisição, em vez de embutir segredos de longa duração na imagem. Esse último detalhe importa porque conecta direto ao trabalho de rede e identidade que cobrimos na semana anterior: o sandbox é onde isolamento de computação e disciplina de credenciais finalmente se encontram em um produto só.

Por que virtualização por hardware e não apenas um container mais apertado? Porque o modelo de ameaça agora inclui a própria cadeia de suprimentos do agente. A LangChain aponta para o Shai-Hulud, o worm de npm que plantou backdoor em 796 pacotes e mais de 25 mil repositórios em novembro de 2025. Quando um agente roda npm install, ele executa código de uma árvore que nunca revisou. Um kernel compartilhado significa que esse código pode sondar uma fuga. Uma microVM significa que o pior caso é uma VM descartável destruída. Você ganha um ambiente Linux completo, com sistema de arquivos e rede, e ganha uma fronteira de virtualização ao redor. Essa combinação é o motivo de esta camada ter virado a referência padrão para agentes de programação em produção.

Camada 3: O Egress de Rede

As duas primeiras camadas contêm o que o agente pode rodar. A terceira contém o que o dado pode fazer depois que o agente o tem em mãos. Esta é a camada de exfiltração, e foi onde a semana ficou interessante.

A OpenAI lançou o Lockdown Mode, documentado conforme o Help Center da OpenAI. Ele desativa navegação ao vivo, recuperação de imagens da web, deep research e modo agente, mantendo o acesso de rede do Codex intacto. O Help Center formula com precisão: foi “projetado para ajudar a prevenir o estágio final da exfiltração de dados.” Uma injeção de prompt pode corromper as instruções de um agente, mas a injeção sozinha não vaza seus dados. O vazamento acontece quando o agente corrompido renderiza uma imagem de uma URL maliciosa ou navega para um endpoint que carrega seus segredos numa query string. O Lockdown Mode corta esse último salto.

Aqui está a parte que vale ruminar. A OpenAI lançou contenção de egress como um botão desligado por padrão, e o lançou ao lado de uma orientação de que injeção de prompt “não é atualmente um risco grande.” Leia os dois fatos juntos. O fornecedor construiu o freio e então disse que a estrada é quase reta. As duas afirmações podem ser tecnicamente defensáveis e ainda assim deixam o cliente com a decisão. Se a injeção não é um risco grande, por que construir a contenção? Se é risco suficiente para construir a contenção, por que entregá-la desligada por padrão? A leitura honesta é que a ameaça é real, o padrão é uma escolha de produto sobre fricção, e o ônus de governança recai sobre você para virar a chave em qualquer agente que toque dados sensíveis.

Camada 4: O Gateway

A camada do topo não contém um único agente. Ela governa o tráfego de uma frota inteira. O Agentgateway, que recebeu aprovação de estágio Growth da AAIF em 21 de maio, é a implementação de referência, detalhada no writeup de design da Solo.io.

Os números estabelecem que isto é infraestrutura, não demo de pesquisa: 500 mil consultas por segundo com latência P99 abaixo de 0,2ms, mais de 7 milhões de downloads, escrito em Rust, nativo em MCP e A2A, configurado por um control plane xDS pego direto do mundo de service mesh. Nesta altitude, contenção significa política: qual agente pode chamar qual ferramenta, qual modelo, qual API downstream, e a que taxa. A fronteira não é memória nem uma VM. É o fio, e toda requisição o atravessa.

Um gateway dá a você um único lugar para impor, observar e revogar entre centenas de agentes de uma vez. O custo é que ele não enxerga nada do que acontece dentro de um sandbox; governa as bordas, não o interior. É exatamente o ponto. A Camada 4 não substitui as camadas de baixo. É o andar que você busca quando para de conter um agente e passa a governar uma população deles.

Faça Isto Agora

Pare de perguntar se deve conter seus agentes. Pergunte qual camada é dona do seu raio de explosão, e escreva a resposta por classe de agente.

Pegue suas três cargas de trabalho de agente mais ativas desta semana. Para cada uma, nomeie a altitude onde a contenção de fato mora hoje. Um agente de programação rodando npm install contra um kernel de host compartilhado não está em camada real nenhuma; ele pertence à Camada 2. Um agente que navega na web em nome de um usuário com acesso a dados internos é um problema de Camada 3, e se você está na plataforma da OpenAI, o Lockdown Mode está desligado até você ligá-lo. Uma frota de mais de dez agentes chamando ferramentas compartilhadas sem ponto central de política é um problema de Camada 4 vestido de fantasia de Camada 1.

O erro mais caro não é escolher a camada errada. É supor que você tem uma camada quando o que tem é um container, porque a fronteira de um container não é uma fronteira de isolamento. Quatro fornecedores acabaram de provar isso em quatro altitudes em uma semana. Escolha a sua de propósito.


Fontes

A Victorino ajuda empresas a escolher a camada de contenção certa para sua frota de agentes: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa