Três Caminhos para Autonomia Governada: O Que PostHog, Ossature e Anthropic Convergem

TV
Thiago Victorino
9 min de leitura
Três Caminhos para Autonomia Governada: O Que PostHog, Ossature e Anthropic Convergem
Ouvir este artigo

Três times independentes. Mesma semana. Mesma conclusão.

PostHog publicou lições de dois anos construindo agentes de IA. Ossature abriu o código de um harness de geração dirigida por especificação. Anthropic lançou um novo nível de permissões para o Claude Code. Ninguém combinou. Todos chegaram ao mesmo padrão arquitetural: restrinja o ambiente, não o modelo.

Não é coincidência. É convergência.

PostHog: 44 Ferramentas e uma Lição de Humildade

O time da PostHog construiu 44 ferramentas customizadas para seu agente de IA antes de perceber que a abordagem não escalava. A solução: um servidor MCP que hoje alimenta 34% dos dashboards criados por IA. O número importa menos que a decisão. Escolheram um protocolo aberto em vez de um harness proprietário.

Ian Vanagas enquadra a lição central sem rodeios: “Seu harness não é seu fosso competitivo.” Contexto é. O agente que entende o schema de analytics do seu produto, a taxonomia de eventos, os segmentos de usuários — esse agente vence independente de qual framework de orquestração o envolve. A PostHog levou um ano e três iterações arquiteturais para aprender isso.

O detalhe mais revelador é a “hora de traces.” Sessões regulares do time revisando interações reais de agentes em produção. Não dashboards. Não métricas. Traces de verdade, passo a passo, do que o agente fez quando um usuário pediu para montar uma análise de funil.

Identificamos esse padrão em O Loop de Governança Escondido no Seu Monitoramento de Agentes: sessões de observabilidade que parecem revisão de engenharia são governança disfarçada. A hora de traces da PostHog é um comitê de governança permanente que ninguém chama de comitê de governança.

Ossature: Trilhos Determinísticos para Atores Não-Determinísticos

Ossature segue o caminho oposto. Onde PostHog aprendeu por iteração, Ossature parte da especificação.

A arquitetura é um pipeline de três estágios. Primeiro: validar. Determinístico. A spec é parseada, verificada por completude, validada contra o schema. Nenhum LLM toca nela. Segundo: auditar. Um LLM revisa a spec quanto a coerência e sinaliza ambiguidades. Terceiro: construir. Tarefas sequenciais, cada uma recebendo apenas as seções da spec e as saídas upstream necessárias.

Isolamento de contexto é o princípio de design. Uma tarefa construindo o módulo de autenticação não vê a spec do módulo de pagamentos. Uma tarefa gerando migrações de banco não vê a árvore de componentes do frontend. Cada tarefa opera em uma janela delimitada. O agente não pode vagar.

Checksums SHA-256 habilitam builds incrementais. Altere uma seção da spec, reconstrua apenas as tarefas downstream afetadas. Não é conveniência. É governança. Você sabe exatamente qual mudança na spec provocou qual mudança no código. Atribuição está embutida na arquitetura.

A observação de Birgitta Bockeler, citada no anúncio do Ossature, captura o problema que resolvem: ferramentas criam fluxos que parecem “exagero para problemas reais” enquanto “agentes frequentemente ignoram suas próprias instruções geradas.” A resposta do Ossature é nunca deixar o agente gerar suas próprias instruções. A spec é a instrução. O harness a impõe. O agente de reparo recebe três tentativas para corrigir falhas antes que o sistema reporte a tarefa como quebrada.

Três tentativas. Não retries infinitos. Não “continue tentando até funcionar.” Um limite rígido. É o equivalente arquitetural de um kill switch, e importa mais do que a maioria dos times percebe.

Anthropic: O Classificador de Segurança como Arquitetura

O auto mode da Anthropic para Claude Code é o mais significativo comercialmente dos três. Resolve um problema real de usabilidade: o modo padrão exige aprovação para cada ação, o que destrói o fluxo. A alternativa anterior, --dangerously-skip-permissions, removia todas as proteções. O auto mode cria um meio-termo.

Um classificador embutido avalia cada ação proposta contra um modelo de segurança. Exclusão em massa de arquivos: bloqueada. Padrões de exfiltração de dados: bloqueados. Injeção de código malicioso: bloqueada. Todo o resto: executado sem perguntar.

A arquitetura é o que importa. A Anthropic não lançou um prompt melhor. Não adicionou mais instruções dizendo ao modelo para ter cuidado. Lançou um sistema separado — um classificador — que opera fora do loop de raciocínio do modelo. O modelo propõe. O classificador dispõe. Dois sistemas, não um.

Isso ecoa diretamente a tese de A Arquitetura da Confiança em Agentes: restrições ambientais vencem instruções. Um agente instruído a “não deletar arquivos importantes” ainda pode deletá-los sob prompt adversarial ou raciocínio confuso. Um agente cujas operações de exclusão passam por um classificador independente não pode. A restrição vive na infraestrutura, não na obediência do modelo.

Controle empresarial está embutido. Administradores podem definir "disableAutoMode": "disable" para impedir o auto mode inteiramente. Governança expressa como configuração. Não diretrizes. Não treinamento. Um flag booleano que muda comportamento arquitetural.

A Anthropic recomenda explicitamente ambientes isolados mesmo com auto mode habilitado. Não confiam no classificador sozinho. Recomendam classificador mais isolamento. Defesa em profundidade, declarada abertamente pelo fornecedor que construiu o modelo.

O Padrão de Convergência

Tire a marca e o modelo de negócio. Eis o que os três construíram:

PostHog aprendeu que 44 ferramentas customizadas criam uma superfície de governança ingerenciável. Consolidaram para MCP (um protocolo padrão) e adicionaram revisão humana regular de traces de agentes. O harness encolheu. A supervisão expandiu.

Ossature construiu checkpoints determinísticos ao redor de atores não-determinísticos. Specs são validadas antes que LLMs as vejam. Saídas recebem checksum para atribuição. Contexto é isolado por tarefa. Limites de retry impõem fronteiras de falha.

Anthropic separou a avaliação de segurança da execução da ação. Um classificador independente bloqueia comportamento do agente. Controles empresariais sobrescrevem autonomia do modelo. O fornecedor recomenda isolamento de infraestrutura além do classificador.

Três caminhos. Um destino. O ambiente restringe o agente. O agente opera dentro de fronteiras que não escolheu e não pode modificar. Confiança emerge da arquitetura, não da capacidade do modelo.

O Que Convergências Anteriores Não Mostraram

Já escrevemos sobre convergência antes. O Padrão de Contenção documentou quatro abordagens para sandboxing. Seis Lições da IA Agêntica catalogou padrões de praticantes. Essas análises descreveram princípios arquiteturais abstratos.

Esta semana é diferente. São implementações nomeadas com dados de adoção.

A taxa de 34% de adoção do MCP na PostHog diz algo que benchmarks não dizem: usuários reais, escolhendo entre integrações customizadas e um protocolo padronizado, escolheram o protocolo um terço das vezes em meses desde o lançamento. O limite de três tentativas de reparo do Ossature diz algo que diagramas arquiteturais não dizem: um praticante construiu uma fronteira rígida de falha porque as fronteiras suaves não funcionaram. O classificador do auto mode da Anthropic diz algo que papers de segurança não dizem: o fornecedor que entrega o agente de código mais capaz decidiu que instruções são insuficientes e lançou uma camada separada de enforcement.

O padrão saiu da teoria para a produção. A pergunta não é mais se autonomia governada é a arquitetura certa. A pergunta é quão rápido seu time consegue implementá-la.

As Três Propriedades

Todo sistema de autonomia governada desta semana compartilha três propriedades:

Separação de responsabilidades. O sistema de raciocínio e o sistema de enforcement são coisas diferentes. PostHog: agente mais hora de traces. Ossature: LLM mais validador determinístico. Anthropic: modelo mais classificador. Nenhum sistema confia em um único componente para gerar ações e avaliá-las ao mesmo tempo.

Fronteiras rígidas. Não diretrizes. Não preferências. Fronteiras que o agente não pode cruzar independente do seu raciocínio. O limite de três tentativas do Ossature. O classificador da Anthropic bloqueando exclusão em massa. O servidor MCP da PostHog expondo apenas ferramentas definidas. A fronteira é arquitetural, não comportamental.

Supervisão humana em pontos definidos. PostHog revisa traces semanalmente. Ossature exige specs escritas por humanos antes de qualquer geração. Os controles empresariais da Anthropic permitem que administradores definam políticas. Nenhum desses sistemas roda desacompanhado indefinidamente. Todos definem onde humanos intervêm e tornam essa intervenção estrutural.

O Que Isso Significa

Se você está construindo agentes e seu modelo de governança é “escrevemos prompts cuidadosos,” você já está atrasado. Três times independentes — uma empresa de analytics open-source, um desenvolvedor solo construindo um harness de geração de código e a empresa que constrói o Claude — todos concluíram que prompts são insuficientes.

O padrão de autonomia governada não é um framework para avaliar. É um requisito arquitetural no qual a indústria está convergindo em tempo real. As implementações diferem. O princípio não.

Restrinja o ambiente. Separe enforcement de raciocínio. Defina fronteiras rígidas. Revise em pontos estruturais.

O agente não governa a si mesmo. A arquitetura governa o agente.


Fontes

Victorino Group projeta arquiteturas de autonomia governada para agentes de IA empresariais: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa