O Loop de Governança Escondido no Monitoramento do Seu Agente

Harrison Chase, CEO da LangChain, publicou recentemente um argumento que merece atenção. A tese central: você não sabe o que seu agente vai fazer até colocá-lo em produção. Ferramentas tradicionais de monitoramento não servem. Você precisa de um ciclo contínuo de traces, anotações, datasets, experimentos e avaliações.

O argumento é sólido. Mas Chase descreve algo maior do que ele nomeia.

O que ele chama de “production improvement loop” é, na prática, um framework de governança. Filas de anotação são revisão de compliance. Rubricas de avaliação são políticas de controle. Times cross-funcionais são estrutura de governança. Amostragem estratégica é supervisão baseada em risco.

A convergência entre observabilidade e governança não é uma metáfora. É o que está acontecendo.

O Problema Real: Não-Determinismo Composto

Chase abre com uma afirmação que vale examinar: agentes operam em um “espaço de input infinito.” É verdade, mas não é novo. Motores de busca lidam com inputs infinitos há décadas. O Google processa bilhões de consultas únicas por dia sem que ninguém sugira que ferramentas de monitoramento web são fundamentalmente inadequadas.

O insight real está em outro lugar. O desafio de agentes não é a infinidade dos inputs. É o não-determinismo composto entre passos.

Quando um agente faz uma chamada de ferramenta, o resultado influencia a próxima decisão. Que influencia a próxima chamada. Que influencia a próxima decisão. Em cada passo, a variância do LLM se acumula. Um agente de cinco passos não é cinco vezes mais imprevisível que uma chamada única. É exponencialmente mais imprevisível.

A Monday.com documentou isso na prática: “um desvio mínimo em prompt ou resultado de tool-call pode cascatear em resultado significativamente diferente.” Não é teoria. É experiência operacional.

Esse tipo de imprevisibilidade composta exige algo diferente de um dashboard de métricas. Exige rastreamento de cadeia causal. Exige entender não apenas o que o agente fez, mas por que cada passo levou ao seguinte.

O Padrão que Ninguém Chama pelo Nome

Chase propõe um ciclo de seis etapas: coletar traces, revisar em filas de anotação, construir datasets, rodar experimentos, avaliar online, repetir.

Releia essa lista pensando em governança corporativa.

Coletar traces é auditoria. Filas de anotação são revisão de compliance, onde especialistas de domínio verificam se o comportamento do agente está dentro de parâmetros aceitáveis. Datasets são a base de evidência para decisões regulatórias. Experimentos são testes de controle. Avaliações online são monitoramento contínuo em runtime.

Chase inclusive argumenta que o time responsável não pode ser apenas engenharia. Precisa incluir gerentes de produto, especialistas de domínio, compliance. Isso é a definição de uma estrutura de governança. Ele só não usa a palavra.

O que Chase chama	O equivalente em governança
Annotation queues	Revisão de compliance
Evaluation rubrics	Políticas de controle
Cross-functional teams	Estrutura de governança
Online evaluations	Monitoramento em runtime
Sampling strategy	Supervisão baseada em risco
Production improvement loop	Ciclo contínuo de governança

A renomeação não é cosmética. Quando você chama algo de “loop de melhoria,” a responsabilidade fica com engenharia. Quando chama de “governança,” a responsabilidade se distribui pela organização. Times jurídicos, compliance, produto e operações entram na conversa. O orçamento muda. A prestação de contas muda.

LLM como Juiz: Uma Ferramenta de Auditoria Imperfeita

Uma peça central do framework de Chase é usar LLMs para avaliar outros LLMs. A pesquisa sustenta parte dessa ideia: Zheng et al. (arXiv:2411.15594) demonstraram que avaliadores LLM atingem aproximadamente 85% de alinhamento com julgamento humano. Para comparação, a concordância entre humanos fica em torno de 81%.

Dois detalhes importam aqui.

Primeiro, avaliações binárias (certo/errado, aceitável/inaceitável) são significativamente mais confiáveis que scores numéricos. Um LLM distingue bem entre “resposta adequada” e “resposta inadequada.” Distingue mal entre um 7 e um 8 numa escala de 10.

Segundo, 85% de alinhamento significa 15% de desalinhamento. Em mil avaliações por dia, são 150 julgamentos potencialmente incorretos. Para decisões de baixo risco, é aceitável. Para compliance regulatório ou decisões que afetam clientes, 150 erros diários não passam em nenhuma auditoria.

A implicação prática: LLM-como-juiz funciona como triagem, não como decisão final. Filtra o volume, destaca anomalias, prioriza o que requer revisão humana. É um componente de governança, não um substituto para ela.

O Que o Framework Omite

O artigo de Chase é honesto sobre o problema. Menos honesto sobre as limitações da solução proposta.

Algumas estatísticas que aparecem no texto, como “50 a 100 traces por hora” e “10 a 20% de amostragem,” não possuem citação externa. Podem ser razoáveis como estimativas, mas não são fatos estabelecidos. Repetir números sem fonte em um contexto de governança é exatamente o tipo de prática que governança existe para prevenir.

A questão de custo também merece atenção. Rastrear cada interação de agente em escala custa dinheiro real. Uma operação com 10 mil interações diárias pode facilmente atingir dezenas de milhares de dólares mensais em custos de armazenamento e processamento de traces. Chase não menciona isso, e a omissão é relevante: o “production improvement loop” precisa de um business case, não apenas de uma arquitetura técnica.

Existe também a questão de soberania de dados. Enviar todos os prompts, respostas e traces de agentes para um SaaS de terceiros levanta problemas reais para indústrias reguladas. Saúde, finanças, governo. A Langfuse oferece uma alternativa open-source auto-hospedada sob licença MIT. A Datadog lançou AI Agent Monitoring em junho de 2025. O OpenTelemetry GenAI está amadurecendo. A ideia de que “ferramentas genéricas não servem” era mais verdadeira há um ano do que é hoje.

Duas Perspectivas Complementares

Vale situar o argumento de Chase no contexto de trabalhos que já publicamos sobre temas adjacentes.

Como exploramos em Seu Agente Já Sabe o Que Está Errado, a Factory construiu o sistema Signals para analisar milhares de sessões diárias. Identifica sete padrões de fricção e resolve 73% dos problemas automaticamente. Essa é a abordagem do praticante: observabilidade como mecanismo de auto-correção, implementada dentro do sistema.

O loop de Chase opera numa camada diferente. Não é o agente se corrigindo. São pessoas revisando, anotando, experimentando. As duas abordagens são complementares. Auto-correção em runtime para o volume. Revisão humana estruturada para o que escapa à automação.

E como discutimos em A Lacuna Operacional, o estudo da Anthropic sobre milhões de sessões revelou que usuários experientes mudam de aprovação ação por ação para monitoramento ativo com intervenção estratégica. Esse é o mesmo padrão que Chase propõe institucionalizar: não aprovar cada decisão do agente, mas construir uma infraestrutura de supervisão que identifique quando intervir.

De Monitoramento para Governança

A pergunta que organizações precisam responder não é “como monitoro meus agentes.” É “como governo operações que incluem agentes.”

A diferença é prática.

Monitoramento pergunta: “O agente está funcionando?” Governança pergunta: “O agente está funcionando dentro de parâmetros aceitáveis para nosso contexto regulatório, nosso apetite de risco e nossos compromissos com clientes?”

Monitoramento vive em engenharia. Governança vive na organização inteira.

Monitoramento produz dashboards. Governança produz evidência auditável.

O framework de Chase, despido da linguagem de engenharia, é uma proposta de governança operacional para sistemas de IA. Traces são registros de auditoria. Anotações são revisões de compliance. Datasets são bases de evidência. Avaliações são controles contínuos. O “loop” é o ciclo de melhoria que toda estrutura de governança bem desenhada implementa.

Organizações que tratarem isso apenas como problema de engenharia vão construir dashboards bonitos que ninguém fora do time técnico consulta. Organizações que reconhecerem a convergência entre observabilidade e governança vão construir algo mais duradouro: uma infraestrutura de confiança operacional que escala com a complexidade dos seus sistemas de IA.

O loop já existe. A questão é se você vai operá-lo como monitoramento ou como governança.

Fontes

Chase, H. “You don’t know what your agent will do until it’s in production.” LangChain Blog, Fevereiro 2026.
Zheng, L. et al. “A Survey on LLM-as-a-Judge.” arXiv:2411.15594, Novembro 2024.
Datadog. “Datadog Expands LLM Observability with Agentic AI Monitoring.” Junho 2025.

Victorino Group ajuda organizações a construir frameworks de governança para operações de IA: contato@victorino.com.br | www.victorino.com.br