A Pilha de Operações de Agentes Está Saindo do Laboratório

Em março de 2026, diagnosticamos O Paradoxo das Operações de Agentes: mais agentes, mais trabalho, menos disponibilidade. O problema era claro. A infraestrutura para resolvê-lo, não.

Quatro semanas depois, três sinais convergentes indicam que isso está mudando. Não porque alguém inventou uma solução mágica. Porque o mercado atingiu o ponto onde ignorar operações de agentes custa mais do que construí-las.

Sinal 1: Alguém definiu o que “pronto para produção” significa

Eugene Sergueev, Diretor de Engenharia na Flo Health, publicou o que talvez seja a primeira tentativa séria de padronizar prontidão de agentes para produção. O Agent Reliability Score propõe 28 testes organizados em quatro dimensões: integridade de contexto e dados, desenvolvimento e arquitetura, infraestrutura e orquestração, monitoramento e governança.

A escala é direta. Zero a sete: experimentação. Oito a quatorze: desenvolvimento. Quinze a vinte e um: fundações de produção. Vinte e dois a vinte e oito: maturidade operacional.

O que importa aqui não é o framework em si. Frameworks proliferam. O que importa é o que ele revela sobre o estado do mercado. Quando alguém se dá ao trabalho de criar uma escala de maturidade, é porque empresas suficientes estão batendo na mesma parede para justificar a padronização.

Cada dimensão cobre sete testes específicos. Integridade de contexto verifica se o agente recebe os dados certos, na janela certa, com as permissões certas. Infraestrutura avalia se existe retry, fallback e circuit breaker. Monitoramento pergunta se você sabe quando o agente falhou antes do usuário perceber.

São perguntas que engenheiros de plataforma fazem sobre microsserviços há uma década. A novidade é que agora precisamos fazê-las sobre agentes. A disciplina está se formalizando.

Sinal 2: O caso de uso saiu da teoria

Jason Lemkin, fundador do SaaStr, publicou os números da transição que executou na própria empresa. De mais de 20 funcionários em 2020 para 3 humanos e 20 agentes em 2026. Investimento de US$500 mil. Retorno de US$1,5 milhão em dois meses.

Os números específicos valem atenção. O agente de vendas (AI SDR) enviou 15.000 mensagens com taxa de resposta entre 5% e 7%. Um agente fechou sozinho um contrato de US$70 mil. A receita da empresa saiu de queda de 19% para crescimento de 47% ano contra ano.

Esses resultados são reais. Também são perigosos.

Perigosos porque Lemkin descreve a operação com entusiasmo de fundador, sem mencionar uma única vez a palavra governança. Não há discussão sobre o que acontece quando o agente de vendas envia uma mensagem inadequada para 15.000 contatos. Ou quando a lógica de pricing comete um erro no contrato de US$70 mil. Ou quando a empresa precisa auditar por que determinada decisão foi tomada.

O SaaStr é uma empresa de mídia e eventos com 3 pessoas. O risco de um agente sem governança ali é reputacional. Para uma empresa de serviços financeiros ou saúde com o mesmo modelo, o risco é regulatório. A diferença importa.

O caso do SaaStr prova que agentes em produção geram valor mensurável. Também prova que o mercado ainda separa “fazer funcionar” de “manter sob controle” como se fossem problemas distintos. Não são.

Sinal 3: Enforcement centralizado virou produto

Na mesma semana, a AWS anunciou que o Amazon Bedrock Guardrails agora suporta enforcement centralizado de segurança em todas as contas de uma organização. A funcionalidade usa políticas do AWS Organizations para aplicar guardrails automaticamente a toda invocação de modelo em qualquer conta membro.

Como argumentamos em A Semana em Que Governança Virou Feature de Produto, os grandes provedores de IA estão incorporando governança diretamente no produto. O movimento da AWS confirma e amplia essa tese.

A implementação tem duas camadas: proteção no nível da organização (baseline uniforme) e controles no nível da conta (requisitos departamentais). Quando múltiplos guardrails se aplicam, a união de todos é aplicada durante a inferência. Versionamento imutável garante que mudanças em políticas não alterem retroativamente o comportamento em produção.

Dois detalhes técnicos merecem destaque.

Primeiro: a escolha entre modo Comprehensive e Selective. Modo abrangente aplica guardrails a toda invocação. Modo seletivo permite exceções controladas. Essa granularidade resolve um problema real. Equipes de segurança querem proteção total; equipes de produto querem flexibilidade para experimentar. As duas necessidades coexistem na mesma organização.

Segundo: o enforcement é automático via políticas de Organizations. Isso elimina a dependência de cada equipe configurar seus próprios guardrails. Segurança centralizada, execução distribuída. O mesmo padrão que funciona para IAM, SCPs e firewalls agora se aplica a agentes de IA.

O que a convergência revela

Esses três sinais, isolados, seriam apenas notícias de produto. Juntos, desenham um padrão.

O Agent Reliability Score define o que medir. O caso do SaaStr demonstra por que medir (e o que acontece quando você não mede). O Bedrock Guardrails entrega como aplicar controles em escala.

A pergunta mudou. Até seis meses atrás, a discussão era “devemos usar agentes?”. Hoje, a discussão é “como manter controle sobre agentes em produção?”. Essa mudança de pergunta é o marcador mais confiável de que uma tecnologia saiu da fase de experimentação.

Mas a convergência também expõe uma assimetria preocupante. Dos três sinais, dois são sobre construir e medir. Apenas um é sobre governar. E o caso mais visível de agentes em produção (SaaStr) opera sem nenhum framework de governança declarado.

O mercado está acelerando a adoção mais rápido do que está construindo os controles para sustentá-la. Isso não é novo. Aconteceu com cloud, com microsserviços, com containers. A diferença é que agentes tomam decisões. Um container mal configurado expõe dados. Um agente mal governado toma decisões erradas em nome da empresa.

O que fazer com isso

Para equipes que já operam agentes em produção, três ações práticas.

Aplique o teste do Agent Reliability Score. Mesmo que você não adote o framework completo, avalie onde sua operação está nas quatro dimensões. A maioria das empresas vai descobrir que investiu pesado em desenvolvimento e arquitetura, mas pouco em monitoramento e governança. Esse desequilíbrio é o risco real.

Separe resultados de controle. O caso do SaaStr mostra que agentes geram receita. Ótimo. Mas receita sem auditoria é uma aposta, não uma operação. Para cada agente que interage com clientes, fornecedores ou sistemas externos, defina: quem revisa as saídas? Com que frequência? Qual é o plano quando o agente erra?

Avalie enforcement centralizado. Se sua organização usa AWS, o Bedrock Guardrails com políticas de Organizations é um ponto de partida concreto. Se não usa, a arquitetura (baseline organizacional + controles por conta + versionamento imutável) serve como referência para qualquer implementação interna.

A pilha de operações de agentes está se formando. Não está pronta. Mas pela primeira vez, os componentes necessários existem como produtos, não como promessas.

Fontes

Sergueev, E. “The Agent Reliability Score: What Your AI Platform Must Guarantee Before Agents Go Live.” Março 2026.
Lemkin, J. “How We Went From 20+ Humans to 3 Humans + 20 AI Agents at SaaStr.” Abril 2026.
AWS. “Amazon Bedrock Guardrails Announces General Availability of Cross-Account Safeguards.” Abril 2026.

Victorino Group ajuda empresas a construir operações de agentes de IA com governança desde o primeiro dia: contato@victorino.com.br | www.victorino.com.br