- Início
- The Thinking Wire
- A Pilha de Operações de Agentes Está Saindo do Laboratório
A Pilha de Operações de Agentes Está Saindo do Laboratório
Em março de 2026, diagnosticamos O Paradoxo das Operações de Agentes: mais agentes, mais trabalho, menos disponibilidade. O problema era claro. A infraestrutura para resolvê-lo, não.
Quatro semanas depois, três sinais convergentes indicam que isso está mudando. Não porque alguém inventou uma solução mágica. Porque o mercado atingiu o ponto onde ignorar operações de agentes custa mais do que construí-las.
Sinal 1: Alguém definiu o que “pronto para produção” significa
Eugene Sergueev, Diretor de Engenharia na Flo Health, publicou o que talvez seja a primeira tentativa séria de padronizar prontidão de agentes para produção. O Agent Reliability Score propõe 28 testes organizados em quatro dimensões: integridade de contexto e dados, desenvolvimento e arquitetura, infraestrutura e orquestração, monitoramento e governança.
A escala é direta. Zero a sete: experimentação. Oito a quatorze: desenvolvimento. Quinze a vinte e um: fundações de produção. Vinte e dois a vinte e oito: maturidade operacional.
O que importa aqui não é o framework em si. Frameworks proliferam. O que importa é o que ele revela sobre o estado do mercado. Quando alguém se dá ao trabalho de criar uma escala de maturidade, é porque empresas suficientes estão batendo na mesma parede para justificar a padronização.
Cada dimensão cobre sete testes específicos. Integridade de contexto verifica se o agente recebe os dados certos, na janela certa, com as permissões certas. Infraestrutura avalia se existe retry, fallback e circuit breaker. Monitoramento pergunta se você sabe quando o agente falhou antes do usuário perceber.
São perguntas que engenheiros de plataforma fazem sobre microsserviços há uma década. A novidade é que agora precisamos fazê-las sobre agentes. A disciplina está se formalizando.
Sinal 2: O caso de uso saiu da teoria
Jason Lemkin, fundador do SaaStr, publicou os números da transição que executou na própria empresa. De mais de 20 funcionários em 2020 para 3 humanos e 20 agentes em 2026. Investimento de US$500 mil. Retorno de US$1,5 milhão em dois meses.
Os números específicos valem atenção. O agente de vendas (AI SDR) enviou 15.000 mensagens com taxa de resposta entre 5% e 7%. Um agente fechou sozinho um contrato de US$70 mil. A receita da empresa saiu de queda de 19% para crescimento de 47% ano contra ano.
Esses resultados são reais. Também são perigosos.
Perigosos porque Lemkin descreve a operação com entusiasmo de fundador, sem mencionar uma única vez a palavra governança. Não há discussão sobre o que acontece quando o agente de vendas envia uma mensagem inadequada para 15.000 contatos. Ou quando a lógica de pricing comete um erro no contrato de US$70 mil. Ou quando a empresa precisa auditar por que determinada decisão foi tomada.
O SaaStr é uma empresa de mídia e eventos com 3 pessoas. O risco de um agente sem governança ali é reputacional. Para uma empresa de serviços financeiros ou saúde com o mesmo modelo, o risco é regulatório. A diferença importa.
O caso do SaaStr prova que agentes em produção geram valor mensurável. Também prova que o mercado ainda separa “fazer funcionar” de “manter sob controle” como se fossem problemas distintos. Não são.
Sinal 3: Enforcement centralizado virou produto
Na mesma semana, a AWS anunciou que o Amazon Bedrock Guardrails agora suporta enforcement centralizado de segurança em todas as contas de uma organização. A funcionalidade usa políticas do AWS Organizations para aplicar guardrails automaticamente a toda invocação de modelo em qualquer conta membro.
Como argumentamos em A Semana em Que Governança Virou Feature de Produto, os grandes provedores de IA estão incorporando governança diretamente no produto. O movimento da AWS confirma e amplia essa tese.
A implementação tem duas camadas: proteção no nível da organização (baseline uniforme) e controles no nível da conta (requisitos departamentais). Quando múltiplos guardrails se aplicam, a união de todos é aplicada durante a inferência. Versionamento imutável garante que mudanças em políticas não alterem retroativamente o comportamento em produção.
Dois detalhes técnicos merecem destaque.
Primeiro: a escolha entre modo Comprehensive e Selective. Modo abrangente aplica guardrails a toda invocação. Modo seletivo permite exceções controladas. Essa granularidade resolve um problema real. Equipes de segurança querem proteção total; equipes de produto querem flexibilidade para experimentar. As duas necessidades coexistem na mesma organização.
Segundo: o enforcement é automático via políticas de Organizations. Isso elimina a dependência de cada equipe configurar seus próprios guardrails. Segurança centralizada, execução distribuída. O mesmo padrão que funciona para IAM, SCPs e firewalls agora se aplica a agentes de IA.
O que a convergência revela
Esses três sinais, isolados, seriam apenas notícias de produto. Juntos, desenham um padrão.
O Agent Reliability Score define o que medir. O caso do SaaStr demonstra por que medir (e o que acontece quando você não mede). O Bedrock Guardrails entrega como aplicar controles em escala.
A pergunta mudou. Até seis meses atrás, a discussão era “devemos usar agentes?”. Hoje, a discussão é “como manter controle sobre agentes em produção?”. Essa mudança de pergunta é o marcador mais confiável de que uma tecnologia saiu da fase de experimentação.
Mas a convergência também expõe uma assimetria preocupante. Dos três sinais, dois são sobre construir e medir. Apenas um é sobre governar. E o caso mais visível de agentes em produção (SaaStr) opera sem nenhum framework de governança declarado.
O mercado está acelerando a adoção mais rápido do que está construindo os controles para sustentá-la. Isso não é novo. Aconteceu com cloud, com microsserviços, com containers. A diferença é que agentes tomam decisões. Um container mal configurado expõe dados. Um agente mal governado toma decisões erradas em nome da empresa.
O que fazer com isso
Para equipes que já operam agentes em produção, três ações práticas.
Aplique o teste do Agent Reliability Score. Mesmo que você não adote o framework completo, avalie onde sua operação está nas quatro dimensões. A maioria das empresas vai descobrir que investiu pesado em desenvolvimento e arquitetura, mas pouco em monitoramento e governança. Esse desequilíbrio é o risco real.
Separe resultados de controle. O caso do SaaStr mostra que agentes geram receita. Ótimo. Mas receita sem auditoria é uma aposta, não uma operação. Para cada agente que interage com clientes, fornecedores ou sistemas externos, defina: quem revisa as saídas? Com que frequência? Qual é o plano quando o agente erra?
Avalie enforcement centralizado. Se sua organização usa AWS, o Bedrock Guardrails com políticas de Organizations é um ponto de partida concreto. Se não usa, a arquitetura (baseline organizacional + controles por conta + versionamento imutável) serve como referência para qualquer implementação interna.
A pilha de operações de agentes está se formando. Não está pronta. Mas pela primeira vez, os componentes necessários existem como produtos, não como promessas.
Fontes
- Sergueev, E. “The Agent Reliability Score: What Your AI Platform Must Guarantee Before Agents Go Live.” Março 2026.
- Lemkin, J. “How We Went From 20+ Humans to 3 Humans + 20 AI Agents at SaaStr.” Abril 2026.
- AWS. “Amazon Bedrock Guardrails Announces General Availability of Cross-Account Safeguards.” Abril 2026.
Victorino Group ajuda empresas a construir operações de agentes de IA com governança desde o primeiro dia: contato@victorino.com.br | www.victorino.com.br
Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →
Se isso faz sentido, vamos conversar
Ajudamos empresas a implementar IA sem perder o controle.
Agendar uma Conversa