A Semana em Que os Fornecedores de Nuvem Disseram: Pare de Construir Seu Harness de Agente

TV
Thiago Victorino
7 min de leitura
A Semana em Que os Fornecedores de Nuvem Disseram: Pare de Construir Seu Harness de Agente
Ouvir este artigo

Nos sete dias entre 24 e 30 de abril de 2026, três fornecedores de fronteira pararam de fingir que o harness do agente era problema do cliente. A OpenAI anunciou que seus modelos, o Codex e os Managed Agents agora rodam dentro do AWS Bedrock, ao lado do Claude. A Mistral lançou os Vibe remote agents sobre o Medium 3.5, um modelo denso de 128B que roda em quatro GPUs por US$ 1,50 por milhão de tokens de entrada. A AWS lançou o Neuron Agentic Development com skills open-source que permitem aos agentes escrever kernels NKI para Trainium e Inferentia. O Cursor, que nem é fornecedor de modelo de fronteira, publicou o tipo de post que só se publica quando o harness virou o fosso: uma análise profunda de como medem confiabilidade de tool-call em “dois ou frequentemente três noves”.

Já escrevemos que o runtime ficou nativo de nuvem e que os Claude Managed Agents embutiram governança na camada do harness. Ambos os pontos seguem de pé. O que esta semana acrescentou é a consolidação cross-vendor. A pergunta do comprador mudou de forma. Não é mais “qual modelo usamos?”. É “qual substrato roda nossos agentes, com qual superfície de cobrança, sob qual SLA operacional?”.

Essa é uma decisão de procurement diferente. O custo de errar nela compõe a cada upgrade de modelo.

O substrato virou o produto

Leia o anúncio da OpenAI com calma. O uso do Codex na AWS conta para os compromissos de nuvem da AWS. Quatro milhões de usuários semanais do Codex passam agora pelo Bedrock. Os modelos não chegam à AWS como nota de rodapé de co-marketing — chegam como runtime gerenciado de agente, que consome dólares de commit da AWS e emite eventos no CloudTrail. É assim que se parece um substrato quando deixa de ser neutro.

A Anthropic já estava lá. O Bedrock entrega Claude Managed Agents como runtime de primeira classe há meses. A novidade desta semana é que a OpenAI entrou na mesma superfície, no mesmo trilho de cobrança, sob o mesmo modelo de IAM. Um comprador que escolhe AWS Bedrock hoje não está escolhendo Claude ou GPT. Está escolhendo o runtime, e trocar de modelo dentro daquele runtime é mudança de configuração, não re-plataforma.

O movimento da Mistral é a mesma jogada com cobrança europeia. O Vibe roda o Medium 3.5 — 128B denso, 256k de contexto, 77,6% no SWE-Bench Verified — por US$ 1,50 por milhão de tokens de entrada e US$ 7,50 por milhão de saída. O preço não é a manchete. A manchete é que o Vibe é runtime de agente remoto dentro do Le Chat. O cliente não monta o harness. A Mistral monta. O agente tem memória, tool calls e loop de execução gerenciado, e o departamento de compras assina um contrato só.

O AWS Neuron Agentic Development é o mesmo padrão projetado uma camada abaixo no stack. O agente não está escrevendo código de aplicação. Está escrevendo código de kernel para o silício. As skills são open-source porque a AWS quer que o substrato vença, não o catálogo de skills. Se seus agentes conseguem mirar kernels do Trainium através de uma skill gerenciada, você está rodando em AWS Neuron, tendo notado a decisão ou não.

O que o “Keep Rate” do Cursor revela sobre o mercado de harness

O documento mais instrutivo da semana não veio de fornecedor de fronteira. Veio do post do Cursor sobre melhorar continuamente o harness do agente. O Cursor mede “Keep Rate” — o percentual de código gerado por agente que sobrevive na base de código do usuário depois das edições. Eles levaram a confiabilidade de tool-call de “noves baixos” para “dois ou frequentemente três noves”. Publicaram isso porque o harness virou o produto que vendem, e o harness não é o modelo.

A implicação para o comprador é desconfortável. Se um fornecedor de coding agent publica números de confiabilidade com granularidade de três noves, o seu harness interno do tipo “embrulhamos a API e escrevemos alguns prompts” está competindo com um time cuja superfície inteira de engenharia é otimização de harness. Você não vence essa corrida. Não fecha nem o gap.

A resposta razoável não é desistir. A resposta razoável é parar de tratar construção de harness como engenharia diferenciadora e começar a tratar como seleção de fornecedor. Os quatro anúncios desta semana tornam essa seleção de fato viável pela primeira vez. No ano passado, “comprar o harness” significava se prender a uma família de modelo. Neste ano, o harness é vendido por provedores de nuvem, e o modelo dentro dele é configurável.

A escolha real: qual substrato, com qual superfície de cobrança

Se você é líder de plataforma decidindo isso em maio de 2026, a pilha de perguntas fica assim:

Qual nuvem é o seu plano de controle? O AWS Bedrock hospeda hoje Claude, OpenAI e uma lista crescente de outros, todos sob IAM, todos emitindo CloudTrail. O Vertex AI faz o mesmo do lado Google. O Azure faz do lado Microsoft. Se a sua superfície de governança já é uma das três, o runtime de agente não é procurement separado — é extensão da nuvem que você já audita. É uma simplificação operacional relevante, e é a que a maioria dos times subestima porque pensa em “infraestrutura de agente” como stack à parte.

Qual superfície de cobrança absorve o custo? OpenAI no Bedrock conta para o commit AWS. Mistral Vibe fica na cobrança da Mistral. Chamadas de API da Anthropic dentro do Bedrock contam para o commit AWS; fora do Bedrock, não. Se você está sentado em um EDP de US$ 20 milhões com um hyperscaler, o runtime que consome dólares de commit é significativamente mais barato do que o que não consome. O financeiro vai se importar com isso, mesmo que a engenharia não se importe.

Qual governança de substrato sobrevive ao próximo upgrade de modelo? Esse é o ponto que a maioria dos times perde. Modelos serão substituídos. O agente em que seu time confia em maio de 2026 não é o agente em que seu time vai confiar em novembro de 2026. O substrato tem que ser estável através dessa troca. A história de IAM, auditoria e perímetro de dados do AWS Bedrock é a mesma se o modelo por trás é Claude ou GPT. Essa é a propriedade que você está comprando. O modelo é o consumível.

Os times que escolheram seu plano de controle de nuvem há dois anos não sabiam que aquela decisão também era a decisão de runtime de agente. Agora é. Reverter essa decisão em 2026 é o tipo de migração de plataforma que se adia por mais um ano, e mais outro, até o substrato ossificar.

O que recomendamos fazer esta semana

Rode uma revisão de 60 minutos com o líder de plataforma, o líder de segurança e o líder financeiro na mesma sala. Três perguntas:

  1. Qual é o nosso runtime de agente hoje? Se a resposta for “embrulhamos o SDK da OpenAI numa Lambda”, anote isso. Esse é o seu harness. Compare a história de confiabilidade dele aos números publicados pelo Cursor. Se você não consegue produzir um equivalente de Keep Rate, você não tem a telemetria que a conversa de harness exige.

  2. Qual é o nosso plano de controle de nuvem? AWS, GCP, Azure ou híbrido. A resposta honesta importa. Se é híbrido, escolha aquele com mais maturidade de governança para tráfego de agente neste momento — em maio de 2026, isso é o AWS Bedrock, na força dos Managed Agents, do escopo de IAM e do anúncio da OpenAI.

  3. Qual é a nossa superfície de cobrança para inferência de agente? Se a resposta é “pagamos faturas de fornecedor fora do nosso commit de nuvem”, você está deixando margem na mesa. Mova a inferência para dentro do substrato que absorve commit, a menos que tenha razão regulatória para não fazê-lo.

A conclusão que os times resistem é a simples. O harness que você passou os últimos dezoito meses construindo não é fosso. É dívida técnica que compõe contra três fornecedores que lançaram alternativas gerenciadas nesta semana. Mantenha as partes que codificam a sua governança — políticas, auditoria, classificações de dados. Aposente o resto.

A consolidação cross-vendor é a nova forma da decisão de compra. Os times que nomearem seu substrato neste trimestre passarão 2027 escolhendo modelos. Os que não nomearem passarão 2027 explicando ao conselho por que sua plataforma de agente está numa bifurcação que nenhum fornecedor suporta.


Fontes

A Victorino ajuda empresas a escolher runtimes de agente cuja governança sobrevive à próxima troca de modelo: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa