Workload-Harness Fit: A Taxonomia de Governança Escondida nos Agent Labs

TV
Thiago Victorino
9 min de leitura
Workload-Harness Fit: A Taxonomia de Governança Escondida nos Agent Labs
Ouvir este artigo

Intercom processa dois milhões de conversas por semana com agentes de IA. Cada deflexão de atendimento vale entre três e cinco dólares. Cursor gera código em produção onde cada execução correta pode valer milhares de dólares. Ambos decidiram treinar modelos próprios.

A decisão parece ser a mesma. Não é.

Intercom treina porque o volume gera sinal de treinamento abundante e o custo de inferência justifica a otimização. Cursor treina porque a complexidade das tarefas exige capacidades que modelos genéricos não entregam. A mesma ação (treinar um modelo) responde a lógicas completamente diferentes.

Akash Bajwa formalizou essa distinção em uma taxonomia que ele chama de workload-harness fit. E essa taxonomia, talvez sem intenção, é um framework de governança.

As Quatro Dimensões

A taxonomia opera sobre quatro eixos.

Volume. Quantas vezes a tarefa executa por unidade de tempo. Dois milhões de conversas por semana geram dados de treinamento suficientes para justificar fine-tuning. Uma consultoria que produz dez relatórios por mês, não.

Valor por execução. Quanto cada execução correta vale e quanto cada falha custa. Deflexão de ticket: três a cinco dólares. Diagnóstico médico ou deploy de código em produção: milhares. O valor por execução determina quanto você pode investir em verificação antes que o custo da verificação supere o custo do erro.

Propriedades de verificação. O quão confiável é o sinal de que a execução foi correta. Bajwa decompõe isso em três sub-dimensões: veracidade (confiança no resultado), proliferação (disponibilidade do sinal) e assimetria (raridade da expertise necessária para verificar). Um ticket resolvido ou não resolvido tem verificação limpa. Um parecer jurídico correto ou incorreto exige um advogado sênior para avaliar.

Horizonte temporal. A complexidade sequencial da tarefa. Completar uma frase é um horizonte de segundos. Refatorar um módulo de software é um horizonte de horas. Projetar uma molécula farmacêutica é um horizonte de semanas. Quanto mais longo o horizonte, mais difícil atribuir recompensa a decisões individuais no meio do caminho.

Essas quatro dimensões, combinadas, produzem uma matriz de decisão. Não sobre tecnologia. Sobre governança.

O Mapa das Decisões

Quando você plota as empresas nessa taxonomia, padrões emergem.

Cursor e Cognition ocupam o quadrante de alto volume, alto valor, verificação moderada e horizonte longo. O Composer 2 do Cursor usa pré-treinamento continuado sobre o Kimi K2.5 (um trilhão de parâmetros), seguido de aprendizado por reforço. A infraestrutura por trás disso inclui três regiões GPU, quatro regiões CPU, centenas de milhares de VMs Firecracker e mais de quinhentos pods por segundo. Eles não estão experimentando com treinamento. Estão operando uma fábrica de modelos.

Essa decisão se justifica porque o CursorBench (o benchmark interno deles) mede tarefas com mediana de 181 linhas de código alteradas. Compare com o SWE-bench, onde a mediana fica entre sete e dez linhas. Benchmarks públicos não capturam a complexidade real do trabalho que o Cursor precisa fazer. Então eles construíram o próprio benchmark, o próprio modelo, a própria infraestrutura de avaliação.

Intercom e Decagon ocupam o quadrante de alto volume, valor baixo a moderado, verificação limpa e horizonte curto. Treinar modelos aqui se justifica pela economia de inferência. O sinal de treinamento é abundante (ticket resolvido versus não resolvido) e o retorno vem da redução de custo por execução, não do aumento de capacidade por execução.

Harvey e Legora operam com volume moderado, valor alto, verificação moderada e horizonte médio. Harvey investiu em treinamento. Legora apostou em otimização de harness sobre modelos da Anthropic. O veredito sobre qual estratégia funciona melhor ainda não saiu.

Cada posição na matriz implica uma decisão de governança diferente. Não existe resposta universal para “devemos treinar nosso próprio modelo?”

O Problema dos Benchmarks Contaminados

Uma dimensão que a taxonomia toca indiretamente é a confiabilidade dos instrumentos de medição.

A OpenAI suspendeu o uso do SWE-bench Verified depois que modelos começaram a memorizar soluções. Contaminação de dados transformou o benchmark de instrumento de medição em exercício de memorização. Quando o instrumento que mede a qualidade do seu modelo está corrompido, todas as decisões derivadas desse instrumento ficam comprometidas.

O Cursor respondeu construindo o CursorBench com tarefas que refletem o trabalho real dos seus usuários. A mediana de 181 linhas contra sete a dez do SWE-bench não é só uma diferença de escala. É uma diferença de categoria. SWE-bench mede correção pontual. CursorBench mede capacidade de execução sustentada.

Para governança, a lição é direta: se você não controla o benchmark, você não controla a decisão. E se o benchmark é público e popular, ele será contaminado. Como documentamos com restrições de tipo, a verificação precisa ser específica ao domínio. Benchmarks genéricos medem capacidade genérica. Decisões de negócio exigem medição específica.

Treinar Versus Governar o Harness

Bret Taylor, da Sierra, oferece uma perspectiva que complementa a taxonomia: “A maioria das empresas não quer comprar modelos ou comprar software. Quer comprar soluções para seus problemas.”

Essa frase expõe a tensão central. Labs de agentes que treinam modelos estão verticalizando a cadeia de valor. Eles controlam desde o modelo base até a interface do usuário. Isso cria vantagem competitiva, mas também cria risco de concentração. Quando o mesmo time que constrói o modelo também constrói o benchmark que avalia o modelo, quem audita?

A alternativa (otimizar o harness sobre modelos de terceiros) preserva a separação entre quem fornece capacidade e quem verifica qualidade. Como exploramos em O Que É um Agent Harness?, o harness é a camada onde controles de governança vivem. Verificação de saída, guardrails de segurança, ciclos de correção, gestão de contexto. Tudo isso mora no harness, não no modelo.

Quando um lab treina o próprio modelo, a linha entre modelo e harness se dissolve. A verificação que antes era externa ao modelo passa a ser interna. Isso pode ser mais eficiente. Também pode ser mais opaco.

A Taxonomia Como Framework de Governança

Releia as quatro dimensões.

Volume determina o quanto de sinal de treinamento você gera. Mas também determina o quanto de dano uma falha sistêmica pode causar. Dois milhões de execuções por semana com um viés não detectado é uma catástrofe silenciosa.

Valor por execução determina quanto investir em verificação. Mas também determina a responsabilidade legal e reputacional de cada erro. Um ticket de atendimento errado incomoda. Um diagnóstico médico errado mata.

Propriedades de verificação determinam se você pode confiar na sua medição. Mas também determinam se um auditor externo consegue avaliar seu sistema. Verificação limpa é auditável. Verificação que depende de expertise rara é, na prática, não auditável.

Horizonte temporal determina a complexidade do treinamento. Mas também determina o tempo entre a decisão e a consequência. Horizontes longos significam que erros demoram para aparecer e, quando aparecem, já causaram dano acumulado.

Bajwa criou uma taxonomia para decisões de produto. Lida de outra forma, é uma taxonomia para decisões de risco.

O Que Isso Significa na Prática

Se você opera um sistema de agentes em produção, a taxonomia oferece três perguntas concretas.

Primeira: onde você está na matriz? Volume alto ou baixo? Valor alto ou baixo por execução? Verificação limpa ou opaca? Horizonte curto ou longo? A resposta determina se treinar um modelo é economicamente racional ou se otimizar o harness entrega mais retorno por dólar investido. Como discutimos ao nomear a disciplina, a maioria das organizações subestima o retorno do investimento em harness.

Segunda: quem controla sua verificação? Se é o mesmo fornecedor que treina o modelo, você tem um conflito de interesses estrutural. Não necessariamente malicioso. Mas estrutural. A verificação independente não é paranoia. É higiene.

Terceira: qual é o seu horizonte de consequência? Se o dano de uma falha aparece em minutos (ticket não resolvido), você pode iterar rápido. Se aparece em meses (viés em decisões de crédito), você precisa de monitoramento contínuo que a maioria dos sistemas de agentes não possui.

A taxonomia de workload-harness fit não nasceu como ferramenta de governança. Mas as melhores ferramentas de governança raramente nascem assim. Elas emergem de quem está tentando resolver problemas práticos e, no processo, expõe a estrutura de risco que já existia.

Volume, valor, verificação, horizonte. Quatro palavras. Uma matriz de decisão completa.


Fontes

  • Akash Bajwa. “Agent Labs: Workload-Harness Fit.” Março 2026.
  • Cursor Team. “Composer 2 Training Pipeline & CursorBench.” Março 2026.
  • Bret Taylor / Sierra AI. Declaração sobre aplicação vertical de modelos. 2026.

Victorino Group projeta a camada de governança entre seus modelos e suas decisões de negócio: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa