O Harness É um Artefato de 90 Dias: Por Que as Duas Pontas do Stack Estão Engolindo Ele

O harness de agente que o seu time de plataforma está endurecendo neste trimestre tem vida útil medida em gerações de modelo, não em anos. Duas peças de evidência publicadas neste mês tornam isso desconfortável de ignorar.

O texto de Han Lee, Hidden Technical Debt of AI Systems: Agent Harness, traz números de benchmark que deveriam reordenar como você pensa o investimento em harness. Na mesma geração do GPT-5.1 Codex, o harness de primeira parte alcançou 20,2% nas avaliações de posttrain; harnesses de terceiros chegaram a 7,7%. Isso é uma diferença de 2,6x no mesmo modelo. O Letta Code rodando sobre o Opus 4.5 atinge 59,1% contra 41,6% do Claude Code em avaliações intensivas em memória. Mude para o Gemini 3 e a foto muda de novo: Letta 56,0%, fornecedor 58,4%. A vantagem do harness se comprime conforme o modelo amadurece.

Drew Breunig publicou a outra metade do quadro três dias depois. Em The Cost of Overfitting the Harness, ele descreve um padrão mais silencioso: os labs de fronteira estão absorvendo comportamentos do harness para dentro do próprio modelo. A OpenAI encerrou as APIs de fine-tuning na mesma janela em que assou comportamentos antes externos dentro dos modelos base. Mario Zechner documentou seus GPTs degradando em fluxos que antes funcionavam, sintoma típico de comportamentos saindo da camada do harness para a distribuição de treinamento do modelo. Breunig chama o resultado de “núcleo robótico nu”: um modelo que não precisa mais do andaime porque o andaime virou parte do modelo.

Os dois autores, trabalhando de forma independente, chegam à mesma conclusão por pontas opostas. O harness está sendo engolido. De um lado pelos labs de fronteira que assam comportamentos no modelo. Do outro lado por construtores como a Letta, cujos harnesses de qualidade de primeira parte provam que o andaime ainda compensa, mas apenas para a geração atual do modelo. O harness de agente que você entrega hoje é um artefato de 2026, não uma plataforma.

A implicação não é “pule o harness”. A implicação é “desenhe o harness como andaime descartável, com interfaces finas e substituíveis”.

A Onda de Compressão

A tabela de benchmark do Lee é a peça de evidência mais limpa que vi para o que antes era só uma intuição. Mesmo modelo, harness diferente, três vezes a pontuação. O paper do arxiv que ele cita (2603.08640v1) mediu o Codex de primeira parte contra harnesses de terceiros nas mesmas tarefas de posttrain. A distância de 20,2% para 7,7% não é ruído. O harness de primeira parte conhece a distribuição de treinamento do modelo. O harness de terceiros está fazendo engenharia reversa dela.

Os dados da Letta mostram o mesmo efeito pelo outro lado. Um time pequeno que constrói um harness nativo em memória consegue superar a oferta de primeira parte de um lab de fronteira em tarefas intensivas em memória, por 17 pontos percentuais no Opus 4.5. O time que conhece arquitetura específica de agentes vence o time que conhece o modelo.

Agora coloque por cima o resultado do Gemini 3. Letta 56,0%, fornecedor 58,4%. A vantagem de harness que era decisiva no Opus 4.5 comprimiu para uma desvantagem de 2,4 pontos na geração seguinte de modelo. Lendo a tabela inteira, um padrão aparece: quanto mais maduro o modelo, menos o harness importa. A primeira geração de qualquer modelo novo recompensa andaime pesado. A terceira geração recompensa andaime fino. A quinta geração absorve o andaime para dentro de si.

O enquadramento de Breunig torna isso concreto. Os labs de fronteira não estão competindo com construtores de harness por acaso. Estão rodando o mesmo playbook que a OpenAI rodou com fine-tuning: entregar a capacidade externamente, observar como os clientes usam, assar os padrões no modelo, aposentar a superfície externa. Fine-tuning sumiu, ou quase. GPTs customizados degradaram porque seus fluxos foram absorvidos. O harness é o próximo.

O Que “Descartável” Significa na Prática

O erro que os times cometem é ler “descartável” como “não invista”. Isso é errado. A leitura correta é “invista onde o investimento se acumula, não onde ele se ossifica”.

Três coisas se acumulam entre gerações de harness: política de governança, harnesses de avaliação e identidade. Três coisas não se acumulam: andaime de prompt, wrappers de ferramentas e esquemas de memória. A primeira lista sobrevive a uma troca de modelo. A segunda lista é reescrita na próxima release importante.

É por isso que o edifício de contenção de quatro andares sobrevive a toda rotação de harness. Isolamento de computação, contenção de dados, governança de conhecimento e federação de identidade não são funcionalidades do harness. São funcionalidades de plataforma. O harness fica dentro do edifício. Quando o harness é substituído, o edifício continua de pé.

Trate essa distinção como o compromisso arquitetural. Tudo que mora dentro do edifício, templates de prompt, definições de ferramentas, esquemas de memória, política de retentativa, pode ser trocado em cadência de 90 dias junto com a próxima release de modelo. Tudo que é o edifício, federação de IAM, logs de auditoria, primitivas de sandbox, política de dados, precisa sobreviver ao modelo.

O Padrão do Harness Dividido

Existe uma forma de operacionalizar “descartável com interfaces finas”: divida o harness em três papéis e deixe cada um evoluir na sua própria cadência.

O harness de produção é a menor superfície possível. Aplica política de governança, isola computação, controla acesso a dados e federa identidade. Não sabe com qual modelo está conversando. Fala um contrato fino: receba esta entrada, devolva esta saída, registre tudo no meio. Quando um modelo novo é lançado, o harness de produção não muda. A troca de modelo é uma mudança de configuração.

O harness de treinamento é onde a exploração vive. É gordo, opinativo e descartável. É o lugar onde você empacota ferramentas, projeta prompts, estrutura memória e experimenta com os padrões agênticos que o modelo recompensa. O harness de treinamento é reescrito a cada geração de modelo. Esse é o objetivo. É o lugar onde se descobre o que o modelo realmente faz bem, antes que esse conhecimento seja absorvido na próxima geração e você tenha que reescrever de novo.

O harness de avaliação é a ponte. Roda a mesma suíte de tarefas entre versões de modelo, versões de harness e configurações. É a única peça que sobrevive a todas as rotações, porque tem que sobreviver. O harness de avaliação é como você decide quando trocar o harness de treinamento, quando trocar o modelo e quando o padrão de absorção descrito por Breunig chegou ao comportamento do qual você dependia.

Os benchmarks do Lee só existem porque alguém construiu um harness de avaliação. A afirmação da Letta de que vence o Claude Code no Opus 4.5 só carrega peso porque os dois rodaram a mesma suíte de avaliação em memória. Sem o harness de avaliação, você não consegue dizer se o modelo novo regrediu, se o harness novo regrediu ou se a sua carga de trabalho mudou. Está decidindo no escuro.

O Que Isso Custa Se Você Errar

Dois modos de falha se repetem em times que tratam o harness como plataforma.

O primeiro é o time que constrói um harness pesado e acopla a política de produção a ele de forma rígida. Quando o próximo modelo chega e o harness precisa ser reescrito, a política também é reescrita. A trilha de auditoria quebra. O time de governança perde seis meses reaprendendo o que era verdade. Os responsáveis por compliance param de confiar na plataforma porque a plataforma muda por baixo dos pés.

O segundo é o time que subinveste no harness de avaliação porque não parece trabalho de produto. Na primeira vez em que um modelo novo degrada um fluxo que antes funcionava, esse time não tem uma forma instrumentada de provar. Argumenta por anedotas. Faz rollback, ou pior, segue em frente e descobre a regressão em produção. Os GPTs do Zechner são a versão de consumo dessa história. A versão corporativa é mais cara.

Os dois modos de falha têm a mesma causa raiz: confundir o harness com a plataforma. O harness é a parte que é engolida. A plataforma é o que sobra quando o harness se vai.

Faça Isso Agora

Reserve uma reunião deste mês com o time de plataforma e responda três perguntas por escrito.

Primeiro: quais partes do seu harness atual codificam política de governança e quais codificam andaime específico de modelo? Se você não consegue desenhar essa linha num quadro branco em 10 minutos, as duas estão emaranhadas. Desemarane antes do próximo modelo chegar.

Segundo: você tem um harness de avaliação que roda a mesma suíte de tarefas em pelo menos duas versões de modelo? Se não, não há como detectar o padrão de absorção quando ele bater no seu stack. Construa o harness de avaliação neste trimestre. Trate como trabalho de plataforma, não de produto.

Terceiro: qual é o seu plano de migração quando o modelo do qual você depende lançar um sucessor que não precisa do andaime atual do seu harness? “A gente vai descobrir” não é plano. “Vamos reescrever o harness de treinamento, manter o harness de produção e rodar a suíte de avaliação para confirmar paridade” é plano.

Os times que vão vencer os próximos dois anos de operação de agentes não são os com os harnesses mais sofisticados. São aqueles cujos harnesses são pequenos o bastante para serem descartados.

Fontes

dbreunig.com. “The Cost of Overfitting the Harness.” Maio de 2026.
Han Lee personal blog. “Hidden Technical Debt of AI Systems: Agent Harness.” Maio de 2026.
Letta. “Letta Code benchmarks.” Maio de 2026.

A Victorino ajuda organizações de engenharia a dividir harnesses de produção, treinamento e avaliação, para que gerações de modelo possam rotacionar sem quebrar governança: contato@victorino.com.br | www.victorino.com.br