Engenharia de Harness é Subtração: a Própria Anthropic Mostra o Andaime Encolhendo

Em março de 2026 escrevemos sobre o harness gerador-avaliador da Anthropic, com seus contratos de sprint, resets de contexto e o padrão de três papéis. Aquele texto é leitura obrigatória antes deste: Loops Gerador-Avaliador. O que vem a seguir assume que você já leu.

Em maio de 2026, no AI Engineer Conference, Ash Prabaker e Andrew Wilson, do time de IA aplicada da Anthropic, mostraram como o mesmo harness ficou dois meses depois. A manchete não é o que eles adicionaram. É o que eles removeram.

Entre o Opus 4.5 e o Opus 4.6, três peças do próprio harness deles foram deletadas. A decomposição forçada em sprints, fora. As janelas de contexto novas a cada sprint, fora. As rodadas de avaliador por sprint, fora. O agente de horas seguidas não regrediu. Pelo benchmark interno deles, no estilo METR, o Sonnet 3.7 em fevereiro de 2025 sustentava cerca de uma hora de trabalho coerente de agente sob um harness mínimo. O Opus 4.6, no início de 2026, sustenta cerca de doze horas sob a mesma linha de base mínima. Doze vezes o tempo de execução, com menos peças móveis no andaime.

É essa a disciplina deste texto. Engenharia de harness é subtração. A maioria dos times ainda está somando.

A Curva que o Modelo Está Subindo

A forma da curva importa antes das deleções fazerem sentido. Wilson apresentou a linha do tempo como uma sequência de lançamentos pareados, em que cada modelo novo veio acompanhado de uma primitiva de harness que o modelo anterior não conseguiria sustentar.

O Sonnet 3.5 trouxe artifacts e computer use. O Sonnet 3.7 trouxe o Claude Code em research preview. O Opus 4 e o Sonnet 4 transformaram o Claude Code em produto de disponibilidade geral, com SDK. O Sonnet 4.5 adicionou consciência de janela de contexto, o Claude Code 2.0 lançou com checkpoints e o SDK foi renomeado para Agent SDK. O Opus 4.5 introduziu orquestração com muitos sub-agentes, posicionado como modelo de planejamento. O Haiku 4.5 fez par com o Opus 4.5 para viabilizar economicamente rodadas com vários sub-agentes. O Opus 4.6 e o Sonnet 4.6 trouxeram compactação no lado do servidor, contexto de 1 milhão de tokens em disponibilidade geral e a primitiva de times de agentes.

Cada passo fez duas coisas. Tornou o modelo mais capaz de manter estado e intenção em horizontes mais longos. E moveu capacidades que antes viviam no harness para dentro do modelo ou da plataforma.

Esse segundo movimento é o que muda a forma de construir. Quando a compactação no servidor cuida da manutenção do contexto, seu harness deixa de precisar agendar resets de contexto. Quando o modelo aguenta builds contínuos de duas horas sem perder o fio, seu planejador deixa de precisar forçar uma decomposição em sprints que existia só para impedir o modelo de derivar. O andaime era estrutural para um modelo anterior. Agora ele atrapalha.

O que a Anthropic Deletou, e por quê

Prabaker foi específico sobre quais peças do harness de março não sobreviveram em maio.

A primeira deleção foi a decomposição forçada em sprints. No design gerador-avaliador original, o planejador quebrava o trabalho em sprints delimitados porque o gerador não conseguia manter coerência ao longo de um arco mais longo. O Opus 4.6 consegue. O time agora permite builds contínuos de duas horas ou mais, sem cortar artificialmente a sessão de trabalho do modelo em pedaços.

A segunda deleção foi o padrão de contexto fresco por sprint. O harness original arquivava o contexto acumulado em cada fronteira de sprint e reiniciava o gerador com uma janela limpa mais o contrato do sprint. A compactação no lado do servidor, que chegou com a geração 4.6, faz o trabalho equivalente sem exigir que o harness o dirija. O código de orquestração que gerenciava esses resets desapareceu.

A terceira deleção foi a rodada de avaliador por sprint. Em março, o avaliador rodava a cada fronteira de sprint, validando contra o contrato do sprint antes do gerador ter permissão para seguir. O harness atual roda o avaliador uma vez só, ao final de uma geração em uma única etapa. O gerador produz um artefato completo contra um contrato negociado. O avaliador pontua uma vez.

Cada uma dessas deleções removeu código, removeu custo, removeu complexidade de orquestração e não regrediu qualidade. É esse o teste para qualquer primitiva de harness. Se o modelo mais recente consegue absorver o trabalho do andaime, o andaime ganhou o direito de sair.

O que Sobreviveu, e o que Isso Diz

Três primitivas não foram deletadas. São as que vale entender, porque a ausência da deleção é em si um sinal.

A separação de papéis entre planejador, gerador e avaliador continua de pé. É um padrão crítico-revisor com contratos de papel explícitos, não a analogia com GAN que o texto anterior já corrigiu. Os papéis persistem porque persiste o viés de qualquer modelo ao avaliar a própria saída. Um modelo avaliando o próprio trabalho continua a ignorar as mesmas categorias de erro que produziram esse trabalho. O remédio é separação estrutural, não auto-reflexão melhor.

O sistema de arquivos como estado compartilhado sobreviveu. Agentes leem e escrevem em disco. Disco é o protocolo. O time não migrou para uma abstração mais rica de passagem de estado, e o motivo é o mesmo pelo qual sistemas de arquivos vencem armazenamentos customizados na maioria dos contextos de engenharia. Dá para listar, dá para fazer grep, dá para auditar e dá para passar por qualquer outra ferramenta. A primitiva de harness que vence costuma ser a que impõe o menor vocabulário novo.

A negociação de contrato entre gerador e avaliador sobreviveu. No exemplo Retro Forge, o contrato tinha 27 critérios explícitos, a execução custou cerca de 200 dólares e durou seis horas. O contrato foi negociado antes de qualquer código ser gerado. Esse é o artefato que carrega o peso. O contrato é contra o que o gerador constrói e contra o que o avaliador pontua. Sem ele, voltamos ao “achismo”.

Há uma primitiva mais silenciosa que também sobreviveu e merece um parágrafo próprio. O avaliador usa uma rubrica explícita para pontuar qualidades subjetivas. O exemplo da Anthropic usa uma rubrica de quatro eixos: design, originalidade, acabamento e funcionalidade. A rubrica é calibrada contra sites de referência. Subjetivo não quer dizer impontuável. Quer dizer que o esquema de pontuação precisa ser explícito e externo. A rubrica é o objeto que carrega o peso, não o gosto do modelo.

O Loop de Depuração que Ninguém Quer Ouvir

Prabaker disse no palco algo que contraria boa parte da literatura sobre observabilidade de agentes. O principal loop de depuração de quem constrói o harness é ler traços de agente à mão.

Não dashboards. Não pipelines automáticas de análise de traço. Não juízes LLM pontuando as próprias rodadas. Uma pessoa senta, abre o traço e lê o que o agente fez e por quê. O time rejeitou explicitamente a ideia de que a análise totalmente automatizada de traços fosse o loop principal, porque sistemas automatizados têm o mesmo viés dos agentes que pontuam. Eles ignoram as mesmas coisas.

O conselho é desconfortável porque não escala de forma linear. Não dá para contratar cem leitores de traço e chamar isso de produção. Dizer em voz alta serve para alinhar a expectativa. Traços são como se entende o sistema. Dá para construir telemetria em cima da leitura de traços, mas não dá para pular essa leitura. Times que tentam pular direto para a sumarização automatizada de traços terminam com um dashboard confiante sentado em cima de um sistema mal entendido.

A implicação prática para a liderança de engenharia é simples. Reserve orçamento para um pequeno número de leitores de traço em todo time que opera agentes de longa duração em produção. Pessoas sêniores. Como parte da rotação de on-call. O traço é a verdade, e alguém precisa continuar lendo.

A Disciplina da Subtração

A tese deste texto cabe em uma frase. Toda primitiva de harness que você lança tem prazo de validade, e seu trabalho como engenheiro de harness é deletá-la antes que ela vire imposto sobre a próxima geração do modelo.

A maioria dos times não opera assim. Eles somam. O harness ganha novas camadas de orquestração, novos papéis de sub-agente, novos middlewares de moldagem de contexto, e essas adições ficam para sempre. O time que escreveu reluta em remover porque foi quem lançou, porque o runbook de on-call referencia, porque os testes de regressão passam com as peças no lugar. Enquanto isso, o modelo absorveu metade do que elas fazem.

O time da Anthropic tem permissão organizacional para deletar o próprio código porque a deleção faz parte de como eles avaliam o próprio harness. Essa permissão não é exótica. Qualquer time de plataforma pode conceder. O mecanismo é uma auditoria trimestral. A cada trimestre, pegue o harness atual, liste cada primitiva e pergunte se o modelo atual ainda precisa dela. Se a resposta for “não” ou “não tenho certeza”, rode o harness sem essa primitiva no seu conjunto de benchmarks e compare. Se a qualidade se mantém, a primitiva sai.

A auditoria é o loop. O modelo melhora; o harness encolhe; a auditoria captura o que o modelo absorveu; o harness reduzido libera atenção de engenharia para a próxima tarefa de fronteira que precisa de andaime novo. O investimento total em engenharia de harness não diminui, mas a localização desse investimento se move com a fronteira.

Faça Isso Agora

Escolha o harness em torno de um agente em produção do seu stack. Abra o código de orquestração. Encontre uma primitiva que era estrutural quando você escreveu: um reset de contexto, uma decomposição forçada, um portão de avaliador, um passo de planejador que o modelo atual provavelmente conseguiria pular.

Rode sua suíte de avaliação com essa primitiva removida. Se a qualidade se mantém, delete. Mantenha a deleção em um commit separado, para reverter caso uma regressão futura apareça. Faça isso uma vez por trimestre para cada agente de longa duração que você opera.

Se a deleção regride a qualidade, você aprendeu algo útil: aquela primitiva ainda é estrutural para a sua carga de trabalho específica, e a próxima geração do modelo é onde ela vai ganhar o direito de sair. Marque, observe e re-audite quando a próxima versão grande do modelo chegar.

É essa a disciplina. Adicione quando a tarefa de fronteira exigir. Delete quando o modelo tiver absorvido. O harness que faz o próprio trabalho corretamente é sempre menor no trimestre seguinte do que era neste.

Fontes

Ash Prabaker e Andrew Wilson, Anthropic. “Build Agents That Run for Hours.” AI Engineer Conference, Maio de 2026.
Anthropic Engineering. “How we built our multi-agent research system.” 2025.
AI Engineer. “AI Engineer Conference.” Maio de 2026.

A Victorino ajuda times de engenharia a auditar o harness em busca de andaimes que o modelo mais novo já absorveu: contato@victorino.com.br | www.victorino.com.br