Quando o Harness Muda e o Modelo Não

Entre fevereiro e abril de 2026, uma mesma queixa atravessou GitHub, Hacker News, Reddit e X: “o Claude Code foi rebaixado”. O número de reclamações era grande o suficiente para virar manchete. A evidência mais rigorosa, porém, não veio de tuítes. Veio do issue #42796, aberto no dia 2 de abril por Stella Laurenzo, diretora sênior da AMD. Ele compila a forense de 6.852 sessões, 17.871 blocos de pensamento e 234.760 chamadas de ferramenta. Os números são desconfortáveis: a razão leitura/edição caiu de 6,6 para 2,0 (uma queda de 70% na disciplina de pesquisar antes de mutar), e as interrupções do usuário por 1.000 chamadas de ferramenta subiram doze vezes.

A tese do jornalista alemão Marcus Schuler, na Implicator.ai de 15 de abril, é simples e incômoda: não existe evidência de que os pesos do Claude tenham mudado. A deterioração é real, mas foi produzida por outra camada — o harness, o ambiente de execução ao redor do modelo. Defaults de esforço, pensamento adaptativo, duração de cache, compactação de contexto, política de cota e incidentes de status podem mover-se sem que o nome do modelo mude, sem changelog explícito e sem que o cliente consiga medir.

Boris Cherny, líder do Claude Code, confirmou o mecanismo em respostas públicas. O pensamento adaptativo, introduzido em 9 de fevereiro, às vezes alocava zero tokens de raciocínio — produzindo o que ele mesmo chamou de “alucinações precisas” (SHAs falsos, pacotes inexistentes). O padrão de esforço caiu de alto para médio (nível 85) em 3 de março. O header redact-thinking-2026-02-12 passou de 0% das sessões em 4 de março para 100% em 12 de março.

A história não é “a Anthropic mentiu”. É outra, mais complicada e mais importante: o produto que um cliente comprou no dia zero e o produto que ele opera no dia noventa já não são o mesmo artefato — e o cliente não tem instrumento contratual nem técnico para detectar a diferença.

A governança que ninguém quer nomear

Todo debate anterior sobre governança de IA partiu da mesma premissa: o fornecedor é o responsável. Podemos confiar no modelo? A reportagem da Implicator inverte a pergunta: o comprador é o responsável. Podemos auditar se o produto que compramos continua funcionando?

Três propriedades tornam essa pergunta inadiável para IA entregue por harness.

Primeiro, o nome do modelo é marketing, não cláusula contratual. “Claude Opus 4.6” em 1º de abril e “Claude Opus 4.6” em 10 de abril podem produzir comportamento mensuravelmente diferente, porque defaults de esforço, política de orçamento de pensamento, limites de compactação e TTL de cache são botões do lado do servidor. Eles mudam sem version bump.

Segundo, há assimetria de telemetria. O fornecedor vê cada token, cada hit de cache, cada bloco de pensamento. O cliente vê resultado e um 200 OK. Quando o BridgeBench alegou queda de 83,3% para 68,3%, não havia primitiva padronizada para o cliente rodar a mesma medição no mesmo nível de esforço. O próprio benchmark, aliás, era metodologicamente frágil — comparava 6 tarefas contra 30 — e a Implicator foi honesta em marcá-lo como contestado. Mas isso só reforça o ponto: se nem a imprensa técnica consegue auditar confiavelmente, o comprador corporativo está pior.

Terceiro, transparência é custo, não compromisso. O postmortem da Anthropic de setembro de 2025 — três bugs de infraestrutura, até 16% dos pedidos do Sonnet 4 degradados no pico — foi invulgarmente franco. E, mesmo assim, os próprios engenheiros admitiram: controles internos de privacidade os impediram de ler as interações problemáticas. Quando a depuração do fornecedor é bloqueada, a do comprador é estruturalmente pior.

A implicação é direta. Comprar IA em produção sem um SLA de mudança de harness, em 2026, é o equivalente a comprar SaaS sem SLA de uptime em 2012. Já exploramos a diferença que o harness faz — 42% para 78% sem trocar o modelo e quando o harness vira produto do fornecedor. Este texto fecha o arco: se o harness é o produto, o contrato precisa nomeá-lo.

As dez primitivas que movem o produto

O harness não é uma caixa opaca porque a Anthropic seja má. É opaco porque a sua física operacional envolve pelo menos dez variáveis que podem mudar a qualidade percebida sem tocar em um único peso.

Default de esforço — quanto raciocínio por turno (low/medium/high/max). Mudou de alto para médio em 3 de março; voltou a alto para API/Bedrock/Vertex/Foundry/Team/Enterprise em 7 de abril.
Pensamento adaptativo — o modelo decide sozinho quanto pensar. Introduzido em 9 de fevereiro; pode alocar zero.
TTL de cache — 5 minutos padrão versus 1 hora premium (2x o custo de escrita; leituras a 10%). A economia de um agente de longa duração depende disso.
Compactação de contexto — resumo automático quando a janela enche. Preserva prompt de sistema e ferramentas. Sem instrumento para inspecionar o que foi descartado.
Redação de pensamento (redact-thinking-2026-02-12) — esconde o raciocínio da interface. Segundo Cherny, só afeta UI; não reduz orçamento. É uma afirmação do fornecedor, não uma auditoria verificada.
Política de cota — limites de sessão, caps de mensagem, orçamentos por tier. Cherny admitiu que cerca de 7% dos usuários Pro passariam a bater nos novos limites.
Incidentes de status — janelas de degradação parcial nem sempre refletidas na página de status. O incidente de roteamento de agosto–setembro de 2025 é o exemplo canônico.
Tool defer-loading e plan-mode gating — decisões arquiteturais para preservar prefixo de cache. Invisíveis.
Preservação de prefixo de cache — toda decisão de produto se curva para evitar invalidação. Invisível.
Drift de prompt de sistema — prompts e definições de ferramentas renderizados no servidor mudam sem aviso. Invisível a menos que vaze.

Nenhuma dessas primitivas é ilegítima. Todas são necessárias para operar um produto agentic a preço de Pro. Mas, juntas, elas formam a superfície onde a qualidade do produto vive. É dessa superfície que o comprador precisa falar.

Cinco superfícies que um contrato adulto deve nomear

O comprador não controla pesos nem logs internos. Mas ainda pode governar a superfície. Uma procura corporativa séria em 2026 deveria exigir cinco cláusulas.

Primeira, uma suíte de canários comportamentais do próprio cliente. Não benchmarks — canários. Um conjunto fixo de tarefas determinísticas rodadas diariamente contra o endpoint do fornecedor, medindo contagem de chamadas de ferramenta, razão leitura/edição, queima de tokens de pensamento e correção de resultado. Essa é a única sinalização que o cliente controla inteiramente. A metodologia de Laurenzo é o protótipo; falta produtizá-la.

Segunda, um SLA de mudança de harness. Compromisso contratual do fornecedor de notificar antes de alterar defaults de esforço, política de pensamento adaptativo, TTL de cache, limiares de compactação e prompts de sistema. Modelado em SLAs de janela de manutenção de provedores de nuvem. Sem essa cláusula, “Opus 4.6” não é um identificador estável de produto — é um nome comercial.

Terceira, uma cláusula de paridade de esforço. Direito contratual de fixar nível de esforço, desabilitar pensamento adaptativo e travar política de orçamento. A Anthropic tecnicamente já oferece isso (/effort max, CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1). O problema é que o que o cliente recebe é o default, não a capacidade. A procura corporativa precisa forçar o default.

Quarta, um piso de divulgação de incidentes. Se incidentes internos do fornecedor degradam mais de X% dos pedidos do cliente por mais de Y minutos, divulgação automática com intervalo de IDs amostrados. O postmortem de setembro de 2025 da Anthropic é o padrão-ouro atual; ele precisa virar chão da indústria, não teto.

Quinta, o direito a log de auditoria. Direito do cliente de recuperar, por pedido, o nível de esforço efetivamente servido, os tokens de pensamento consumidos, o status de cache hit e o hash do prompt de sistema. Hoje isso é ativo de telemetria interna do fornecedor. Em uma aquisição governada, precisa virar artefato do comprador.

A nuance que o “too dark” não captura

A Implicator intitulou a matéria “Anthropic made the black box too dark”. A manchete é forte, mas exagera. A Anthropic documenta publicamente pensamento adaptativo, níveis de esforço e caching — melhor que a OpenAI documenta suas primitivas equivalentes. O postmortem de setembro é mais detalhado que disclosures análogas do Google ou da Microsoft. As queixas no Reddit sofrem de viés de ancoragem no pico e de sobrevivência em fórum: quem está satisfeito não posta.

A leitura correta não é “a Anthropic esconde coisas”. É mais dura: a Anthropic é o teto atual de transparência, e o teto ainda está abaixo do chão que uma empresa regulada precisa. Os dados de Laurenzo não sofrem dos vieses das queixas — são telemetria de log de sessão com métricas comportamentais assinadas. Um comprador que descarta as queixas inteiras comete o erro oposto: supor que, porque a maioria é emocional, ninguém está medindo direito.

A decisão de procura precisa ser guiada pelo subconjunto de melhor evidência, não pela narrativa agregada. E a melhor evidência diz o que a tese da Implicator diz, mesmo sem a manchete: o harness é o produto. O contrato ainda não o nomeia.

O trabalho que cabe ao comprador

O problema que precisa virar rotina nas áreas de procura corporativa e jurídico não é “como avaliar um modelo”. Modelos são avaliados uma vez. Harness precisa ser auditado continuamente. Essa é a mudança de postura. E ela começa antes da assinatura: no redesenho do próprio contrato.

Não é exagero dizer que governança de IA em 2026 pesa mais no lado do comprador do que no lado do fornecedor. Fornecedores vão otimizar para sua economia — e devem. Compradores, se não escrevem as cláusulas, herdam os defaults. E os defaults, como mostrou o período de fevereiro a abril, mudam.

A boa notícia é que o instrumental existe. Canários, SLAs de janela, direitos de log, cláusulas de paridade, pisos de incidente — tudo isso é tecnologia contratual e operacional conhecida. Só precisa ser aplicada ao novo objeto. O trabalho não é inventar a governança; é estendê-la até onde o produto efetivamente mora.

Quem espera o fornecedor fazer isso por iniciativa própria vai esperar muito. Quem trata o harness como superfície auditável a partir de amanhã começa a comprar IA adulta hoje.

Fontes

Schuler, Marcus. “Claude Probably Wasn’t Secretly Nerfed — Anthropic Made the Black Box Too Dark.” Implicator.ai, abril 2026.
Laurenzo, Stella. “Claude Code Performance Analysis.” GitHub anthropics/claude-code Issue #42796, abril 2026.
Anthropic Engineering. “A Postmortem of Three Recent Issues.” Setembro 2025.
Cherny, Boris. Respostas públicas no Hacker News e GitHub sobre pensamento adaptativo e defaults de esforço. Abril 2026.
Mayer Brown. “Contracting for Agentic AI Solutions: Shifting the Model from SaaS to Services.” Fevereiro 2026.

Ajudamos compradores corporativos a desenhar contratos de auditoria de harness para produtos de IA que já não são apenas modelos: contato@victorino.com.br | www.victorino.com.br