- Início
- The Thinking Wire
- A Cultura de Postmortem Acabou de Chegar à IA
A Cultura de Postmortem Acabou de Chegar à IA
Na quinta-feira, 23 de abril, a Anthropic publicou um postmortem de engenharia. O artefato em si é a notícia. Laboratórios de IA raramente publicam esse tipo de documento. Quando um modelo regride em qualidade, o padrão da indústria é silêncio, ajuste de bastidores e uma nota de release vaga. Desta vez, três mudanças foram nomeadas com data, uma queda na avaliação foi quantificada e o atraso de detecção foi confessado por escrito.
Vale ler o documento como o que ele é: uma equipe de engenharia tratando o próprio modelo como sistema em produção, sujeito a revisão pública.
Três Mudanças, Uma Queda Medida, Mais de Uma Semana de Atraso
A degradação que clientes do Claude Code vinham reportando desde meados de março não foi um evento. Foi a interseção de três mudanças independentes, cada uma afetando uma fatia diferente do tráfego, em horários diferentes.
A primeira: em 4 de março, o esforço padrão de raciocínio mudou de high para medium, na busca por reduzir latência. Ficou assim até 7 de abril, quando reclamações sobre inteligência levaram à reversão.
A segunda: em 26 de março, uma otimização do cache de pensamento entrou em produção. O objetivo era limpar raciocínio antigo após uma hora de inatividade. Na prática, o cache passou a ser limpo a cada turno, pelo resto da sessão. A causa raiz desse bug levou mais de uma semana para ser identificada, em parte porque o efeito aparecia inconsistente: cada uma das três mudanças tocava uma fatia distinta do tráfego, em um cronograma distinto.
A terceira: em 16 de abril, o system prompt ganhou uma instrução de verbosidade. “≤25 palavras entre chamadas de ferramenta”, “≤100 palavras na resposta final”. Em testes de ablação, essa mudança isolada produziu uma queda de 3% na avaliação para Opus 4.6 e 4.7. Foi revertida em 20 de abril.
Três por cento numa avaliação interna não soa como crise. Mas é o tipo de número que normalmente não vira parágrafo público, e a Anthropic publicou. Esse é o ponto.
Os Compromissos Nomeados
Postmortem que não nomeia mudanças é blog post. O da Anthropic nomeia.
O time se comprometeu a:
- Ampliar o uso interno dos builds públicos do Claude Code. Antes, parte da equipe rodava builds internos diferentes do que o cliente recebia. A divergência mascarava regressões.
- Rodar uma suíte ampla de avaliações por modelo para toda mudança de system prompt. Não para mudanças “grandes”. Toda.
- Implementar períodos de assentamento, suítes de avaliação mais amplas e rollouts graduais.
- Reforçar o Code Review com contexto multi-repo e endurecer controles de auditoria para mudanças específicas por modelo.
Lendo na sequência, esses compromissos somam à descrição do que falta quando uma equipe trata mudanças de modelo como configuração e não como deploy. Nenhum desses controles seria estranho a uma equipe de SRE com dez anos de prática. Estão sendo escritos em primeira pessoa por um laboratório de fronteira porque ainda não eram a prática padrão. É bom sinal.
A Janela de 12 Horas
Enquanto a Anthropic publicava postmortem, a Sysdig publicava cronograma. CVE-2026-33626, no LMDeploy. A vulnerabilidade ganhou advisory público no GitHub às 15:04 UTC de 21 de abril. A primeira exploração observada veio às 03:35 UTC de 22 de abril. Doze horas e trinta e um minutos entre divulgação e exploração.
Detalhe técnico que importa: não havia PoC público em lugar algum. Nem GitHub, nem repositório de exploits, nem fórum. A janela de 12h31m é o tempo entre o advisory e um atacante reproduzir o exploit do zero. A sessão de ataque completa, do reconhecimento à exfiltração via callback DNS, durou oito minutos.
O LMDeploy tem 7.798 estrelas no GitHub, dez vezes menos que vLLM ou Ollama. Pequeno o bastante para parecer obscuro, grande o bastante para servir produção em várias empresas. A lição não é “evite dependências pequenas”. É: superfícies de inferência herdam o blast radius do que servem, independentemente da popularidade.
A reformulação que a Sysdig oferece é a parte mais citável da semana. Parafraseando: o aviso de segurança é o prompt de entrada para qualquer LLM comercial gerar a exploração. Um advisory tão específico quanto o GHSA-6w67-hwm5-92mq não é mais documento defensivo. É insumo de pipeline ofensivo automatizado. A pergunta deixa de ser “quanto tempo até alguém escrever o exploit?” e passa a ser “quanto tempo até alguém colar o advisory em um modelo?”
A defesa da Sysdig é prosaica e por isso útil: subir para v0.12.3 ou desabilitar endpoints de visão, exigir IMDSv2 (httpTokens=required), restringir egress da VPC dos nós de inferência, monitorar em runtime requisições para faixas link-local e RFC 1918, e rotacionar credenciais IAM expostas. Nenhuma dessas medidas é nova. Todas pertencem ao mesmo manual de defesa em profundidade que SRE e segurança de cloud praticam há uma década. Estão sendo reescritas porque a inferência de modelo virou superfície de produção que herda essas obrigações.
Como exploramos em Shadow AI é a Nova Cadeia de Suprimentos. A Vercel Acabou de Provar., o vetor não é o modelo em si. É a infraestrutura que serve o modelo, e a velocidade com que um advisory público vira exploração funcional contra ela.
Cinco Camadas Para UI Gerada por IA
O terceiro evento da semana mora longe de segurança e perto de qualidade: o Frontend Masters publicou um framework para acessibilidade de UI gerada por IA. A tese é que código produzido por Claude Code, Codex, Cursor, ChatGPT, Copilot e similares falha por padrão em acessibilidade. <div onClick> no lugar de <button>. Roles ARIA esquecidas. Foco de teclado quebrado.
A defesa proposta tem cinco camadas:
- Restrições no prompt: arquivos
.cursorrulesinstruindo “use<button>para ações; nunca<div onClick>”. - Análise estática:
eslint-plugin-jsx-a11ycom regras em “error”, bloqueando commits com violações comoclick-events-have-key-events. - Testes em runtime:
jest-axee@axe-core/playwright, consultando elementos por role. - Integração CI: GitHub Actions bloqueando merge de PR se lint ou Playwright falharem em a11y.
- Arquitetural: usar primitivos battle-tested como Headless UI, Radix UI ou React Aria, em vez de construir tudo a partir de divs.
A cobertura combinada estimada cai entre 70% e 85% dos problemas reais de acessibilidade. Adicionar restrições leva entre 3 e 8 minutos por componente; remediar depois custa entre 45 e 90 minutos. O delta justifica a disciplina.
A frase que carrega o argumento: deixe bibliotecas battle-tested cuidarem da semântica e deixe a IA cuidar do estilo. Isso é defesa em profundidade aplicada a output de modelo, com a mesma forma que tem em segurança: nenhuma camada cobre tudo, várias camadas baratas cobrem quase tudo.
A Síntese: Engenharia, Não Magia
Três eventos independentes, em três dimensões diferentes — qualidade, segurança, acessibilidade — apontam para o mesmo lugar.
Postmortems com mudanças nomeadas e quedas quantificadas. Disciplina de mudança que trata system prompt como deploy. Defesa em profundidade que assume que o output do modelo vai falhar em alguma camada e que a próxima camada precisa pegar. Esse é o vocabulário de SRE. Está sendo importado para IA porque, quando algo serve produção, o vocabulário de produção segue.
O que mudou nesta semana não foi a IA ficar mais segura ou mais confiável. Foi a indústria começar a operar IA como engenharia. Como discutimos em Quando a Infraestrutura Embala Governança, o sinal mais claro de uma tecnologia amadurecendo é quando os controles deixam de ser opcionais. E como mapeamos em A Semana Em Que o Monitoramento de IA Falhou em Todas as Camadas, o problema não é falta de ferramentas. É falta da disciplina de costurar as camadas que já existem.
A pergunta útil para uma equipe que opera IA hoje não é “estamos seguros?”. É: temos postmortem? temos disciplina de mudança? temos defesa em profundidade? Se a resposta a qualquer uma das três for não, o trabalho dos próximos noventa dias já está escrito.
A boa notícia é que esse trabalho não é novo. É SRE.
Fontes
- Anthropic. “Atualização sobre Recentes Relatos de Qualidade do Claude Code.” Abril 2026.
- Sysdig. “CVE-2026-33626: Como Atacantes Exploraram o LMDeploy em 12 Horas.” Abril 2026.
- Frontend Masters. “UI Gerada por IA é Inacessível por Padrão.” Abril 2026.
A Victorino Group ajuda times de engenharia a adotar disciplina grau-SRE para as superfícies de IA já em produção: contato@victorino.com.br | www.victorino.com.br
Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →
Se isso faz sentido, vamos conversar
Ajudamos empresas a implementar IA sem perder o controle.
Agendar uma Conversa