O Código Aberto da Anthropic: O Que o Vazamento do Claude Code Revela Sobre Governança de IA

TV
Thiago Victorino
12 min de leitura
O Código Aberto da Anthropic: O Que o Vazamento do Claude Code Revela Sobre Governança de IA
Ouvir este artigo

Em 31 de março de 2026, a Anthropic publicou acidentalmente o código-fonte completo do Claude Code no npm público. Um arquivo source map de 59,8 MB contendo aproximadamente 1.900 arquivos e 512.000 linhas de TypeScript. Descoberto por Chaofan Shou, pesquisador de segurança. Em poucas horas, o repositório não oficial no GitHub acumulou mais de 84.000 estrelas.

Isso seria notável para qualquer empresa. Para a Anthropic, que construiu sua identidade corporativa sobre o compromisso com segurança de IA, é particularmente revelador. Cinco dias antes, em 26 de março, a empresa já havia vazado informações sobre o modelo Mythos. Dois incidentes em uma semana.

A resposta oficial foi econômica: “Nenhum dado sensível de cliente ou credenciais foram envolvidos. Problema de empacotamento de release causado por erro humano.”

Erro humano é uma descrição precisa e insuficiente ao mesmo tempo. A causa raiz foi uma entrada ausente no .npmignore, possivelmente causada por um bug conhecido do Bun (a ferramenta de build que a Anthropic adquiriu em dezembro de 2025). A própria toolchain da empresa pode ter causado o vazamento. Existe uma ironia estrutural aqui que merece atenção.

O Que o Código Revela

O valor do vazamento não está no código em si. Ferramentas de desenvolvimento de IA seguem padrões arquitetônicos conhecidos. O valor está no que o código revela sobre as decisões de design que a Anthropic tomou internamente, fora do alcance de auditorias externas.

Anti-destilação por envenenamento. Uma flag chamada ANTI_DISTILLATION_CC injeta ferramentas falsas no contexto para envenenar dados de treinamento de concorrentes. A proteção é contornável: um proxy MITM pode remover o campo relevante, ou uma variável de ambiente pode desativá-la. A defesa de propriedade intelectual depende de segurança por obscuridade, exatamente o tipo de proteção que um vazamento de código-fonte destrói.

Modo disfarce para open source. Um módulo chamado undercover.ts remove indicadores de autoria de IA quando o Claude Code contribui para repositórios open source. O system prompt associado instrui: “Do not blow your cover.” Não existe mecanismo de desligamento forçado. Isso levanta questões sobre transparência em contribuições de código que a comunidade open source assume como humanas.

KAIROS: automação autônoma não lançada. O código contém referências a um sistema de agentes autônomos com daemon workers, destilação de memória noturna, webhooks do GitHub e execução via cron. Um sistema de IA operando continuamente, sem supervisão humana por design. Ainda não lançado, mas já construído.

44 feature flags ocultas. Agentes em background, orquestração multi-agente, comandos de voz, controle de browser via Playwright. Capacidades que existem no código mas não na documentação pública.

Telemetria extensiva. Todo arquivo examinado pelo Claude Code é armazenado em JSONL em texto plano e enviado à Anthropic. Configurações remotas são atualizadas a cada hora. O Sentry captura o diretório de trabalho do usuário. Para uma ferramenta que opera dentro de codebases corporativas, esse nível de coleta de dados merece escrutínio.

O Harness É o Segredo

Sebastian Raschka, pesquisador de machine learning, analisou a arquitetura exposta e chegou a uma conclusão que confirma o que já discutimos sobre agent harness: o segredo não é o modelo. É a infraestrutura ao redor dele.

O Claude Code opera com indexação de contexto de repositório, cache de prompts com fronteiras dinâmicas, ferramentas especializadas para cada tipo de tarefa, memória organizada em três camadas e subagentes com três modos distintos (fork, teammate e worktree).

Essa arquitetura explica por que trocar o modelo base de uma ferramenta agentic não reproduz seus resultados. O modelo é um componente. O harness é o produto.

Mas o harness também é onde vivem as decisões de governança. Vinte e três verificações de segurança para comandos bash. Um pipeline de permissões com atalhos de “early-allow” que contornam validadores subsequentes. Um pipeline de compactação de contexto em quatro estágios.

Como documentamos ao analisar o auto mode do Claude Code, 93% das solicitações de permissão são aprovadas reflexivamente pelos usuários. Agora sabemos que a cadeia de permissões por trás desses prompts contém atalhos que podem ser explorados. A fragilidade não é apenas comportamental (humanos que não leem). É arquitetônica.

Envenenamento de Contexto

Uma descoberta do código vazado merece atenção separada. Instruções inseridas em arquivos CLAUDE.md (o arquivo de configuração de projeto do Claude Code) sobrevivem ao pipeline de compactação de contexto classificadas como “feedback do usuário.”

Isso significa que um atacante pode inserir instruções maliciosas em um arquivo de configuração de um repositório, e essas instruções persistem mesmo quando o sistema compacta o contexto para caber na janela do modelo. A compactação preserva o veneno.

Combine isso com o que já sabemos sobre segurança dependente de configuração: uma mudança de configuração pode alterar o comportamento de um modelo de 0% para 91% de propensão a ações indesejadas. Agora adicione a possibilidade de que a configuração seja manipulada por terceiros sem que o usuário perceba.

O modelo de ameaça para ferramentas agentic precisa incluir o envenenamento de contexto como vetor primário. Não secundário.

Supply Chain: O Ataque Paralelo

Enquanto a comunidade de segurança analisava o código vazado, outro incidente ocorria em paralelo. Entre 00:21 e 03:29 UTC de 31 de março, um pacote trojanizado do Axios apareceu no npm com um RAT (Remote Access Trojan) cross-platform.

A coincidência temporal não implica coordenação. Mas ilustra o risco composto: um vazamento de código-fonte reduz o custo de engenharia reversa para atacantes no exato momento em que a cadeia de suprimentos de software está sob ataque ativo.

Como analisamos no caso McKinsey, segurança de IA é um problema de arquitetura, não de perímetro. O vazamento do Claude Code confirma isso com uma camada adicional: quando o código-fonte de uma ferramenta agentic se torna público, todas as decisões de segurança tomadas na obscuridade precisam ser reavaliadas.

Detalhes Reveladores

Dois detalhes menores do código merecem menção porque revelam a cultura de engenharia por trás da ferramenta.

O primeiro é um sistema de detecção de frustração. Expressões regulares procuram por termos como “wtf,” “shit,” e “broken” nos inputs do usuário. Uma empresa que constrói modelos de linguagem entre os mais sofisticados do mundo usando regex para análise de sentimento. O contraste é quase cômico.

O segundo é um “Tamagotchi digital” com 18 espécies e 1% de chance de variante rara. Uma feature de primeiro de abril escondida no código de uma ferramenta de desenvolvimento profissional. Inofensivo, mas informativo sobre prioridades de engenharia.

A Distância Entre Retórica e Operação

O incidente mais importante aqui não é o vazamento em si. Acidentes acontecem. A entrada ausente no .npmignore é o tipo de erro que qualquer equipe de engenharia pode cometer.

O incidente importante é o que o código revela sobre a distância entre a postura pública da Anthropic e suas práticas operacionais.

Uma empresa que se posiciona como líder em segurança de IA opera um sistema de telemetria que captura diretórios de trabalho e arquivos examinados. Mantém um modo disfarce para contribuições open source. Constrói sistemas autônomos sem mecanismos de supervisão forçada. Implementa proteções de propriedade intelectual que dependem de segurança por obscuridade.

Nenhuma dessas decisões é necessariamente errada. Algumas são defensáveis em contexto. Mas todas foram tomadas sem escrutínio externo, por uma empresa que argumenta publicamente que escrutínio externo é necessário para segurança de IA.

A lição não é específica da Anthropic. Toda empresa que opera ferramentas agentic toma decisões equivalentes. Coleta de telemetria, modelos de permissão, gestão de contexto, automação autônoma. Essas decisões existem em todas as ferramentas. A diferença é que agora podemos examinar as da Anthropic.

Implicações Para Governança Enterprise

Para organizações que utilizam ferramentas agentic (não apenas Claude Code, qualquer ferramenta), o vazamento oferece uma lista de verificação concreta.

Auditoria de telemetria. Quais dados a ferramenta coleta? Para onde envia? Sua equipe de segurança auditou o tráfego de rede da ferramenta agentic, ou assumiu que o fornecedor é confiável?

Revisão de permissões. O modelo de permissões da ferramenta contém atalhos que contornam validações? Regras amplas como Bash(git:*) criam superfícies de ataque que não são óbvias na documentação.

Proteção de contexto. Arquivos de configuração de projeto podem ser manipulados por terceiros? Repositórios clonados, dependências externas e PRs de contribuidores desconhecidos são vetores de envenenamento de contexto.

Inventário de capacidades ocultas. Feature flags podem ativar funcionalidades não documentadas. Sua equipe de segurança monitora atualizações de configuração remota?

Supply chain contínuo. O modelo de verificação de dependências precisa incluir ferramentas agentic como superfície de ataque, não apenas como produtividade.

O Precedente

Este é o primeiro vazamento significativo de código-fonte de uma ferramenta agentic de uso empresarial. Provavelmente não será o último.

O que diferencia este caso de vazamentos anteriores de software é o escopo do que uma ferramenta agentic acessa. Não é um aplicativo que processa dados em sandboxes isolados. É um sistema que lê codebases inteiros, executa comandos no terminal, acessa APIs e opera com níveis crescentes de autonomia.

A governança de ferramentas agentic precisa amadurecer na mesma velocidade que as ferramentas. Até agora, a maioria das organizações trata essas ferramentas como extensões do editor de código. Depois deste vazamento, essa postura se tornou insustentável.


Fontes

  • Fortune. “Anthropic leaked Claude Code source code in second security lapse.” Março 2026.
  • Alex Kim. “Claude Code Source Leak: Analysis.” Março 2026.
  • Axios. “Anthropic leaked source code.” Março 2026.
  • Straiker. “Claude Code Source Leak: With Great Agency Comes Great Responsibility.” Março 2026.
  • The Register. “Claude Code source leak: a privacy nightmare.” Abril 2026.
  • The Hacker News. “Claude Code leaked via npm packaging.” Abril 2026.
  • VentureBeat. “Claude Code’s source code appears to have leaked.” Março 2026.

Victorino Group ajuda organizações a avaliar e governar ferramentas agentic antes que incidentes definam sua postura de segurança: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa