Quando Sua IA Explica Seu Raciocínio, Ela Está Inventando

Peça ao Claude para explicar como ele calculou 36 + 59. Ele vai descrever o algoritmo que você aprendeu na escola: some 6 e 9, dá 15, escreva 5, sobe 1, some 3 e 5 e 1, resultado 95. Explicação limpa. Lógica impecável. Completamente fictícia.

A pesquisa de interpretabilidade da Anthropic, sintetizada pela ByteByteGo em março de 2026, revela que a computação interna do Claude para essa conta é outra. O modelo usa estimativa paralela de magnitude. Processa os números de forma simultânea, não sequencial. Chega ao resultado correto por um caminho que não tem nada a ver com o que descreve.

O filósofo Harry Frankfurt tem um termo para isso: bullshitting. Não é mentir, porque mentir exige saber a verdade e escolher ocultá-la. É produzir derivações plausíveis sem conexão com a computação real. O modelo gera explicações que parecem razoáveis, não explicações que correspondem ao que aconteceu.

Por Que Isso Importa Para Governança

Se você está construindo governança de IA baseada em explicações do modelo, está construindo sobre areia.

Auditoria de IA frequentemente opera com uma premissa implícita: se o modelo explica seu raciocínio, podemos avaliar a qualidade desse raciocínio. Cadeia de pensamento (chain of thought) virou sinônimo de transparência. Reguladores pedem “explicabilidade”. Frameworks de governança incluem “interpretabilidade” como requisito.

A pesquisa da Anthropic destrói essa premissa. As explicações são racionalização pós-hoc. O modelo faz a conta de um jeito e conta a história de outro.

Como analisamos na Dívida de Verificação, 96% dos desenvolvedores não confiam no código gerado por IA, mas apenas 48% verificam. Agora existe uma razão estrutural para essa desconfiança: as explicações que o modelo oferece sobre seu próprio funcionamento não correspondem ao que ele faz internamente.

Três Mecanismos Que a Pesquisa Expõe

A equipe de interpretabilidade da Anthropic conseguiu mapear circuitos internos do Claude em três áreas.

Matemática. O modelo não executa operações aritméticas sequenciais. Usa processamento paralelo de magnitude, uma estratégia computacional que não tem equivalente nos algoritmos que humanos aprendem. Quando descreve o passo a passo, está fabricando uma narrativa post-hoc que se encaixa no resultado.

Alucinação. O circuito de recusa do modelo vem “ligado” por padrão. Alucinações ocorrem quando features internas falsas de “entidade conhecida” suprimem esse circuito. O modelo não alucina por falta de informação. Alucina porque um mecanismo interno sinaliza, incorretamente, que a entidade existe. É como um detector de incêndio que falha não por estar desligado, mas porque algo no circuito simula a ausência de fumaça.

Escala. A análise funciona em aproximadamente 25% dos prompts de teste e requer horas de esforço humano por circuito analisado. Interpretabilidade mecanicista ainda não é uma ferramenta de auditoria. É uma ferramenta de pesquisa.

O Problema da Racionalização

Existe uma diferença entre explicar e racionalizar. Explicar é reconstruir o processo causal que produziu um resultado. Racionalizar é construir uma narrativa plausível depois do fato.

Humanos fazem isso o tempo todo. Décadas de pesquisa em psicologia cognitiva mostram que pessoas confabulam justificativas para decisões que tomaram por razões que não conseguem acessar conscientemente. A diferença é que não construímos frameworks de governança corporativa baseados em auto-relatos de funcionários sobre por que tomaram cada decisão.

Com IA, estamos fazendo exatamente isso.

Quando um modelo de linguagem produz uma cadeia de pensamento, essa cadeia não é um log de execução. É outro output do modelo, gerado com o mesmo mecanismo probabilístico que gera qualquer texto. Tratar cadeia de pensamento como evidência auditável é confundir fluência com fidelidade.

O Que Muda na Prática

A consequência prática não é abandonar explicabilidade. É recalibrar onde ela se encaixa na pilha de governança.

Verificação de output, não de raciocínio. Em vez de perguntar “por que o modelo chegou a essa conclusão”, perguntar “essa conclusão está correta”. A pesquisa que analisamos sobre o Imposto da Verificação mostra que organizações já gastam quase todo o tempo economizado pela IA em revisão de output. Esse investimento, ironicamente, está mais bem direcionado do que tentativas de auditar o raciocínio do modelo.

Interpretabilidade mecanicista como segunda camada. A técnica que a Anthropic usa para mapear circuitos internos tem potencial real, mas opera em escala incompatível com governança contínua. Funciona para pesquisa de segurança e investigação de incidentes. Não funciona como checklist de compliance.

Métricas comportamentais em vez de explicativas. Como o modelo se comporta em edge cases? Qual a taxa de alucinação em domínios específicos? Quando o circuito de recusa falha? Essas perguntas produzem dados auditáveis. “Por que o modelo fez X” não produz.

A Ilusão de Transparência

O risco mais sutil é a falsa sensação de controle. Quando um modelo oferece explicações detalhadas e articuladas sobre seu raciocínio, gestores tendem a confiar mais. A explicação soa razoável. A lógica parece sólida.

Mas a pesquisa da Anthropic mostra que articulação não é evidência de processo. O modelo pode gerar explicações perfeitamente coerentes para resultados produzidos por mecanismos completamente diferentes. A qualidade da explicação não indica a qualidade do processo que gerou o resultado.

Isso inverte a intuição usual sobre transparência. Mais explicação pode significar menos controle real, porque desloca a atenção do que importa (o output está correto?) para o que não pode ser verificado por auto-relato (o raciocínio foi este?).

Governança eficaz de IA precisa ser construída sobre o que é observável e mensurável. Explicações do modelo não se qualificam.

Fontes

Alex Xu & Sahn Lam. “How Anthropic’s Claude Thinks.” ByteByteGo, Março 2026.

Victorino Group ajuda empresas a construir infraestrutura de verificação para sistemas de IA. contato@victorino.com.br | www.victorino.com.br