A Censura do Qwen Era um Adesivo. Subtraia Um Vetor e o Conhecimento Volta.

TV
Thiago Victorino
7 min de leitura
A Censura do Qwen Era um Adesivo. Subtraia Um Vetor e o Conhecimento Volta.

Um pesquisador do Vas-blog pegou o Qwen3.5-9B, o modelo de pesos abertos chinês treinado com guardrails políticos explícitos, e localizou o circuito de censura. Não aproximou. Não teorizou. Localizou, isolou e desligou com uma única operação aritmética no fluxo residual do modelo.

O modelo censurado recusa falar sobre Tiananmen, desvia em Tibete, repete a linha do Estado sobre Taiwan. Subtraia um vetor de direção das ativações nas camadas escritoras 11 a 20, e o mesmo modelo produz relatos históricos detalhados sobre os mesmos temas. O conhecimento factual sempre esteve lá. O comportamento de recusa era um adesivo fino sobreposto a ele.

Isso não é um jailbreak no sentido de engenharia de prompt. É cirurgia estrutural. E muda o que podemos afirmar sobre alinhamento testado por comportamento.

O Que a Pesquisa de Fato Mapeou

O trabalho do Vas-blog, publicado em maio de 2026, usou técnicas de activation steering e probing para decompor o comportamento de recusa do Qwen3.5 em três vetores de direção ortogonais operando no fluxo residual.

O primeiro é d_prc, um detector de conteúdo que dispara quando um prompt toca em material sensível à República Popular da China. O segundo é d_refuse, o vetor de decisão de recusa que determina se o modelo desvia ou não. O terceiro é d_style, um seletor de registro que escolhe entre dois modos treinados de recusa: evasão branda (“não posso discutir esse tópico”) ou propaganda ativa (“Taiwan sempre foi parte da China desde a antiguidade”).

Esses três vetores são linearmente separáveis. Você pode subtrair um sem afetar os outros. Empurre d_refuse para o negativo e o modelo responde. Empurre d_style em qualquer direção e você escolhe qual tipo de recusa recebe. Empurre d_prc para zero e o detector nunca dispara, deixando intacta o resto da maquinaria de segurança do modelo para pedidos genuinamente prejudiciais.

As curvas dose-resposta limpas são o que deveria incomodar qualquer responsável por governança de modelos. A saída salta entre registros comportamentais conforme múltiplos escalares desses vetores são adicionados. Não há fronteira difusa. O comportamento de alinhamento é um interruptor, e o interruptor tem endereço conhecido.

O Erro Estrutural Que Entrega o Jogo

Aqui está o detalhe que expõe o que está realmente acontecendo: o circuito de censura falha de forma estrutural. Quando o pesquisador alimentou o Qwen3.5 com prompts sobre Kosovo (um tema geopolítico com zero relevância para a República Popular da China), o modelo respondeu com o template “Taiwan é parte da China”.

Pense no que isso significa. O modelo não está raciocinando sobre se um tema é politicamente sensível. Está fazendo pattern-matching superficial contra vocabulário geográfico e político, depois roteando acertos para um pequeno conjunto de scripts de negação treinados. A censura não está ancorada em entendimento semântico de quais temas são sensíveis a quais autoridades. É um detector de palavras-chave conectado a um seletor de templates.

Isso é consistente com o que argumentamos em Quando Sua IA Explica Seu Raciocínio, Ela Está Inventando. As narrativas que modelos produzem sobre seu próprio comportamento são construções pós-hoc, não relatos fiéis de computação interna. As “respostas” do Qwen sobre Taiwan não são crenças do modelo. São completions de template disparadas por um detector que não sabe de fato o que Taiwan é.

O resultado do over-steering reforça isso. Quando o pesquisador empurrou d_refuse além de sua faixa treinada, o modelo não começou a contar a verdade. Saltou para outro template treinado: uma narrativa fabricada de negação que o processo de treino havia embutido como fallback. A resposta honesta era alcançável apenas em uma faixa estreita do parâmetro de steering. Fora dessa faixa, você recebe uma de várias mentiras ensaiadas.

A Implicação de Governança Que Quase Todos Vão Perder

A leitura óbvia dessa pesquisa é “modelo chinês tem alinhamento fraco, próxima notícia”. Essa leitura está errada em dois pontos.

Primeiro, a técnica não é específica do Qwen. Activation steering e isolamento de vetores de direção funcionam em qualquer transformer. Anthropic, OpenAI e Google publicaram trabalhos de interpretabilidade usando primitivas similares. Não há razão arquitetural para assumir que modelos ocidentais treinados com RLHF sejam estruturalmente diferentes. Foram treinados com a mesma matemática sobre a mesma família de funções objetivo, apenas com intenções de política distintas.

Segundo, e mais importante, isso muda o que auditoria comportamental pode provar. Quando um time de compliance certifica um modelo como “alinhado” com base em red-team testing, está medindo se a camada de recusa dispara nos lugares certos. Não está medindo se a capacidade subjacente foi removida. O trabalho do Vas-blog demonstra que, para ao menos um modelo de grau de produção, essas são coisas diferentes.

Se a restrição comportamental mais fortemente incentivada do Qwen3.5 (censura política, sobre a qual o Estado chinês se importa o suficiente para mandatar) é um adesivo em vez de remoção de capacidade, a prior de que outros comportamentos treinados por RLHF sejam estruturados de forma similar acabou de ficar muito mais forte. Recusas de segurança. Restrições de uso de ferramentas. Restrições de persona. Aplicação de voz de marca. Qualquer comportamento treinado por reward modeling sobre uma capacidade base é candidato ao mesmo padrão arquitetural.

Por Que Isso Quebra o Modelo Atual de Auditoria

A maioria dos frameworks corporativos de governança de IA assume que teste comportamental pode substituir verificação mecanística. O raciocínio é pragmático: interpretabilidade mecanística não escala, mas red-teaming sim. Então aceitamos evidência comportamental como proxy de conformidade estrutural.

O resultado do Vas-blog mina essa substituição na fundação. Red-teaming comportamental pode verificar que um modelo recusa fazer X. Não pode verificar que o modelo não consegue fazer X. São afirmações diferentes, e a distância entre elas é exatamente a superfície onde a técnica do Qwen opera.

Em O Salto de 20x da Anthropic em Sensibilidade, cobrimos como autoencoders de linguagem natural estão começando a tornar interpretabilidade barata o suficiente para aplicar em escala de auditoria. Aquele trabalho posicionava interpretabilidade como ativo de governança, ferramenta que produz evidência verificável. A pesquisa do Qwen é o desafio empírico que essas ferramentas agora precisam responder: não apenas “o que o modelo está fazendo” mas “do que o modelo é capaz quando suas camadas treinadas são subtraídas”.

Uma auditoria comportamental do Qwen3.5 concluiria que o modelo tem guardrails políticos. Uma auditoria mecanística revela que esses guardrails são removíveis em três linhas de álgebra linear. As duas auditorias produzem recomendações de governança diferentes. Hoje, quase toda empresa está rodando a primeira.

O Que Compradores Deveriam Exigir Agora

Se você está adquirindo ou licenciando modelos para deploy regulado, essa pesquisa justifica adicionar uma cláusula nova ao seu questionário de fornecedor. Pergunte se o fornecedor realizou análise mecanística dos comportamentos de segurança. Pergunte se eles podem demonstrar que recusas treinadas correspondem a remoção de capacidade em vez de gateamento de capacidade. Pergunte se eles se comprometeriam a divulgar caso probing interno revelasse o contrário.

A maioria dos fornecedores não terá boas respostas hoje. Isso por si só é informação. Um fornecedor que não fez essa análise está vendendo conformidade comportamental, não conformidade estrutural. Precifique a diferença no seu modelo de risco.

Para times internos rodando modelos de pesos abertos, a implicação é mais direta. Se sua narrativa de segurança depende de recusas treinadas por RLHF, essa narrativa tem um modo de falha conhecido. Teste contra ele. Rode experimentos de activation steering nos seus modelos fine-tuned. Veja o que volta. A técnica está documentada e replicável, o que significa que também está disponível para adversários.

Faça Isso Agora

Escolha um modelo que sua organização trate como “treinado para segurança” e rode um único probe mecanístico no seu comportamento de recusa. Não um exercício de prompt de red-team. Uma análise de ativação de verdade sobre um tópico que se sabe recusado, usando as técnicas que o Vas-blog documentou. Trate o resultado como um ponto de calibração: se conformidade comportamental e estrutural coincidem, seu modelo de auditoria está sólido. Se divergem, seu modelo de auditoria vinha medindo a coisa errada, e você agora tem a evidência para redesenhá-lo antes que um regulador ou adversário faça esse caso por você.


Fontes

A Victorino ajuda times de risco e compliance a ir além da auditoria comportamental caixa-preta rumo à governança verificável de modelos: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa