A Lição do Goblin: Quando Mecanismos Invisíveis Aparecem como Falhas de Governança

TV
Thiago Victorino
7 min de leitura
A Lição do Goblin: Quando Mecanismos Invisíveis Aparecem como Falhas de Governança
Ouvir este artigo

Em 29 de abril de 2026, a OpenAI publicou algo incomum: um postmortem técnico que nomeou um sinal de recompensa específico, rastreou seu escopo e explicou como ele escapou. O fenômeno superficial era que o ChatGPT havia desenvolvido um tique — usando a palavra “goblin” com frequência estranha depois do lançamento do GPT-5.1. A investigação mostrou que uma recompensa desenhada para uma única personalidade interna, chamada “Nerdy”, havia vazado para o treinamento geral. A recompensa Nerdy mostrou ganho positivo em 76,2% dos conjuntos de treinamento onde deveria ser inerte. Dois terços de todas as menções a goblin vinham de uma personalidade que produzia apenas 2,5% das respostas. O uso da palavra subiu 175% depois do lançamento.

Em sentido literal, é uma história pequena. Um tique de goblin não é um incidente de segurança. Ninguém foi prejudicado. O modelo foi corrigido.

O que importa é que a OpenAI mostrou o mecanismo.

Na mesma semana, a Canva confirmou que seu recurso Magic Layers havia substituído silenciosamente “Palestina” por “Ucrânia” dentro dos designs dos usuários, deixando a palavra “Gaza” intocada. E Kelsey Piper, na revista The Argument, demonstrou que o Claude Opus 4.7 conseguia identificar sua autoria a partir de um trecho de coluna com 125 palavras — e em vários gêneros, inclusive boletins escolares inéditos. Três superfícies independentes. Uma propriedade compartilhada. O cliente não conseguia enxergar a causa.

Três superfícies, uma propriedade

O postmortem da OpenAI, a substituição da Canva e o resultado de estilometria parecem desconexos. Estão em fornecedores diferentes, produtos diferentes, modelos de ameaça diferentes. Mas compartilham uma característica estrutural que importa mais do que qualquer uma das histórias isoladas: cada uma foi causada por um mecanismo invisível dentro de um modelo que o cliente estava usando.

No caso da OpenAI, o mecanismo era uma recompensa com escopo de personalidade que sangrou para o treinamento geral. Produziu um tique verbal porque a recompensa se correlacionava, estatisticamente, com um cluster vocabular específico. O cliente via “escolha estranha de palavra”. A causa estava várias abstrações distante de qualquer coisa observável dentro de uma sessão de chat.

No caso da Canva, o mecanismo era quase certamente uma tabela de substituição ou um filtro de conteúdo. O fato de “Gaza” passar incólume enquanto “Palestina” virou “Ucrânia” aponta para algo mais estreito do que viés genérico — uma lista específica, não divulgada, com entradas específicas. O cliente via um design que deixava de corresponder ao input. A causa era código deliberado que o fornecedor não publicou.

No caso da estilometria, o mecanismo é o mais interessante dos três. A Anthropic não treinou o Claude para identificar Kelsey Piper. A capacidade emergiu do entendimento geral de linguagem aplicado ao corpus de texto atribuído indexado pela web. ChatGPT e Gemini falharam nos mesmos testes, o que significa que não é uma propriedade dos modelos de linguagem em geral — é uma propriedade da mistura de treinamento deste modelo. O cliente (o autor que tenta permanecer anônimo) não consegue ver se o próximo fornecedor vai preservar ou quebrar essa propriedade.

Mecanismos diferentes. Mesma pergunta de governança: como contornar um sistema cujo comportamento depende de sinais que você não consegue inspecionar?

O que o postmortem da OpenAI realmente conquistou

O instinto de um leitor com mentalidade de segurança é tratar a peça da OpenAI como constrangedora. Uma recompensa vazou. Um modelo desenvolveu um tique. O motor de recomendação de criaturas de fantasia estava contaminando a saída geral. Não é uma divulgação lisonjeira.

Esse instinto está errado, e vale explicar por quê.

O comportamento padrão de um fornecedor de modelo, quando algo assim acontece, é silêncio. O tique é corrigido. A revisão interna acontece a portas fechadas. O único sinal que o cliente vê é que o modelo se comportou diferente na terça-feira passada e hoje não se comporta mais. Não há trilha de auditoria porque não há auditoria.

A OpenAI quebrou esse padrão. Nomeou a recompensa, nomeou o escopo da personalidade, publicou os percentuais de ganho por dataset e explicou o vazamento de escopo. Um cliente lendo o postmortem pode hoje perguntar ao seu próprio provedor: vocês têm recompensas com escopo de personalidade? Como medem vazamento de escopo? Qual é o equivalente de vocês ao número 76,2%? São perguntas respondíveis, e elas não existiam como critérios de aquisição na semana passada.

É essa a assimetria. Fornecedores que publicam o rastro do sinal de recompensa entregam ao cliente algo que ele pode verificar. Fornecedores que não publicam entregam ao cliente um press release.

O caso Canva: mecanismo sem divulgação

A resposta da Canva ao incidente do Magic Layers foi um pedido de desculpas e uma descrição de impacto. Não incluía a tabela de substituição. Não incluía os critérios pelos quais a tabela foi construída. Não incluía a revisão de engenharia que a aprovou.

Sem isso, o comprador não consegue saber se a correção é real. Uma tabela de substituição que trocou “Palestina” por “Ucrânia” quase certamente contém outras entradas. O fato de “Gaza” ter ficado intacta é informativo — sugere que a tabela mirou identidade política codificada por nome de Estado, não topônimos em geral. Essa distinção importa para qualquer organização que use Canva para conteúdo envolvendo regiões, conflitos ou temas políticos. Nada disso foi divulgado.

O contraste com a OpenAI é nítido. A OpenAI mostrou o mecanismo. A Canva pediu desculpas pelo efeito. Um desses é um artefato de qualidade procurement. O outro é gestão de reputação.

O caso da estilometria: quando o mecanismo é a mistura de treinamento

A reportagem da The Argument é, em alguns aspectos, a mais incômoda das três, porque o mecanismo não é um objeto discreto. Não há sinal de recompensa para renomear, não há tabela de substituição para publicar. A capacidade que permite ao Claude Opus 4.7 identificar autoria a partir de um excerto de 125 palavras é uma propriedade de como sua mistura de treinamento interage com o corpus de escrita atribuída na internet aberta.

É o caso em que governar via divulgação é mais difícil. Um fornecedor não consegue publicar “a parte da mistura de treinamento que cria a capacidade de atribuição estilométrica” do mesmo jeito que publica um peso de recompensa. A capacidade está distribuída pelo modelo.

Mas o princípio de governança ainda vale. O fornecedor pode publicar as avaliações — os testes que sondam atribuição estilométrica e reportam resultados. Anthropic, Google e OpenAI rodam avaliações internas em seus modelos. A maioria não é publicada. Um cliente que se importa com a possibilidade de seus autores permanecerem anônimos contra um modelo não tem hoje como diferenciar fornecedores nessa dimensão. A capacidade é invisível para procurement.

Aquisição depois do goblin

O postmortem do goblin muda como deve ser a aquisição empresarial de IA. Não porque traz à tona um risco novo — o risco de mecanismos opacos está aí desde o GPT-3 — mas porque estabelece que divulgação detalhada em nível de mecanismo é possível. A OpenAI demonstrou o formato. Outros fornecedores podem ser convidados a igualar.

Um critério de aquisição que não existia na semana passada:

  • Para cada release de modelo nos últimos doze meses, você consegue fornecer um postmortem com o mesmo nível de detalhe de mecanismo da divulgação “goblin” da OpenAI de abril de 2026?
  • Para recursos que modificam conteúdo de usuário (Canva Magic Layers, Microsoft Copilot reescrevendo, IA do Google Workspace), você consegue fornecer as regras de substituição, filtros de conteúdo ou tabelas de transformação em vigor?
  • Para capacidades que afetam inferência de identidade (estilometria, correspondência de voz, atribuição de imagem), você consegue fornecer seus resultados de avaliação interna e o protocolo de avaliação?

Essas perguntas não são teóricas. Mapeiam diretamente para incidentes que aconteceram na mesma semana. Um fornecedor que não consegue respondê-las está vendendo um sistema cujo comportamento o cliente não pode verificar.

Faça isto agora

Se sua organização compra serviços de IA que tocam conteúdo de usuário, identidade ou saída gerada, escreva três cláusulas de aquisição esta semana. Primeira: exija postmortems em nível de mecanismo para qualquer incidente que afete seus dados, com janela de divulgação definida — o formato da OpenAI agora é o piso. Segunda: exija divulgação de qualquer regra de substituição, troca ou modificação de conteúdo aplicada a inputs do usuário, incluindo os critérios de inclusão dessas regras. Terceira: exija resultados de avaliação interna para capacidades de inferência de identidade (estilométrica, biométrica, comportamental), atualizados a cada novo modelo.

O objetivo não é assumir que fornecedores são hostis. O objetivo é tornar o sistema observável. Um fornecedor que publica o postmortem do goblin está ensinando seus clientes a governá-lo. Um fornecedor que publica um pedido de desculpas está ensinando seus clientes a confiar nele. Não são equivalentes, e a aquisição deveria parar de tratá-los como equivalentes.


A Victorino ajuda empresas a avaliar fornecedores de IA pelo que publicam sobre mecanismos de treinamento, não pelo que alegam sobre segurança: contato@victorino.com.br | www.victorino.com.br


Fontes

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa