Fable 5 É Um Projeto de Governança, Não Um Benchmark

TV
Thiago Victorino
8 min de leitura
Fable 5 É Um Projeto de Governança, Não Um Benchmark

Em 9 de junho de 2026, a Anthropic lançou o Fable 5 e o Mythos 5 como o mesmo modelo subjacente atrás de dois portões de acesso diferentes. A cobertura de benchmark se escreveu sozinha: um modelo classe Mythos em mãos públicas, US$ 10 por milhão de tokens de entrada, a Stripe migrando uma base de código Ruby de 50 milhões de linhas em um dia. A parte que merece estudo é o desenho de implantação. A Anthropic não lançou um produto com uma política de segurança parafusada por cima. Ela lançou uma arquitetura de referência para governar capacidade de fronteira, e documentou cada camada em público.

Essa arquitetura tem três camadas: capacidade controlada em tempo de execução por um classificador de risco, capacidade controlada separadamente por identidade verificada, e confiança estabelecida por verificação externa em camadas. Qualquer organização que implanta agentes capazes agora tem um projeto funcional para mapear sobre a própria infraestrutura, em vez de inventar um.

O Que a Anthropic De Fato Lançou

Tire o enquadramento de lançamento e o desenho são dois produtos que são um modelo só. O Fable 5 é a versão pública com as salvaguardas ativas. O Mythos 5 é o modelo idêntico com essas salvaguardas removidas, entregue apenas a um grupo verificado por meio do Project Glasswing, uma colaboração com o governo dos EUA iniciada em abril de 2025. Defensores cibernéticos, provedores de infraestrutura crítica e um cadastro separado de pesquisadores de ciências da vida alcançam a capacidade irrestrita. Todos os demais alcançam o Fable.

Os mesmos pesos, duas posturas de governança. A superfície de controle vive no roteamento e na lista de acesso envolvidos em torno do modelo. Essa separação é o ponto central, e é justamente a parte que a maioria das implantações corporativas de IA colapsa em um único interruptor de permitir ou negar.

Camada Um: Rotear, Não Recusar

O Fable 5 roda classificadores de IA em três categorias de risco a cada requisição: cibersegurança, ou seja, hacking ofensivo e agêntico; biologia e química, ou seja, síntese de uso duplo; e destilação, ou seja, um concorrente tentando extrair o modelo. Quando uma requisição aciona um classificador, o sistema não recusa. Ele passa silenciosamente a requisição para o Claude Opus 4.8, responde a partir dali e avisa o usuário.

O enunciado da Anthropic é preciso: uma resposta que recai sobre o Opus é uma experiência bem melhor do que uma recusa direta do Fable. O número por trás disso importa mais do que a frase. Mais de 95% das sessões do Fable não envolvem nenhum fallback, o que significa que o classificador redireciona menos de uma sessão em vinte. As salvaguardas foram ajustadas de propósito mais rígidas do que seria ideal, aceitando alguns falsos positivos em requisições benignas como o custo do portão.

Aqui está a primeira ideia transferível. A maioria das equipes governa modelos capazes com um binário: a requisição é permitida e o modelo completo responde, ou a requisição é bloqueada e o usuário bate numa parede. O Fable 5 adiciona um terceiro estado. Uma requisição sinalizada ainda recebe uma resposta útil de um modelo menos capaz e mais restrito. O usuário continua trabalhando. A capacidade de alto risco permanece atrás do portão. A governança deixa de ser um imposto sobre os 95% que nunca o acionam.

Camada Dois: Capacidade Vinculada à Identidade

O classificador em tempo de execução cuida do que está sendo pedido. O Project Glasswing cuida de quem está pedindo. O Mythos 5 existe justamente porque alguns trabalhos legítimos, defender infraestrutura crítica contra atacantes de nível estatal, avançar pesquisas em ciências da vida, exigem capacidade que os classificadores do Fable bloqueariam. A resposta da Anthropic não foi enfraquecer as salvaguardas do Fable. Foi construir um segundo nível de acesso onde a mesma capacidade é liberada para identidades que passaram por triagem, e onde novos parceiros são adicionados em consulta com o governo dos EUA.

Vale nomear a decisão de desenho por baixo disso. Capacidade e identidade são governadas em eixos separados. Uma requisição que o Fable redirecionaria não é perigosa em si; é perigosa dependendo de quem a executa e por quê. Ao vincular o modelo irrestrito à identidade verificada em vez de a um prompt esperto ou a um nível pago, a Anthropic fez da lista de acesso, e não do humor do modelo, aquilo que decide.

As empresas já entendem esse padrão sob outro nome: controle de acesso baseado em papéis. A lição do Fable e do Mythos estende esse padrão da camada de dados e funcionalidades para a própria capacidade do modelo. A configuração de agente mais capaz da sua empresa, aquela com acesso amplo a ferramentas, permissões de escrita e recusa mínima, deveria ser alcançável apenas por identidades que você verificou para ela. Todos os demais operam um nível mais restrito do mesmo sistema.

Camada Três: Confiança Por Verificação Externa

Uma arquitetura de governança é tão confiável quanto os adversários que tentaram quebrá-la. A Anthropic não afirmou que os portões resistem. Ela publicou a verificação.

Um programa externo de recompensa por bugs não produziu nenhum jailbreak universal em mais de 1.000 horas de tentativas. Red-teamers externos não encontraram nenhum jailbreak universal em tarefas agênticas de longo prazo, exatamente o cenário em que um modelo capaz é mais perigoso se puder ser desviado da política. O Instituto de Segurança de IA do Reino Unido (UK AISI) fez progresso parcial rumo a um, numa janela inicial, o que a Anthropic relatou em vez de esconder. A divulgação honesta de progresso parcial é por si um sinal de confiança: um fornecedor confiante o bastante para nomear onde um corpo externo ganhou tração.

O princípio transferível é que a confiança no seu portão vem de fora, não da sua própria garantia de que ele funciona. O teste interno diz que o portão se comporta como desenhado contra os ataques que você imaginou. O red-teaming externo diz se ele sobrevive aos ataques que você não imaginou.

Mapeando o Projeto Sobre a Sua Infraestrutura

Três camadas, três movimentos concretos para uma empresa que roda agentes capazes em produção.

Construa o roteador em tempo de execução primeiro. Para cada ação de agente que toque uma categoria sensível, enviar e-mail externo, executar código em produção, movimentar dinheiro, classifique a requisição e roteie a fatia arriscada para uma configuração restrita: um modelo menor, acesso reduzido a ferramentas, um humano no circuito. Avise o usuário de que houve um fallback em vez de falhar em silêncio. Meça a sua taxa de fallback. Se ela ficar muito acima de 5%, seu classificador está bruto demais e você está taxando o trabalho rotineiro; se ficar em zero, você não está classificando nada.

Vincule capacidade à identidade em segundo lugar. Defina quais configurações de agente carregam raio de explosão real e coloque-as atrás de papéis verificados. O agente do estagiário e o agente do engenheiro sênior não deveriam compartilhar acesso de escrita a produção por padrão. O controle é a lista de acesso, mantida de forma deliberada, não uma permissão que se acumula por conveniência.

Verifique de fora em terceiro lugar. A avaliação interna estabelece que os portões funcionam contra ataques esperados. Contrate red-teaming externo para o resto, e trate achados parciais como o produto mais valioso que você recebe, porque eles mapeiam a borda do que o seu próprio teste deixou passar. Relate-os internamente com a mesma franqueza que a Anthropic usou em público.

Faça Isto Agora

Escolha o único agente no seu ambiente com a combinação mais perigosa de capacidade e alcance, aquele com acesso amplo a ferramentas e o portão mais fraco, e aplique as três camadas a ele neste trimestre. Adicione um classificador em tempo de execução que roteie suas ações de maior risco para um fallback restrito. Vincule sua configuração irrestrita a uma lista de identidades verificadas. Contrate uma passada de red-team externo contra ele. O desenho de referência já está construído, documentado e rodando em produção num laboratório de fronteira. O trabalho que sobra para você é o mapeamento. A invenção já foi feita.

A cobertura do lançamento tratou o Fable 5 como uma história de capacidade, e as vozes externas foram em sua maioria fornecedores validando desempenho. O desenho de governança é a lição mais durável. Um laboratório de fronteira acabou de publicar, em forma funcional, como colocar modelos capazes no mundo sem abrir mão do controle. Esse projeto sobrevive a qualquer benchmark isolado.


Fontes

A Victorino ajuda empresas a desenhar o roteamento em tempo de execução e os níveis de acesso que permitem adotar capacidade de IA de fronteira sem perder o controle: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa