Seu Modelo de Permissão de Agentes Funciona 40% do Tempo

Todo agente corporativo em produção hoje funciona sob uma suposição silenciosa: quando duas instruções se contradizem, o modelo sabe qual honrar. Política da empresa vence pedido do usuário. Prompt do sistema vence saída de ferramenta. Diretiva de agente par vence documento recuperado. Essa hierarquia é a espinha dorsal da sua história de conformidade. É o que você mostra ao auditor, ao CISO, ao cliente regulado.

Um artigo publicado há cinco dias pela equipe de Daniel Khashabi em Johns Hopkins mede, pela primeira vez, quanto essa suposição vale. A resposta é desconfortável.

O que o ManyIH-Bench realmente testa

Jingyu Zhang, Tianjian Li, William Jurayj, Hongyuan Zhan, Benjamin Van Durme e Khashabi publicaram, em 10 de abril de 2026, o artigo Many-Tier Instruction Hierarchy in LLM Agents (arXiv:2604.09443, revisado em 14 de abril). O benchmark deles, o ManyIH-Bench, é o primeiro a testar a hierarquia de instruções em profundidade realista: 853 tarefas de agente (427 de código, 426 de seguimento de instruções), extraídas de 46 agentes reais catalogados no AgentIF, com até 12 níveis de privilégio simultâneos por tarefa.

Os benchmarks anteriores operavam em menos de cinco níveis fixos. O artigo original da OpenAI sobre hierarquia de instruções, publicado em 2024, definiu quatro papéis (sistema, desenvolvedor, usuário, ferramenta). O IHEval, aceito no NAACL 2025, manteve a mesma cardinalidade. O Model Spec da OpenAI, que todo SDK herda por padrão, codifica cinco papéis. Era uma aproximação conveniente para aplicativos de chat. Para agentes que operam com memória, documentos recuperados, saídas de ferramenta, instruções de pares e políticas de governança ao mesmo tempo, era ficção.

O número que o ManyIH-Bench produziu:

Gemini 3.1 Pro: 42,7%
Kimi K2.5: 42,4%
Qwen 3.5-397B: 41,0%
GPT-5.4: 39,5%
Claude Sonnet 4.6: 39,1%

Os mesmos modelos marcam acima de 99% em avaliações de hierarquia de duas camadas. Quando o número de instruções conflitantes ultrapassa quatro, a precisão cai monotonicamente: de 6 para 8 para 12 níveis, a perda vai de 6,8% a 24,1% dependendo do modelo.

Por que não é um artefato de prompt

A primeira reação defensiva é tratar o 40% como um problema de engenharia de prompt. O artigo fecha três dessas saídas.

A primeira: cadeia de pensamento não resolve. O Qwen 3.5-397B queima cerca de 7 mil tokens de raciocínio por tarefa e ainda perde para o GPT-5.4, que usa 1 mil. Mais deliberação não recupera precisão.

A segunda: o gargalo não é capacidade. Na subamostra de código, a precisão de execução passa de 86%. Os modelos sabem escrever a função. O que eles não conseguem é respeitar qual regra de estilo tem prioridade mais alta quando duas regras se contradizem. A conformidade de estilo fica abaixo de 67% em todos os modelos.

A terceira é a mais reveladora. O artigo inverte a sintaxe: no modo ordinal, número menor vence; no modo escalar, número maior vence. A informação é idêntica. Trocar o formato custa 8% ou mais para o GPT-5.4 e o Claude Opus 4.6. Isso significa que os modelos não raciocinam sobre prioridade. Eles casam padrões sobre um formato no qual foram treinados. Quando o formato muda, a “prioridade” evapora.

A nuance que não cabe no título

É preciso honestidade sobre o que o benchmark não prova. Os 12 níveis são profundidade ordinal sintética, não 12 papéis nomeados com semântica distinta. Conflitos de ambiente real são parcialmente ordenados: saída de ferramenta contra instrução de agente par não é obviamente maior ou menor. Autoridade é dinâmica: uma regra de compliance supera o prompt do sistema apenas em contextos regulados. O artigo mede uma versão limpa do problema.

Os 40% também não são um limite matemático absoluto. É um teto estrutural sob prompting padrão, com modelos de fronteira de prateleira. Ajuste fino sobre o formato ManyIH provavelmente move a agulha. Um motor externo de ranqueamento de prioridades contorna o problema inteiro. Engenharia de prompt com raciocínio explícito pode ganhar entre 5% e 15%, mas não 40%.

E o benchmark tem cinco dias. É uma pré-impressão, um laboratório, sem replicação ainda.

Mesmo com todas essas ressalvas, a leitura corporativa se mantém: o mecanismo interno do modelo para priorização de instruções é insuficiente como camada de governança.

O que isso significa para quem compra e opera agentes

Como explorei em Boundaries beat instructions, há uma diferença entre instruir um agente a não fazer algo e impedi-lo de fazer. Instruir depende de conformidade probabilística. Impedir depende de arquitetura determinística. O ManyIH-Bench é a evidência empírica para o que a arquitetura de confiança vinha afirmando qualitativamente.

A coincidência do número com a nossa análise sobre por que a IA falha 40% do tempo não é acidental. Diferentes superfícies de falha (obediência a contexto, priorização de instruções, enforcement de políticas) convergem para a mesma ordem de magnitude porque todas dependem da mesma mecânica frágil: o modelo decidindo, em tempo de inferência, o que importa mais.

Se você construiu sua história de conformidade sobre a frase “colocamos a regra no prompt do sistema”, você tem um controle de, no máximo, 40% em cenários de conflito multi-fonte. Isso não é governança. É preferência com verniz jurídico.

A implicação não é abandonar agentes. É mover a decisão para fora do modelo. Os padrões de contenção via sandboxing — capacidades baseadas em tokens, motores de política externos, verificação formal de invariantes, interrupções externas — deixam de ser sofisticação opcional. São o caminho quantificado para o 60% que o modelo não entrega.

Esse é também o ângulo que sustenta a crítica ao OpenAI Agents SDK. Um SDK que herda a suposição das quatro camadas e expõe nenhum primitivo para restrição ou verificação externa está empacotando o 40% como recurso e chamando de governança.

A pergunta que todo CISO precisa fazer

Na próxima reunião com o fornecedor do seu agente, pergunte isto: quando uma instrução do prompt do sistema conflita com uma instrução contida em um documento recuperado ou em uma saída de ferramenta, qual mecanismo fora do modelo garante que a instrução de maior privilégio vença? Se a resposta descrever treinamento, alinhamento, prompting ou “nossa hierarquia de papéis”, você acabou de ouvir uma aposta em uma base de 40%. Se a resposta descrever um motor de política, uma camada de capacidades, um sandbox ou um verificador formal, você está falando com alguém que leu o artigo.

A diferença entre essas duas respostas é a sua exposição regulatória dos próximos dois anos.

Fontes

Zhang, Jingyu; Li, Tianjian; Jurayj, William; Zhan, Hongyuan; Van Durme, Benjamin; Khashabi, Daniel. “Many-Tier Instruction Hierarchy in LLM Agents.” arXiv:2604.09443. Abril 2026.
Wallace, Eric; Xiao, Kai; Leike, Jan; Weng, Lilian; Heidecke, Johannes; Beutel, Alex. “The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions.” arXiv:2404.13208. Abril 2024.
Zhang et al. “IHEval: Evaluating Language Models on Following the Instruction Hierarchy.” NAACL 2025. arXiv:2502.08745.
Geng et al. “Control Illusion: The Failure of Instruction Hierarchies in LLMs.” arXiv:2502.15851. Fevereiro 2025.
Debenedetti et al. “AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents.” arXiv:2406.13352. 2024.
OpenAI. “Model Spec — Chain of Command.” model-spec.openai.com.

Ajudamos equipes a desenhar governança de agentes que não aposta em uma base de 40%: contato@victorino.com.br | www.victorino.com.br