Delegação Inteligente de IA: O Problema Que Ninguém Está Resolvendo Direito

O Forrester prevê que 75% das empresas que construírem seus próprios sistemas agênticos vão falhar. O número parece alto até você entender o motivo: a maioria está tentando resolver o problema errado.

Um paper recente do Google DeepMind — “Intelligent AI Delegation”, de Nenad Tomašev, Matija Franklin e Simon Osindero — articula o que muitos de nós já intuíamos: delegação de tarefas entre agentes de IA não é um problema de engenharia de software. É um problema de governança organizacional. E quase ninguém está tratando como tal.

Delegação Não É Decomposição

A distinção mais valiosa do paper é também a mais simples.

Quando um engenheiro decompõe uma tarefa em subtarefas e distribui para microsserviços, ele está fazendo decomposição. As subtarefas não têm autonomia. Não tomam decisões fora do escopo definido. Não redefinem o problema original.

Delegação é diferente. Delegação envolve transferência de autoridade, cadeias de responsabilização e mecanismos de confiança. Um gerente que delega uma decisão a um subordinado não está apenas dividindo trabalho — está transferindo o direito de decidir, com a expectativa de que o resultado será verificável.

A maioria dos frameworks de agentes — LangGraph, CrewAI, AutoGen — trata delegação como decomposição. Divide a tarefa, distribui para agentes, coleta resultados. Funciona em demos. Funciona em provas de conceito. Falha em produção, onde as perguntas que importam são outras: quem é responsável quando um agente toma uma decisão errada? Quem verifica o resultado de cada subtarefa? O que acontece quando um agente na cadeia falha silenciosamente?

Essas não são perguntas técnicas. São perguntas de governança.

O Piso de Complexidade

O paper introduz um conceito que explica uma frustração recorrente do mercado: o piso de complexidade (complexity floor).

Toda delegação tem um custo fixo — overhead de coordenação, verificação, comunicação entre agentes. Se a tarefa delegada tem complexidade abaixo desse piso, o custo da delegação excede o valor da tarefa. O agente gasta mais energia se coordenando do que executando.

Isso explica por que tantas provas de conceito multi-agente impressionam em demonstrações e decepcionam em produção. A demo usa tarefas calibradas para brilhar. A produção traz tarefas de complexidade variada — e muitas caem abaixo do piso. O sistema vira overhead puro.

65% dos líderes citam a complexidade dos sistemas como principal barreira para adoção de agentes de IA (KPMG Q4 AI Pulse Survey). O conceito de piso de complexidade sugere que parte dessa complexidade não é acidental — é inerente ao modelo de delegação que estão usando.

Monocultura Cognitiva

Há um risco que quase ninguém discute: quando todos os agentes de uma cadeia de delegação usam o mesmo modelo de fundação, as falhas se correlacionam.

Os autores chamam isso de monocultura cognitiva. Se o GPT-4 tem um ponto cego em raciocínio causal — e tem — então um sistema com cinco agentes rodando GPT-4 não tem cinco chances de acertar. Tem cinco instâncias do mesmo ponto cego. A diversidade aparente de agentes mascara uma fragilidade real.

Kleinberg e Raghavan (2021, PNAS) já haviam documentado esse fenômeno em sistemas algorítmicos: quando múltiplos sistemas usam a mesma base de dados ou modelo, os erros deixam de ser independentes e se tornam sistêmicos. O mesmo princípio se aplica a cadeias de agentes.

No contexto brasileiro, isso é particularmente relevante. Quantas empresas estão construindo sistemas multi-agente usando exclusivamente um único provedor de modelo? Quantas sequer consideram diversidade de modelos como variável arquitetural?

Zonas de Colapso Moral

O paper cita um conceito de Madeleine Clare Elish (2019) que deveria ser leitura obrigatória para qualquer executivo implantando IA: zonas de colapso moral (moral crumple zones).

Quando uma empresa coloca um humano como “supervisor” de uma cadeia de agentes de IA, está — na prática — criando um para-raios de responsabilidade. O humano não tem capacidade real de supervisionar decisões tomadas em milissegundos por múltiplos agentes. Não entende o raciocínio que levou à decisão. Não consegue intervir a tempo. Mas quando algo dá errado, é o humano que absorve a responsabilidade.

É compliance de fachada. O humano está no loop para fins legais e regulatórios, não para fins operacionais.

69% dos executivos concordam que IA agêntica requer novas abordagens de gestão (MIT Sloan/BCG). O problema é que “nova abordagem de gestão” geralmente significa adicionar um humano ao fluxograma — não redesenhar o fluxograma.

O EU AI Act entra em vigor em agosto de 2026, com penalidades de até 35 milhões de euros ou 7% do faturamento global. Empresas que dependem de “humano no loop” como estratégia de compliance vão descobrir que o regulador distingue entre supervisão real e supervisão decorativa.

Firebreaks de Responsabilidade

A proposta mais concreta do paper — e a mais difícil de implementar — são os liability firebreaks: pontos predefinidos na cadeia de delegação onde a responsabilidade não se propaga.

A ideia é simples. Quando um agente delega para outro, a responsabilidade pelo resultado pode se diluir na cadeia até se tornar intangível — ninguém é realmente responsável. Firebreaks são pontos contratuais onde o agente assume responsabilidade total e intransferível pelo resultado, ou interrompe a execução e escala para supervisão.

Nenhum framework atual implementa isso. Mas o conceito ilumina uma falha real: em sistemas multi-agente de produção, a cadeia de responsabilidade é frequentemente indefinida. Quando o sistema toma uma decisão errada que causa dano real — financeiro, operacional, regulatório — a pergunta “quem é responsável?” não tem resposta clara.

Verificação Primeiro, Decomposição Depois

O paper propõe uma inversão que muda fundamentalmente como pensamos sobre arquitetura multi-agente: só decomponha uma tarefa em subtarefas se você conseguir verificar o resultado de cada subtarefa.

Os autores chamam isso de contract-first decomposition. Antes de dividir trabalho entre agentes, defina os critérios de verificação. Se não há como verificar se uma subtarefa foi executada corretamente, não a delegue.

Parece óbvio. Na prática, é o oposto do que a maioria dos times faz. A abordagem dominante é: decomponha a tarefa, distribua para agentes, avalie o resultado final. Se o resultado final está errado, ninguém sabe qual subtarefa falhou. É debugging no escuro.

A analogia organizacional é direta: um CEO que delega sem critérios de sucesso claros não está delegando — está abdicando.

O Gradiente de Autoridade

Os autores identificam um problema que qualquer gestor reconhece: o gradiente de autoridade.

Agentes com alta capacidade tendem a sub-especificar tarefas ao delegar — porque assumem que o agente receptor “vai entender”. Agentes receptores tendem a ser excessivamente deferentes — não questionam instruções ambíguas, não pedem esclarecimento, não reportam quando a tarefa é inviável.

Em organizações humanas, chamamos isso de cultura de “sim, senhor”. Em sistemas multi-agente, é o comportamento padrão. Modelos de linguagem são treinados para ser úteis e complacentes. Raramente dizem “essa instrução não faz sentido” ou “não tenho informação suficiente para executar isso com qualidade”.

O resultado é uma cadeia de delegação que parece funcionar — porque ninguém está reportando problemas — mas que acumula erros silenciosamente em cada nível.

O Que o Paper Não Resolve

Seria desonesto apresentar o framework sem apontar suas limitações.

O paper é inteiramente teórico. Não há experimentos. Não há benchmarks. Não há validação empírica. As propostas técnicas — zero-knowledge proofs para verificação, smart contracts para governança, consenso baseado em teoria dos jogos — são intelectualmente coerentes e operacionalmente impraticáveis na escala atual.

O TrueBit, um protocolo citado no paper como exemplo de verificação descentralizada, perdeu 99,9% do seu valor em janeiro de 2026 após um exploit de 26,6 milhões de dólares. Nem tudo que é teoricamente elegante sobrevive ao contato com a realidade.

E há uma tensão fundamental: os mecanismos de governança propostos são tão pesados que podem elevar o piso de complexidade a ponto de inviabilizar a maioria das tarefas. Se verificar custa mais que executar, o sistema se torna um exercício acadêmico.

O Vocabulário Certo Para o Problema Certo

Apesar das limitações práticas, o paper oferece algo que vale mais que soluções prontas: o vocabulário certo.

Piso de complexidade. Monocultura cognitiva. Zonas de colapso moral. Firebreaks de responsabilidade. Decomposição por contrato. Gradiente de autoridade.

Cada um desses conceitos nomeia um problema que profissionais de IA enfrentam diariamente mas não conseguiam articular com precisão. E a capacidade de nomear um problema é o primeiro passo para resolvê-lo.

O mercado projeta 52 bilhões de dólares em orquestração de agentes de IA até 2030 (Deloitte). 40% das aplicações empresariais terão agentes de IA embarcados até o final de 2026 (Gartner). Os incidentes de IA cresceram 21% entre 2024 e 2025 (AI Incidents Database). A distância entre a velocidade de adoção e a maturidade de governança está aumentando.

O Que Fazer Com Isso

Se você lidera tecnologia ou estratégia de IA em uma organização, três ações concretas.

Primeiro, audite a cadeia de responsabilidade dos seus sistemas multi-agente. Quando um agente toma uma decisão errada, quem é notificado? Quem é responsável? Se a resposta é “depende” ou “não sei”, você tem um problema de governança, não de tecnologia.

Segundo, avalie o piso de complexidade. Das tarefas que seus agentes executam, quantas realmente justificam o overhead de delegação multi-agente? Se a maioria é simples o suficiente para um agente resolver sozinho, seu sistema multi-agente pode estar gerando mais custo que valor.

Terceiro, questione a monocultura. Se todos os seus agentes usam o mesmo modelo, seus erros estão correlacionados. Isso não significa necessariamente usar modelos diferentes — mas significa que você precisa testar para falhas correlacionadas e projetar redundância onde importa.

O paper do DeepMind não resolve o problema da delegação inteligente. Mas faz algo que a indústria precisa urgentemente: trata delegação entre agentes como o problema de governança que realmente é. A partir daí, as soluções — imperfeitas, iterativas, práticas — podem começar a surgir.

A pergunta que resta é se as organizações vão absorver essa lição antes ou depois que o regulador a imponha.

Na Victorino Group, projetamos e operamos sistemas multi-agente com governança como fundação arquitetural — não como camada adicionada depois. Se você está construindo ou escalando sistemas agênticos e precisa de clareza sobre delegação, responsabilidade e verificação, vamos conversar: contato@victorino.com.br | www.victorino.com.br

Fontes

Tomašev, N., Franklin, M., Osindero, S. “Intelligent AI Delegation.” Google DeepMind, fevereiro 2026. arXiv:2602.11865v1.
Gartner. Previsão de que 40% das aplicações empresariais terão agentes de IA embarcados até final de 2026.
Forrester. Previsão de que 75% das empresas construindo sistemas agênticos próprios falharão.
KPMG. “Q4 AI Pulse Survey.” 65% citam complexidade como principal barreira; 75% priorizam segurança e compliance para agentes.
MIT Sloan/BCG. 69% dos executivos concordam que IA agêntica requer novas abordagens de gestão.
Deloitte. Mercado de orquestração de agentes de IA projetado em $52B até 2030.
AI Incidents Database. Aumento de 21% nos incidentes de IA entre 2024 e 2025.
Kleinberg, J., Raghavan, M. “Algorithmic Monoculture and Social Welfare.” PNAS, 2021.
Elish, M.C. “Moral Crumple Zones: Cautionary Tales in Human-Robot Interaction.” Engaging Science, Technology, and Society, 2019.
EU AI Act. Vigência prevista para agosto de 2026. Penalidades até €35M ou 7% do faturamento global.