55 Funcionalidades que Ninguém Pediu: Por Que Governança de Agentes É um Problema de Design

Pesquisadores da Apple e Carnegie Mellon publicaram o que pode ser o artigo mais útil — e mais ignorado — sobre agentes de IA este mês. “Mapping the Design Space of User Experience for Computer Use Agents” (arXiv:2602.07283) não apresenta um novo modelo. Não bate recordes em benchmarks. Não anuncia um produto.

O que faz é mais raro: define, pela primeira vez, uma taxonomia sistemática de como humanos deveriam interagir com agentes de IA. Quatro categorias, vinte e uma subcategorias, cinquenta e cinco funcionalidades. Um mapa completo das superfícies de controle que a maioria dos agentes em produção hoje simplesmente não tem.

Para quem constrói ou implanta agentes de IA em empresas, esse artigo é um checklist. E a maioria vai reprovar.

O Que a Pesquisa Realmente Fez

A metodologia merece atenção porque é incomum para o campo.

Na primeira fase, os pesquisadores analisaram nove agentes existentes — Claude Computer Use, Adept, OpenAI Operator, AIlice, Magentic-UI, UI-TARS, Project Mariner, TaxyAI, AutoGLM — e entrevistaram oito profissionais de UX e IA. Dessa análise, extraíram a taxonomia.

Na segunda fase, conduziram um estudo Wizard-of-Oz com vinte participantes. Um pesquisador humano simulou o comportamento de um agente de IA enquanto os participantes realizavam tarefas reais: buscar aluguel de férias e fazer compras online. Três condições experimentais: execução normal, execução com erros deliberados e situações envolvendo risco (pagamentos, contato com terceiros).

O desenho Wizard-of-Oz é engenhoso e limitado ao mesmo tempo — voltaremos a isso.

Quatro Categorias, Uma Ausência

A taxonomia organiza a experiência do usuário com agentes em quatro dimensões:

Consulta do Usuário — como as pessoas formulam comandos e intenções para o agente. Linguagem natural, templates, refinamento iterativo.

Explicabilidade — quais ações do agente são visíveis e como são comunicadas. O que o agente está fazendo, o que planeja fazer, por que tomou determinada decisão.

Controle do Usuário — como e quando as pessoas podem intervir. Pausar, redirecionar, aprovar, vetar, desfazer.

Modelo Mental e Expectativas — como o agente comunica suas próprias capacidades e limitações. O que consegue fazer, o que não consegue, onde precisa de ajuda.

O que chama atenção não é o que está na taxonomia. É o que falta. Não existe uma quinta categoria para governança organizacional — quem define os limites do agente, quem audita suas decisões, como a organização garante que o controle individual se traduz em controle institucional.

A taxonomia é centrada no usuário individual. Para uso pessoal, isso basta. Para uso empresarial, é necessário mas insuficiente.

Os Cinco Achados que Importam

Os resultados do estudo com participantes revelam padrões que contradizem premissas comuns sobre como as pessoas querem interagir com agentes.

Primeiro: visibilidade sem microgerenciamento. Participantes queriam ver o que o agente estava fazendo, mas não queriam aprovar cada passo. A demanda é por transparência passiva — uma janela onde se pode observar — e não por aprovação ativa a cada clique. A diferença é sutil e tem implicações profundas de design: um log de ações visível é governança; um pop-up pedindo confirmação a cada segundo é obstrução.

Segundo: comportamento que muda com o contexto. Quando estavam explorando opções (qual aluguel escolher?), participantes queriam mais controle e mais explicações. Quando estavam executando uma tarefa conhecida (comprar este item específico), queriam velocidade e autonomia do agente. O mesmo usuário, na mesma sessão, demandou níveis opostos de controle dependendo da natureza da tarefa.

Isso invalida qualquer modelo de governança com nível fixo de supervisão. A supervisão precisa ser dinâmica — ou será ignorada quando restritiva demais e insuficiente quando permissiva demais.

Terceiro: experiência determina tolerância. Usuários menos familiarizados com IA queriam mais explicações sobre o raciocínio do agente. Experts queriam que o agente executasse e mostrasse resultados. Isso sugere que sistemas de governança precisam ser adaptativos não apenas ao tipo de tarefa, mas ao perfil do operador.

Quarto: risco exige controle explícito. Quando o agente se aproximava de ações com consequências reais — finalizar um pagamento, enviar uma mensagem para outra pessoa — a demanda por aprovação humana era universal. Independentemente da experiência do usuário ou da familiaridade com a tarefa, ações irreversíveis exigiam confirmação.

Quinto: erros silenciosos destroem confiança. Quando o agente (simulado pelo pesquisador) tomava uma decisão errada sem sinalizar incerteza, a confiança dos participantes colapsava. A citação mais reveladora do estudo: participantes pediram que agentes “pausem e peçam esclarecimento, em vez de simplesmente escolher algo aparentemente aleatório”. Errar não é fatal. Errar em silêncio é.

O Problema do Wizard-of-Oz

Aqui a honestidade intelectual exige uma pausa.

O estudo simulou o agente com um pesquisador humano. Isso significa que os erros introduzidos eram erros humanos — coerentes, previsíveis, dentro de um espaço de falha que os participantes intuitivamente compreendiam.

Agentes de IA reais não erram assim. LLMs alucinam. Confabulam com confiança. Cometem erros que nenhum humano cometeria — como preencher um formulário com dados inventados mas formatados corretamente. A falha de um LLM é estranha de uma forma que um Wizard humano não consegue simular.

Isso não invalida o estudo. Os padrões comportamentais dos usuários — a demanda por transparência, controle contextual, confirmação em decisões de alto risco — provavelmente se intensificam, não diminuem, quando os erros são mais imprevisíveis. Mas significa que as cinquenta e cinco funcionalidades identificadas são um piso, não um teto. Agentes reais provavelmente precisam de mais superfícies de controle, não menos.

Vinte participantes também não constituem evidência estatística. É pesquisa qualitativa — útil para gerar hipóteses, insuficiente para confirmar. E as tarefas testadas foram exclusivamente de consumo na web, não fluxos empresariais com múltiplos stakeholders e consequências regulatórias.

A Evidência Complementar

O estudo da Apple e CMU não existe em isolamento. Dados de outras fontes convergem na mesma direção.

A equipe da Microsoft que desenvolve o Magentic-UI publicou resultados que quantificam o impacto de superfícies de controle: taxa de sucesso de 30,3% em modo totalmente autônomo versus 51,9% com humano no loop — melhoria de 71%. Os seis mecanismos que fizeram a diferença: co-planejamento, co-execução, aprovação de ações, verificação de respostas, memória e multitarefa. Cada um é uma superfície de controle. Cada um aparece na taxonomia da Apple.

Victor Yocco, na Smashing Magazine, catalogou seis padrões de UX para IA agêntica que merecem atenção: Intent Preview (pré-visualização de intenção, com mais de 85% de taxa de aceitação), Autonomy Dial (quatro níveis de autonomia ajustáveis), Explainable Rationale, Confidence Signal, Action Audit & Undo (menos de 5% de taxa de reversão) e Escalation Pathway (mais de 90% de recuperação de erros).

A frase mais precisa de Yocco: “Autonomia é output de um sistema técnico, mas confiabilidade é output de um processo de design.”

Governança, nesse enquadramento, não é o oposto de autonomia. É a infraestrutura que torna autonomia viável.

O Gap Empresarial

Agora coloque esses dados lado a lado com a realidade corporativa.

O relatório Kiteworks 2026 indica que 63% das organizações não conseguem impor limites de propósito para seus agentes de IA. Sessenta por cento não conseguem encerrar agentes com comportamento inadequado. Segundo o Microsoft Security Blog, 80% da Fortune 500 já utiliza agentes de IA ativos.

Temos, então, um cenário onde a maioria das grandes empresas usa agentes de IA, a maioria não consegue controlá-los adequadamente, e a pesquisa demonstra que controle é exatamente o que determina se agentes funcionam ou não.

A taxonomia da Apple oferece cinquenta e cinco funcionalidades de controle. Quantas delas estão implementadas nos agentes que sua organização utiliza hoje?

Governança Como Design, Não Como Compliance

O insight não-óbvio deste artigo não é que agentes precisam de controle. Isso a maioria das pessoas já sabe, ou pelo menos pressente.

O insight é que controle é um problema de design de interface, não de política corporativa.

Quando uma organização trata governança de IA como compliance — documentos, aprovações, comitês — cria estruturas que existem separadas do produto. A política diz uma coisa. O agente faz outra. O gap entre intenção e implementação é preenchido por esperança.

Quando governança é tratada como design — superfícies de controle embutidas na interface, transparência como funcionalidade, aprovação como interação — o controle está no produto. Não ao lado dele.

A taxonomia da Apple é útil exatamente por isso. Não é uma lista de políticas. É um catálogo de componentes de interface. Cada uma das cinquenta e cinco funcionalidades é algo que pode ser projetado, implementado, testado e iterado.

Compliance pergunta: “Temos uma política para isso?”

Design pergunta: “O usuário consegue ver, entender e intervir?”

A segunda pergunta é mais difícil de responder e mais eficaz de implementar.

O Interesse Declarado

Uma nota sobre a fonte. A Apple é uma empresa cuja marca é construída sobre privacidade e controle do usuário. Um estudo acadêmico que conclui que agentes de IA precisam de mais transparência e mais controle do usuário alinha-se convenientemente com o posicionamento comercial da Apple.

Isso não invalida os achados — os dados dos participantes são verificáveis e os padrões convergem com pesquisas independentes. Mas é importante lembrar que nenhuma pesquisa corporativa é desinteressada. O mapa pode ser preciso e ainda assim ter sido desenhado por alguém que quer que você caminhe numa direção específica.

O Que Fazer Com Isso

Para quem está construindo ou implantando agentes de IA em ambiente corporativo, as cinquenta e cinco funcionalidades da taxonomia funcionam como um checklist de maturidade.

Comece pelas categorias que o estudo identificou como mais críticas: transparência de ações (o que o agente está fazendo), controle em decisões de alto risco (aprovação antes de ações irreversíveis) e comunicação de incerteza (o agente sinaliza quando não tem confiança na decisão).

Depois, avalie se seus mecanismos de controle são estáticos ou dinâmicos. Se o nível de supervisão é o mesmo para exploração e execução, para novatos e experts, para tarefas rotineiras e decisões de alto impacto — o desenho está errado. A pesquisa é clara: um único nível de controle não funciona.

Por último, pergunte se a governança dos seus agentes está no documento ou no produto. Se está apenas no documento, não está em lugar nenhum que importa.

A autonomia que funciona não é a que elimina o controle humano. É a que torna o controle humano tão natural que quase desaparece — até o momento em que é necessário.

Para discutir como avaliar e implementar superfícies de governança nos seus agentes de IA, entre em contato: contato@victorino.com.br