Agentes Visuais Custam 45x Mais que MCP. Construir Virou Conversa de CFO.

Um número apareceu em maio que deveria mudar como todo time de produto e finanças conversa sobre agentes. A Reflex.dev mediu o custo por tarefa de loops de agente visual contra equivalentes em API estruturada e MCP, e encontrou uma razão de 45 para 1. Quarenta e cinco vezes. Mesma tarefa, mesmo resultado, mesma família de modelo. A única variável foi se o agente via pixels e clicava, ou se chamava uma superfície tipada.

Isso não é benchmark de engenharia. É linha de planilha de CFO.

O que os 45x medem de verdade

A Reflex rodou a comparação do jeito que um time de procurement rodaria. Escolha uma tarefa que um agente precisa executar repetidamente. Implemente duas vezes. Uma com loop de visão e screenshot guiando um harness genérico de computer use. Outra com uma pequena superfície de API estruturada ou MCP que o modelo chama diretamente. Meça tokens consumidos por tarefa concluída, ponta a ponta.

A abordagem visual saiu 45x mais cara por tarefa. As razões não são exóticas. Um screenshot é payload pesado. O modelo precisa raciocinar sobre layout e identificar quais pixels significam o quê. O loop roda mais turnos porque o agente tem que verificar os próprios cliques. Erros disparam retries, e cada retry é uma reexecução completa da etapa cara de percepção.

Uma chamada estruturada custa quase nada em comparação. Algumas centenas de tokens descrevendo intenção e parâmetros. Um valor de retorno. Pronto.

Essa parte sozinha não surpreende. Quem já viu um trace de computer use queimar tokens já sabia que o loop era caro. O que muda é o multiplicador e o enquadramento. Quarenta e cinco não é constante de ajuste. É fronteira de categoria.

A defasagem de confiabilidade que ninguém está pagando à parte

Leia a segunda linha do relatório e a foto piora. Agentes visuais ainda precisam de prompts detalhados para funcionar. Ainda erram do jeito que uma API tipada nunca erraria: cliques fora do alvo, botões alucinados, incapacidade de rolar passando de um modal, comportamento frágil quando o layout muda em alguns pixels.

Ou seja, o prêmio de 45x não compra paridade. Compra a mesma tarefa com pior confiabilidade. O diferencial de custo e a taxa de falha estão correndo na mesma direção.

A maioria dos times não precificou isso com honestidade porque as contas estão caindo na coluna errada. O gasto em tokens do agente visual é custo de runtime. Acumula por tarefa, todo dia, para sempre. Construir um MCP é custo de engenharia uma única vez. Muitos roadmaps de produto comparam esses dois itens como se fossem grandezas equivalentes, e custo único perde para custo recorrente em todo dashboard que não amortiza direito.

Essa contabilidade está quebrada. A cifra de 45x é imposto recorrente. O MCP é payoff que compõe pela vida útil da integração.

Por que isso vira conversa de conselho

Siga a implicação até o fim.

Se sua estratégia de agentes depende de loops visuais sobre superfícies que você não controla, sua economia unitária está aproximadamente 45x pior do que precisaria estar em cada tarefa que roda. Em pequena escala isso é erro de arredondamento. Em dez mil tarefas por dia vira orçamento. Em um milhão de tarefas por dia vira categoria de gasto que o CFO eventualmente vai notar e pedir para ver, linha por linha.

A pergunta deixa de ser “engenharia deveria entregar um MCP para essa superfície?” e passa a ser “qual é a trajetória de custo por tarefa de cada fluxo de agente que temos, e quais deles estão rodando no lado dos 45x do livro?”

Essa não é pergunta que engenharia responde sozinha. Exige:

Produto sabendo quais fluxos de agente são essenciais a ponto de justificar superfície tipada.
Finanças acompanhando custo por tarefa como métrica real, não como linha agregada de “gasto com IA”.
Engenharia mantendo MCPs como superfícies de API de primeira classe, não como projeto de fim de semana.
Procurement perguntando aos fornecedores se os produtos deles expõem superfície tipada ou forçam loop visual.

Cada uma dessas quatro conversas muda quando a razão de 45x vira referência compartilhada.

A ressalva metodológica que não te salva

A medição da Reflex é um time, um conjunto de tarefas, um harness. A leitura honesta é que 45x é o número deles, não constante universal. Sua razão pode ser 20x. Pode ser 80x. Depende das tarefas, das superfícies, dos modelos, do overhead de verificação.

Essa ressalva é real, e você deve tratar como tal. Não muda a conclusão, porque a conclusão não precisa de 45x exatos. Precisa da ordem de grandeza. Uma razão de 10x ainda é diferencial de custo que define categoria. Uma razão de 5x ainda é suficiente para virar a decisão de construir ou adiar em todo fluxo acima de volume modesto.

O número que importa é o que você mede no seu próprio ambiente. O número que você não deve ficar esperando é um benchmark perfeito da indústria antes de começar a medir.

O que isso reescreve no roadmap de agentes

Muitos times tratam a decisão de construir um MCP como preferência de experiência do desenvolvedor. “Mais agradável chamar APIs tipadas, mas visão resolve por enquanto.” Esse enquadramento se sustentava quando agentes eram linha de protótipo no orçamento. Para de se sustentar quando agentes viram categoria de runtime com volume real.

A razão de 45x reformula a pergunta. Um MCP não é mais agradável. É a versão em economia unitária do mesmo fluxo. O loop visual é o fallback de força bruta que você aceita quando não consegue chegar à superfície tipada, não o padrão que você escolhe porque é mais rápido entregar.

Três consequências de roadmap derivam disso.

Primeira, cobertura de MCP vira decisão de portfólio. Quais superfícies têm volume suficiente para justificar o investimento de engenharia? Quais são controladas por fornecedor e demandam empurrão de procurement em vez de build interno? Quais podem ficar em visão porque o volume é baixo a ponto de 45x vezes quase-zero ainda ser quase-zero?

Segunda, seleção de fornecedor muda. Se sua plataforma de agentes só expõe capacidades de pilotar tela e não tem superfície tipada, você está comprando o lado dos 45x do trade por padrão. Pedir cobertura MCP aos fornecedores virou pergunta de finanças, não só de experiência do desenvolvedor.

Terceira, a ausência de um MCP começa a aparecer no balanço como custo diferido. Todo fluxo que você roda em visão hoje está pagando o prêmio de 45x até a superfície tipada existir. Esse prêmio acumula todo dia. Trate como qualquer outra dívida técnica com taxa de juros corrente.

Faça isso agora

Puxe a fatura de tokens dos agentes do mês passado. Separe o gasto por superfície. Para cada superfície em que o agente roda loop visual, faça duas perguntas. Como seria um MCP tipado, e quantas tarefas por mês ele atenderia? Se a resposta da segunda pergunta for mais que alguns milhares, a decisão de construir o MCP deixou de ser do time de engenharia. Está na mesma mesa de revisão de qualquer linha recorrente de custo acima do limiar de materialidade.

A cifra de 45x vai mover conforme as metodologias melhoram e os modelos ficam mais baratos em percepção. A fronteira de categoria não. Superfícies tipadas sempre vão custar menos por tarefa que superfícies de percepção, porque descrever intenção sempre é mais barato do que rederivar intenção a partir de pixels. Os times que internalizarem isso cedo vão passar os próximos dois anos movendo fluxos do lado caro do livro para o barato, e vão fazer isso de propósito, com FinOps acompanhando a curva.

Os times que não fizerem vão continuar pagando o imposto e chamando de custo de runtime, até o dia em que um CFO puxa a linha e pergunta por que um único fluxo de agente está custando à empresa mais do que um engenheiro sênior.

Fontes

Reflex.dev. “Computer Use Is 45x More Expensive Than Structured APIs.” Maio de 2026.

A Victorino ajuda CFOs e líderes de engenharia a precificar a decisão entre agente visual e MCP em base de economia unitária: contato@victorino.com.br | www.victorino.com.br