Operando IA

O Imposto Operacional: O Que Acontece Quando Agentes de IA Chegam à Produção Sem Governança

TV
Thiago Victorino
9 min de leitura
O Imposto Operacional: O Que Acontece Quando Agentes de IA Chegam à Produção Sem Governança

Existe um momento específico na vida de todo sistema de IA em que ele deixa de ser impressionante e começa a ser caro. Esse momento é a produção.

Demos não pagam imposto. Pilotos pagam pouco. Mas quando um agente de IA roda diariamente, conectado a ferramentas reais, consumindo tokens a cada interação, os custos invisíveis aparecem. Não são os custos que aparecem na fatura da API. São custos estruturais: overhead de protocolo que se acumula, métricas que medem atividade ao invés de valor, e trabalho agendado que roda sem supervisão.

Kate Jensen, da Anthropic, resumiu o estado atual com franqueza incomum para alguém vendendo a tecnologia: “2025 deveria ter sido o ano dos agentes… a expectativa foi prematura.” A empresa acaba de lançar 13 novos conectores MCP, plugins específicos por domínio (finanças, engenharia, design) e marketplaces privados com controles administrativos. A infraestrutura está sendo construída. Mas operar essa infraestrutura tem um preço que poucos estão contabilizando.

O Custo Que Ninguém Orça

O Model Context Protocol (MCP) resolve um problema real: padronizar como agentes de IA acessam ferramentas externas. Cada ferramenta declarada via MCP carrega um schema JSON que define tipos de dados, campos obrigatórios e valores válidos. Esses schemas são o contrato entre o agente e a ferramenta. São a camada de validação que impede o agente de enviar lixo para uma API de produção.

O problema é que o MCP despeja o catálogo inteiro de ferramentas no início de cada sessão. Kan Yilmaz fez a conta: cada ferramenta custa cerca de 185 tokens de contexto. Com 84 ferramentas (um caso extremo, mas real em ambientes empresariais), o agente consome aproximadamente 15.540 tokens antes de fazer qualquer coisa útil.

Na maioria das configurações reais, com 20 a 30 ferramentas, o custo absoluto é modesto. Centavos por sessão. Mas centavos por sessão, multiplicados por milhares de sessões diárias, viram uma linha orçamentária que ninguém previu.

A alternativa existe. Uma abordagem CLI com lazy-loading reduz o consumo inicial para cerca de 300 tokens, uma economia de 98%. Parece uma otimização óbvia.

Não é.

A Tensão Que Define o Problema

A economia de tokens do lazy-loading vem com um custo oculto: remove os schemas JSON de validação. Esses schemas são exatamente o que torna o MCP previsível. São a especificação formal de como cada ferramenta deve ser chamada. Sem eles, o agente opera com descrições textuais livres. Funciona na maioria das vezes. Falha de formas difíceis de diagnosticar.

Um artigo acadêmico recente (arxiv 2602.14878v1) quantificou essa tensão. Descrições MCP aumentadas melhoram a acurácia de seleção de ferramentas em 5,85 pontos percentuais. O preço: 67% mais passos de execução. Mais precisão custa mais tempo e mais tokens. Menos tokens compram menos precisão.

Otimização de custo e governança puxam em direções opostas. Essa é a tensão fundamental de operar IA em produção. Toda decisão de “eficiência” tem uma consequência de governança, e vice-versa.

A Microsoft aprendeu isso com o Copilot. O Google aprendeu com o Duet. A Anthropic está construindo a terceira geração de plugins empresariais, desta vez com controles administrativos que as duas anteriores não tinham. A convergência de mercado não aconteceu por coincidência. Aconteceu porque todas as três empresas descobriram que conectar agentes a ferramentas sem governança na camada de conexão é insustentável.

Métricas Que Mentem

O overhead de protocolo é um problema visível. Métricas erradas são um problema invisível.

Dunya Kirkali descreve um cenário que deveria incomodar qualquer líder de operações. Imagine o backend de um serviço de transporte: latência de 150ms, zero erros, banco de dados estável, uptime perfeito. Todo painel de monitoramento está verde. O serviço é uma catástrofe. Não há motoristas disponíveis. Nenhum usuário consegue completar uma corrida.

Toda métrica técnica passa. A métrica de negócio falha.

O SLO (Service Level Objective) que importaria nesse cenário é diferente de tudo que a infraestrutura mede: “99,5% das solicitações de corrida têm pelo menos 3 carros disponíveis em 2 km.” Isso requer instrumentação do domínio, não da infraestrutura.

Com agentes de IA, o problema é idêntico. Organizações medem tokens consumidos, latência de resposta, taxa de erro da API, uptime do serviço. São métricas técnicas legítimas. Nenhuma delas responde à pergunta que importa: o agente está produzindo valor?

A pesquisa de C.J. Roth expõe o que acontece quando a pergunta fica sem resposta. Times com IA completam 21% mais tarefas e fazem merge de 98% mais pull requests. Os painéis de produtividade celebram. Ao mesmo tempo, o tempo de revisão de código sobe 91%. Incidentes por PR sobem 23,5%. Mais output, mais problemas. As métricas de atividade escondem a degradação de qualidade.

Frequência de entrega e taxa de quebra dizem mais sobre a saúde de um time do que qualquer dashboard de tokens. Mas quase ninguém mede assim.

Automação Sem Governo

Em 25 de fevereiro, a Anthropic lançou tarefas agendadas no Claude Cowork. Agentes que rodam automaticamente, em intervalos definidos (horário, diário, semanal), executando trabalho recorrente sem intervenção humana.

O anúncio revela uma limitação importante: as tarefas só rodam com o laptop ligado. É automação de desktop, não orquestração empresarial. Mas o padrão que ela estabelece importa mais que a implementação atual.

Tarefas agendadas sem governança são shadow IT com esteroides. A pesquisa Larridin de fevereiro de 2026 já documenta o estado atual: 45% da adoção de IA acontece fora do TI formal. Apenas 38% das organizações mantêm um inventário de ferramentas de IA em uso. Agora adicione agentes que rodam automaticamente, sem visibilidade centralizada, consumindo tokens e acessando ferramentas em intervalos regulares.

O IDC FutureScape 2026 projeta que organizações G1000 enfrentarão 30% de aumento em custos subestimados de IA. Esses custos não são misteriosos. São o acúmulo de overhead de protocolo não contabilizado, métricas que não capturam valor real, e automações que ninguém inventariou.

Três Impostos, Uma Estrutura

O imposto operacional da IA tem três componentes. Ignorar qualquer um deles compromete os outros dois.

Imposto de protocolo. Cada ferramenta conectada via MCP custa tokens de contexto. O custo é estrutural, recorrente, e cresce com o número de ferramentas. A otimização ingênua (remover schemas) reduz custo e reduz governança proporcionalmente. A otimização inteligente é seletiva: carregar schemas completos para ferramentas críticas, descrições leves para ferramentas auxiliares. Isso requer classificação de ferramentas por risco, algo que a maioria das organizações não fez.

Imposto de mensuração. Medir tokens, latência e uptime é necessário e insuficiente. Sem SLOs de negócio (o agente está produzindo valor para o usuário final?), a organização otimiza para métricas que não correlacionam com resultado. O cenário da Kirkali não é teórico. É o estado atual de operações de IA na maioria das empresas.

Imposto de visibilidade. Cada agente agendado, cada automação recorrente, cada ferramenta conectada que não está inventariada é dívida operacional acumulando juros compostos. Quando 45% da adoção de IA acontece fora do TI formal, a organização não sabe quanto está pagando de imposto operacional. Não sabe nem que está pagando.

O Que Muda

Produção não é demo. A frase é óbvia, mas as implicações práticas não são.

Em uma demo, 15.000 tokens de overhead são irrelevantes. Em produção com milhares de sessões diárias, são uma linha orçamentária. Em uma demo, métricas de latência são suficientes. Em produção, métricas de valor de negócio são necessárias. Em uma demo, uma tarefa agendada é conveniente. Em produção sem inventário, é shadow IT.

O imposto operacional da IA não é um problema técnico. É um problema de governança disfarçado de problema de custo. Resolver o custo sem resolver a governança é como reduzir impostos eliminando a fiscalização. Os números melhoram no curto prazo. A conta chega depois.

As organizações que vão operar IA em escala são as que reconhecem o imposto, contabilizam seus três componentes, e constroem a infraestrutura para pagá-lo de forma inteligente ao invés de ignorá-lo até que a fatura acumule.


Fontes

  • Kan Yilmaz: análise de custo de tokens MCP, fevereiro de 2026. ~185 tokens/ferramenta, ~15.540 tokens com 84 ferramentas.
  • Artigo acadêmico (arxiv 2602.14878v1): descrições MCP aumentadas melhoram acurácia em 5,85pp, aumentam passos de execução em 67%.
  • TechCrunch, 24 de fevereiro de 2026: Anthropic lança plugins empresariais com 13 conectores MCP.
  • Dunya Kirkali, fevereiro de 2026: SLOs de negócio versus SLOs técnicos para operações de IA.
  • Anthropic, 25 de fevereiro de 2026: Claude Cowork com tarefas agendadas (horária/diária/semanal).
  • Pesquisa Larridin, fevereiro de 2026: 45% da adoção de IA fora do TI formal, 38% mantêm inventário.
  • IDC FutureScape 2026: 30% de aumento em custos subestimados para organizações G1000.
  • C.J. Roth, fevereiro de 2026: +21% tarefas, +98% PRs, +91% tempo de revisão, +23,5% incidentes/PR.

O Victorino Group ajuda organizações a construir governança operacional para sistemas de IA em produção. Se sua empresa está escalando agentes sem contabilizar o imposto operacional, entre em contato em contato@victorino.com.br ou visite www.victorino.com.br.

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa