Governança de Custos: A Era do Preço Fixo Acabou Neste Trimestre

TV
Thiago Victorino
8 min de leitura
Governança de Custos: A Era do Preço Fixo Acabou Neste Trimestre
Ouvir este artigo

A era do preço fixo acabou neste trimestre.

A Anthropic anunciou a migração dos contratos enterprise para cobrança por token. A Implicator.ai resumiu o recado em uma linha que vale a pena ler devagar: todo grande provedor de IA que roda cargas agênticas deve migrar para cobrança por uso nos próximos seis meses. Não é previsão de analista buscando manchete. É o que o ciclo de renovação está exigindo, porque a conta de um agente não se parece com a conta de um SaaS.

O preço fixo era uma ficção tolerável enquanto o uso era previsível. Um copiloto que completa uma linha de código por vez consome mais ou menos o mesmo volume em cada engenheiro. Um agente que planeja, executa, valida e refaz dez vezes até o teste passar consome o que precisar. A variância entre duas tarefas do mesmo time pode ser de cinquenta para um. Quando a variância é essa, qualquer fornecedor que oferece tarifa plana está, na prática, subsidiando os clientes mais intensivos com o dinheiro dos mais parcimoniosos. Isso só dura até o CFO do fornecedor fazer a conta.

Enquanto isso, o piso desse mercado ficou mais estreito. A Epoch AI mostrou que cinco hyperscalers — Google, Microsoft, Meta, Amazon e Oracle — controlam hoje mais de dois terços da capacidade global de computação de IA. Tom Tunguz, no mesmo mês, chamou o momento pelo nome: é o início da escassez em IA, a primeira vez desde os anos 2000 que empresas de tecnologia encontram um limite de suprimento que não conseguem contornar com engenharia. Quando o insumo é escasso e concentrado, a precificação deixa de ser uma decisão de marketing do fornecedor e passa a ser uma restrição física repassada ao cliente.

E depois tem o caos prático, que chegou antes do estratégico. O The Register documentou na semana passada a confusão de cotas do Claude Code: escrita no cache de cinco minutos custa 25% a mais que a chamada base, escrita no cache de uma hora custa 100% a mais, leitura do cache sai por cerca de 10% do preço base. Usuários estão batendo em limites sem entender por quê, porque ninguém lhes explicou que a mesma chamada tem três preços dependendo de onde o contexto aterrissou. É o primeiro vendedor de carros a cobrar por litro de combustível, por quilômetro rodado e por curva de volante no mesmo recibo — e fazer isso antes de imprimir o manual do proprietário.

Junte as três peças e o quadro é simples. O modelo de cobrança está mudando, o suprimento está concentrado e o faturamento ficou mais complexo do que a maioria das planilhas de FP&A consegue representar. Quem não tem governança de custos antes do próximo trimestre vai ter um outro tipo de conversa com o conselho.

A Governança de Custos Tem Três Camadas

Como já explorei em Três Preços para Um Agente, a heterogeneidade de preço por agente não é um defeito temporário do mercado; é a estrutura do mercado a partir de agora. E como o argumento de O Momento do Doritos deixa claro, o comprador já está tratando IA como gasto discricionário, sujeito à mesma régua de qualquer outra linha variável. O que ficou faltando era a arquitetura de controle. Ela se divide em três camadas, e cada uma tem um controle concreto que dá para enviar na sexta-feira.

Camada 1 — Atribuição de cota. A pergunta é: quem pode gastar quanto, sob quais condições? A resposta não pode ser um limite global no provedor, porque limite global explode junto para todo mundo no dia do susto. Tem que ser cota por time, por ambiente e por classe de tarefa, aplicada no gateway de chamadas, não na fatura. O controle concreto: um proxy de API com chaves emitidas por projeto, cada chave amarrada a um teto diário e a um perfil de modelo permitido. Sem chave sem dono. Sem dono sem aprovação de cota.

Camada 2 — Economia de cache. A pergunta é: qual tier de cache usar quando? A resposta depende de um fato que poucos times mediram: a distribuição real de reuso de contexto nas suas cargas. Cache de cinco minutos compensa em loops curtos de refinamento, cache de uma hora compensa em sessões longas de análise, e nenhum dos dois compensa quando o contexto é descartável. O controle concreto: um relatório semanal que cruza volume de tokens com tier de cache escolhido e calcula o custo contrafactual dos outros dois tiers. Quem escolhe errado paga o dobro sem saber. Depois de duas semanas medindo, a escolha vira política, não palpite.

Camada 3 — Atribuição uso-valor. A pergunta é: este token virou resultado de negócio? Aqui é onde a maior parte das empresas desiste, porque a telemetria entre chamada de LLM e linha de receita está quebrada. O controle concreto é mais mundano do que parece: cada chamada agêntica carrega um identificador de tarefa de negócio, e cada tarefa tem um dono que precisa fechar o ciclo com um resultado, mesmo que qualitativo. Não é ROI por token. É rastreabilidade. Sem rastreabilidade, o conselho vai olhar a fatura e perguntar o que a empresa comprou. Com rastreabilidade, a resposta já está pronta antes da pergunta.

Três camadas, três controles. Nenhum deles é uma plataforma nova. Todos cabem em um mês de trabalho de uma pessoa séria com acesso aos logs certos.

A Pergunta Seguinte

O risco desse tipo de artigo é virar a justificativa para um comitê de aprovação de tokens que trava o desenvolvimento por seis semanas. Essa não é a ideia. Governança de custo que mata velocidade é governança que perdeu o ponto. O objetivo aqui é o contrário: tornar o custo legível para que o time possa acelerar sem pedir permissão a cada chamada. Você consegue correr mais rápido num prédio com sprinklers e saídas de emergência do que num prédio que finge ser ignífugo.

A pergunta que o conselho vai fazer no próximo trimestre já é conhecida. Não é quanto a gente gastou? — esse número aparece no extrato. É por que a conta mudou? Se a resposta envolve franzir a testa e abrir três dashboards, a governança não existe. Se a resposta cabe em uma frase — mudamos o tier de cache no agente de revisão, três times migraram de Opus para Sonnet em tarefas de baixa complexidade, e o volume cresceu 40% porque o fluxo X entrou em produção — a empresa está pronta para a era pós-preço-fixo.

A parte difícil não é construir os controles. A parte difícil é construí-los antes do susto, não depois. Depois do susto, o que se constrói chama-se moratória.


Fontes

Ajudamos empresas a construir a camada de governança de custos antes que o conselho pergunte por que a conta mudou: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa