Três Sinais em Sete Dias: Custo de IA Cruzou a Linha da Engenharia

TV
Thiago Victorino
8 min de leitura
Três Sinais em Sete Dias: Custo de IA Cruzou a Linha da Engenharia
Ouvir este artigo

Três fontes, uma semana, a mesma verdade operacional. O CTO de uma SaaS pública, um analista de mercado construindo modelo de economia unitária, e um engenheiro publicando uma fórmula de guardanapo, todos saíram em sete dias. Nenhum dos três estava coordenado. Os três chegaram à mesma conclusão. Economia de tokens deixou de ser linha de orçamento da engenharia. Virou disciplina de governança de conselho, e as empresas que construíram fluxos sobre subsídios dos laboratórios têm exposição não orçada que o próximo IPO vai expor.

Já escrevi sobre o fim do preço plano, sobre os arquétipos em que os engenheiros caem, e sobre o postmortem dos preços de abril. Esta semana é diferente. O padrão se comprimiu. Três sinais independentes empilharam em uma única semana, e a convergência é a notícia.

Sinal um: o CTO admite o quebra-cabeça

Jon Hyman, CTO da Braze, sentou com o podcast Leaders of Code, do Stack Overflow, em 13 de maio. A Braze entrega código gerado por IA em escala: mais de 60% do código comitado já é escrito por IA. Ele contou ao apresentador que um engenheiro gastou US$ 150 em inferência em um único dia, projetando perto de US$ 4.500 por mês se mantivesse o ritmo. Não é caso isolado. É a nova mediana para um engenheiro sênior usando as ferramentas como as ferramentas pedem para serem usadas.

Em seguida ele soltou a frase que devia fazer todo CFO parar e reler. “Mesmo que eu deixe todo mundo 20% mais produtivo, não está claro como isso vai se traduzir em fazer a Braze crescer 20% mais rápido.”

Um CTO de empresa pública, no microfone, dizendo a uma audiência de desenvolvedores que não consegue modelar a conversão entre gasto em token e crescimento de receita. Essa é a versão honesta da história que todo operador está vivendo. A produtividade é real. O ganho de receita ainda não é legível. A conta, porém, está totalmente legível, e está subindo.

Sinal dois: o analista publica a conta

Dois dias antes, o State of Brand publicou um modelo com números que detonam a premissa de assinatura. Usuários da Anthropic consomem até US$ 8 em computação para cada US$ 1 de receita de assinatura. A Microsoft estaria perdendo US$ 20 ou mais por usuário por mês em assinaturas Copilot de US$ 10. Usuários pesados custam para a Microsoft até US$ 80 por mês contra os mesmos US$ 10. Um time de 50 pessoas pagando US$ 1.000 por mês em assentos Claude Pro consome entre US$ 15.000 e US$ 40.000 por mês em tokens reais. A OpenAI caminha para US$ 115 bilhões em queima de caixa acumulada até 2029 e US$ 665 bilhões em gasto de computação comprometido até 2030.

Some a migração do GitHub para faturamento por uso do Copilot em 1º de junho, e o quadro se completa. Os laboratórios estão executando uma retirada coordenada do preço subsidiado. A retirada não está sincronizada, mas a direção está. Todo contrato corporativo assinado contra um SKU de Copilot por assento é agora um contrato contra uma unidade que vai ser medida, reprecificada, ou as duas coisas, antes do próximo ciclo de renovação.

A contribuição do analista é o modelo. A contribuição do CTO é a confissão de que mesmo com as ferramentas funcionando, o lado da receita ainda não acompanha. Duas metades da mesma equação, publicadas com 48 horas de diferença, por gente que não se conhece.

Sinal três: o engenheiro deriva a fórmula

Em 17 de maio, Ryan Skidmore publicou a matemática debaixo da matemática. O artigo dele sobre o cache de prompt do Claude mostrou que o ponto de equilíbrio entre pagar por escritas de cache e leituras de cache é governado por uma razão simples: T = 5 × (W/R), onde W é o multiplicador de custo de escrita (1,25) e R é o multiplicador de leitura (0,10). A aritmética resolve em 62,5 minutos. Se o intervalo de refresh do seu cache for menor que 62,5 minutos, você está pagando mais em escritas do que economiza em leituras. Se for maior, o cache se paga.

O ponto não é o número. O ponto é que o número independe do modelo. A regra de 62,5 minutos não muda quando a Anthropic lança um modelo novo, desde que a razão W/R fique em 12,5. É uma constante estrutural da arquitetura de preço, não característica do release atual.

Isso importa porque o tokenizador do Opus 4.7 já usa até 35% mais tokens que o 4.6 para o mesmo input. Um fluxo que cabia confortavelmente no cache no trimestre passado pode não caber neste trimestre. A regra de 62,5 minutos é a única ferramenta que sobrevive à troca de tokenizador. Quem está modelando gasto de tokens sem essa constante está modelando alvo móvel com régua parada.

A convergência

Um CTO que consegue medir produtividade, mas ainda não receita. Um analista que prova que preço de assinatura é máquina de prejuízo de US$ 7 para cada US$ 1 faturado. Um engenheiro que deriva uma constante de 62,5 minutos que sobrevive a releases. Cada peça, isolada, é uma observação afiada. Empilhadas, descrevem uma estrutura de mercado.

Os labs passaram dois anos precificando IA como instrumento de marketing. Os níveis de assinatura eram investimento em ecossistema, não economia unitária. A conta ficava no balanço do laboratório, e o cliente pagava um número que não tinha relação com o custo de servi-lo. Esse arranjo funcionava enquanto os labs eram privados, capital era barato, e a trajetória de receita importava mais que a de custo.

Esse arranjo quebra no instante em que os labs precisam mostrar um caminho público para a lucratividade. A projeção de US$ 115 bilhões de queima da OpenAI é o muro. O muro tem data. Os labs agora precificam em direção a ele, não para longe, e os ajustes de preço deixaram de ser decisão de marketing. São decisão de governança, tomadas sob pressão de calendário de IPO.

O que mudou nesta semana, especificamente

Duas coisas. Primeiro, a conta saiu por escrito. Até o State of Brand colocar no papel, a razão de US$ 8 para US$ 1 era reivindicação não provada. Agora é modelo público que o lado comprador pode usar em renegociação. Segundo, um CTO de empresa pública falou em voz alta. Hyman não é gente conversando com audiência de nicho. Ele toca engenharia na Braze. Quando diz ao Stack Overflow que o modelo de receita para produtividade assistida por IA é incerto, todo CFO que assistiu àquela entrevista agora tem citação para a conversa que já estava tendo.

Confissão mais modelo mais constante. Três fontes, três papéis, uma tese. Esse é o tipo de semana que fecha um capítulo e abre o próximo.

Faça isso agora

Coloque a regra de 62,5 minutos no seu dashboard de custo de IA. Não como métrica para acompanhar. Como alarme. Se o intervalo de refresh do cache do seu time cair abaixo de 62,5 minutos em qualquer fluxo, você está pagando uma penalidade escondida de 12,5x por chamada até alguém arrumar. A matemática independe do modelo, o que significa que o alarme sobrevive aos próximos quatro releases. A maioria dos dashboards corporativos de custo de IA ainda não mede isso. A maioria continua lendo números fornecidos pelo vendor e reportando como verdade. Os vendors não vão colocar esse alarme nos próprios dashboards, porque o alarme reduz o quanto você gasta.

O segundo movimento é o que eu repito. Pare de precificar IA na cadência do seu ano fiscal. Comece a precificar na cadência em que os labs operam, que é semanal. Os três sinais desta semana não são exceção. São a nova média. Um plano de procurement que não absorve três sinais independentes de preço por semana é um plano que vai estar errado na segunda renovação.

O terceiro movimento é governança. Gasto de tokens é agora pauta de conselho. Não porque os números são grandes, embora sejam. Porque a estrutura da conta está mudando mais rápido que a estrutura da empresa. Conselhos existem para enxergar esse tipo de descompasso. Se o seu conselho ainda não viu um briefing de economia de tokens, o próximo já está atrasado.


Fontes

A Victorino ajuda empresas a operacionalizar governança de custo de tokens antes do próximo reajuste atingir o P&L: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa