Quando a Microsoft não absorve a conta, seu CFO já decidiu

TV
Thiago Victorino
6 min de leitura
Quando a Microsoft não absorve a conta, seu CFO já decidiu

Três sinais independentes caíram em dez dias. Eles não se anunciam como relacionados. São.

Em 14 de maio, o The Verge reportou que a Microsoft está cancelando licenças do Claude Code para milhares de engenheiros da organização Experiences and Devices. Windows. Microsoft 365. Outlook. Teams. Surface. As licenças foram distribuídas em dezembro de 2025. Menos de seis meses depois, fontes internas disseram a Tom Warren que o corte estava marcado para o fim de junho de 2026, e que a decisão era, ao menos em parte, financeira.

Em 19 de maio, James Wang, no Weighty Thoughts, publicou uma análise mostrando que de 67% a 75% da queda anual de preço em inferência vem de software, não de hardware. O mesmo texto reporta que o Qwen 3.6 27B, modelo open-weight rodando em uma RTX 3090 Ti de 2022, hoje empata com o Claude Sonnet em tarefas relevantes para produção: briefings diários, anotação de gráficos e triagem de pesquisa.

Em 24 de maio, o TheNextWeb confirmou que a DeepSeek tornou permanente o corte de 75% no V4 Pro. Novo piso: US$ 0,003625 por milhão de tokens de input, US$ 0,87 por milhão de output. A mesma carga que custa US$ 2,50 in / US$ 10,00 out no GPT-5, ou US$ 5,00 / US$ 25,00 no Claude Opus 4.7, agora roda em um modelo de fronteira chinês por frações de centavo.

Lidos nos dias em que saíram, são três conversas diferentes. Lidos juntos, são uma só: a premissa de que o preço de API fechada na fronteira é o piso do seu custo de IA acabou de quebrar. A Microsoft, a empresa com o maior desconto possível com o segundo maior fornecedor do mercado, decidiu que a conta estava alta demais. Esse é o canário.

A maioria do barateamento é software, e isso muda a estrutura

O número que importa na análise do Wang não é a manchete da queda. É a decomposição.

Por três anos, “LLMflation” foi tratada como história de hardware. Chips melhores, mais chips, roadmap da Nvidia, yield da TSMC. A narrativa de “1000x em três anos” de Guido Appenzeller carregava essa premissa implícita. O que estava barateando era silício. Bastava esperar o próximo nó e a próxima geração.

A medição do Wang inverte isso. De dois terços a três quartos do barateamento vem de software: eficiência de dados de treino, destilação, roteamento MoE, decodificação especulativa, compressão de KV-cache, quantização e o próprio stack de inferência. O hardware contribui com o restante.

Isso importa por uma razão. Ganho de hardware compõe no ritmo da fundição, e quem captura é a nuvem dona do silício. Ganho de software compõe no ritmo da comunidade open-source, e quem captura é quem consegue rodar inferência, inclusive você, em hardware commodity, no seu datacenter. Quando a curva é puxada por software, on-prem deixa de ser penalidade de custo. Vira opção de paridade com superfície de controle diferente.

E essa paridade já não é teórica. A afirmação do Wang é específica. Qwen 3.6 27B em uma GPU gamer de quatro anos empata com o Sonnet em três famílias de tarefa nomeadas. Não em benchmarks de código. Não em olimpíadas de matemática. Nas cargas reais que a maioria das empresas compra modelo de fronteira para fazer: resumo de briefing, leitura de gráfico, triagem de pesquisa. O custo de hardware da paridade é uma 3090 Ti usada, cerca de US$ 700 no mercado secundário. O custo recorrente é eletricidade, que o Wang precifica em US$ 0,20 a US$ 0,50 por milhão de tokens em inferência open-weight na nuvem.

Por três anos, o argumento de on-prem foi “talvez você economize em dois anos se a hyperscaler continuar subindo preço”. Para o Q3 de 2026, o argumento é “você empata com a saída da API fechada hoje, a custo de eletricidade, em hardware que talvez você já tenha”.

A Microsoft é o canário

Agora sobreponha o sinal do Verge. A Microsoft tem os melhores termos comerciais possíveis com a Anthropic. É o bolso mais fundo da indústria. Seus desenvolvedores são, possivelmente, os usuários corporativos mais agressivos de IA no mundo. E ela decidiu que a conta de Claude Code por assento, seis meses depois, não fechava.

A matéria do Verge é cuidadosa. Cita duas razões: o alinhamento estratégico da Microsoft com suas próprias ferramentas internas de código e integrações OpenAI, e o custo. As duas não se separam. A razão de custo existe porque as alternativas são reais. Se a Anthropic fosse o único fornecedor viável de fronteira, a Microsoft absorveria a conta como as empresas absorveram Oracle por duas décadas. Não é, e a Microsoft fez a matemática.

Essa matemática agora está disponível para qualquer CFO. Se a Microsoft não absorve uma conta de Claude Code por assento na escala de hyperscaler, sua área financeira não deveria assumir que a sua casa absorve na escala corporativa. A pergunta certa deixou de ser “quanto a gente consegue negociar o preço por assento”. Virou “qual é o portfólio multi-modelo que nos mantém dentro do envelope de custo quando nosso uso dobrar, e ele vai dobrar”.

Esse é o ponto de convergência. DeepSeek mostra que o piso da API fechada está se movendo. Wang mostra que o teto open-weight alcançou tarefas reais. Microsoft mostra que o maior cliente do mercado já está roteando por fora. Três sinais, três fontes, uma conclusão: IA fechada, fornecedor único, virou posição, não default.

Framework de avaliação para o Q3 de 2026

Um framework que sobrevive a essa reprecificação tem três camadas. Não são glamourosas. São o que sua área financeira vai pedir no próximo trimestre.

Camada um: benchmark de custo por tarefa, não por assento. Pare de precificar IA por assento. Precifique por tarefa. Um resumo de briefing diário de 8.000 tokens in e 1.500 tokens out custa US$ 0,035 no Claude Opus 4.7, US$ 0,012 no GPT-5, US$ 0,001 no Gemini 3.5 Flash, e essencialmente eletricidade em um Qwen self-hosted. Multiplique pelo seu volume semanal e a licença por assento vira erro de arredondamento ou prêmio de 10x, dependendo de qual tarefa em qual modelo. Sua área financeira precisa ver essa grade antes da próxima renovação.

Camada dois: portfólio de três faixas de modelo, roteado por tarefa. Faixa um é fronteira-fechada (Claude, GPT-5, Gemini Pro) para o trabalho que realmente exige o teto: raciocínio novo, geração de alto risco, orquestração complexa de ferramentas. Faixa dois é fechada-média (Flash, Haiku, GPT-5 mini) para o alto volume de rotina: extração, classificação, formatação, drafts simples. Faixa três é open-weight self-hosted ou cloud barata (Qwen, Llama, DeepSeek) para as cargas onde a paridade do Wang se sustenta: briefing, triagem, anotação, Q&A interno. A lógica de roteamento é a camada de governança. Sem ela, você vai de default para a faixa um em tudo e paga a conta da Microsoft.

Camada três: avaliação de on-prem, com números reais. Não slide de estratégia. Modelo real de compra. Quanto custa subir um nó único de inferência capaz de servir 100 usuários internos no Qwen 3.6 27B? Hardware: US$ 4.000 a US$ 8.000 por servidor GPU de geração atual. Energia: US$ 300 a US$ 600 por mês. Engenharia: um engenheiro de infraestrutura a 20% de alocação no primeiro trimestre, 5% em regime permanente. Total Ano 1: US$ 40.000 a US$ 70.000. Compare com 100 assentos de Claude Code a US$ 200 por assento por mês, que dá US$ 240.000 por ano. A matemática não exige otimismo. Exige aritmética.

Faça isto agora

Três ações, neste trimestre, antes que o orçamento do Q3 feche.

Primeira: liste suas 10 maiores cargas de IA por volume de tarefa e modelo atual. Se você não tem essa lista, seu orçamento de IA é opinião, não medição. Monte a grade.

Segunda: rode um teste paralelo de inferência por uma semana nas três maiores cargas, usando um modelo de fronteira, um modelo de custo médio e um open-weight. Pontue por qualidade de saída, latência e custo por tarefa. O resultado vai te surpreender em pelo menos uma direção. Sempre surpreende.

Terceira: peça à sua equipe de infraestrutura um modelo de custo on-prem de uma página para as cargas onde a paridade open-weight se sustenta. Não é compromisso. É número. Coloque ele ao lado da cotação de renovação da API fechada quando ela chegar.

Os líderes que sobrevivem à reprecificação da curva de custo não vão ser os que escolheram o fornecedor certo em 2024. Vão ser aqueles cujo portfólio foi construído para assumir que o piso ia se mover, o teto ia descer, e o maior cliente do mercado ia fazer a conta antes deles. O cancelamento da Microsoft não é exceção. É indicador líder. Os CFOs que leram o sinal em maio vão renegociar em julho. Os que não leram vão absorver a conta até a sangria forçar a conversa.

A decisão que a Microsoft tomou em maio é a decisão que seu CFO vai tomar até o Q4. Se você traz o framework ou se o framework é imposto sobre você, isso é a única coisa ainda aberta.


Fontes

A Victorino apoia líderes de finanças e engenharia no desenho de portfólios multi-modelo de IA que sobrevivem à reprecificação da curva de custo: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa