- Início
- The Thinking Wire
- IER Saudável em IA-Nativa É 5:1. Quase Ninguém Calcula Antes de Lançar.
IER Saudável em IA-Nativa É 5:1. Quase Ninguém Calcula Antes de Lançar.
Ben Murray, autor do The SaaS CFO, publicou o texto mais limpo de governança financeira para recursos de IA que li este ano. Ele chama a métrica de Inference Efficiency Ratio, ou Índice de Eficiência de Inferência (IER), e propõe que ela seja uma porta de lançamento. Não um quadradinho em dashboard. Não um item de revisão trimestral. Uma porta. Se o índice está abaixo do limite, o recurso não vai ao ar.
A maior parte dos recursos de IA em 2026 vai ao ar sem ninguém ter calculado o número.
A fórmula é intencionalmente entediante.
Índice de Eficiência de Inferência (IER) = Receita do Produto de IA / Custo de Inferência
Receita atribuível ao recurso de IA em cima. Gasto de inferência (chamadas de API de modelo, tempo de GPU, consultas vetoriais, toda a pilha de servir o modelo) embaixo. Um número. O índice responde a uma pergunta que o CFO já sabe fazer em qualquer outra linha de negócio: para cada real que gasto entregando isto, quantos reais entram?
O que me surpreendeu não é a fórmula. É quão poucos times produzem o número antes do lançamento.
Por Que Análise de Margem Não Dava Mais Conta
A frase de Murray é direta: “A questão não é que IA seja cara. A questão é que a maioria das empresas de SaaS não tem outro framework além de análise de margem para medir se o gasto com IA é eficiente.”
Análise de margem assume que você conhece o custo unitário. No SaaS tradicional, você conhece. Hospedagem, suporte e licenciamento por assento são estáveis. Define o preço, conhece o custo, a margem bruta cai como consequência. A faixa de 75 a 85 por cento de margem bruta que definiu o SaaS por uma década foi construída sobre previsibilidade de custo, não sobre minimização de custo.
Produtos de IA quebram essa lógica. O custo de inferência se mexe com formato de uso, comprimento de prompt, escolha de modelo e comportamento de cache. Dois clientes pagando a mesma assinatura podem gerar contas de inferência 50 vezes diferentes. Um usuário intenso em um modelo de raciocínio pode jogar a margem para o vermelho em uma única chamada. Margem média não diz nada sobre quais recursos estão sangrando e quais estão saudáveis.
Murray cita o dado que ganhou a imprensa financeira: empresas de SaaS IA-nativas estão operando a aproximadamente 52 por cento de margem bruta em 2026, contra a faixa tradicional de SaaS de 75 a 85 por cento. As startups de IA que escalaram mais rápido (as que chegaram a US$ 100 milhões de ARR em 18 meses) ficaram em torno de 25 por cento. Inferência agora consome 20 a 23 por cento do custo total do produto de IA em estágio de escala. A linha de custo saiu de erro de arredondamento para a segunda maior despesa variável, e a maioria dos CFOs não tem visão por recurso desse custo.
Os Benchmarks Agora Existem
O que Murray acrescenta além da fórmula é a grade de benchmarks. Comparáveis de mercado agora existem para as duas arquiteturas. Dois tipos de produto, três faixas cada um.
| Tipo de produto | Alerta | Alvo | Saudável |
|---|---|---|---|
| IA-infundida (recurso de IA dentro de SaaS tradicional) | < 5:1 | 8:1 | 10:1 ou mais |
| IA-nativa (produto inteiro é a IA) | < 3:1 | 4:1 | 5:1 ou mais |
A assimetria entre os dois é o ponto. Um produto IA-infundido, em que o modelo é um recurso dentro de um negócio de software com economia de margem normal, só absorve custo de inferência mais alto se a receita ao redor diluir a conta. A barra saudável é 10:1 porque o negócio em volta precisa que o recurso de IA pague seu lugar contra tudo o mais financiado pelo mesmo real.
Um produto IA-nativo é o inverso. A linha inteira de receita está exposta à inferência. Não há negócio em volta para subsidiar. Um índice de 5:1 é saudável aqui porque a arquitetura não tem mais nada para amortizar. Abaixo de 3:1 e a economia unitária está de cabeça para baixo antes do custo de aquisição de cliente entrar na conta.
As “startups de IA que escalaram mais rápido a 25 por cento de margem bruta” estão sentadas dentro ou abaixo da faixa de alerta na matemática IA-nativa. Isso não é uma história de crescimento. É uma história de runway vestida de história de crescimento.
Por Que Isso É Governança Financeira, Não Higiene de Engenharia
Já escrevemos sobre o lado do engenheiro deste tema duas vezes. A realidade de custo de IA dos engenheiros em 900 respondentes mostrou como os colaboradores individuais estão absorvendo choques de uso que não conseguem modelar. A margem bruta negativa da Cursor mostrou o sintoma de inversão do SaaS no nível da empresa. Os dois textos rastrearam consequências. Nenhum entregou a alavanca.
O IER é a alavanca. É um ponto de controle do CFO que fica antes do lançamento, não depois. A disciplina que ele impõe:
- Todo recurso de IA carrega um modelo de atribuição de receita. Se você não sabe quais reais o recurso ganhou, não calcula o índice.
- Todo recurso de IA carrega um modelo de custo por chamada. Faturas do provedor sozinhas não bastam; é preciso alocação por recurso, por coorte, idealmente por cliente.
- O índice é calculado antes do lançamento com uso projetado, e recalculado mensalmente com uso real.
- Um recurso cujo índice fica abaixo do alerta recebe uma mudança de preço, uma troca de modelo, uma camada de cache, ou é desligado. Não passa na inércia.
Essa é a disciplina que a área financeira aplicou a toda outra linha de custo variável do negócio. Comissão de vendas tem atribuição. Gasto de marketing tem ROAS. Infraestrutura de nuvem tem custo unitário por requisição. Inferência tem… uma fatura de fim de mês e uma mensagem no chat dizendo “está tudo bem”.
A Leitura “Governança Além da Engenharia”
O tema recorrente em 2026 é que governança de IA não é mais responsabilidade exclusiva do CTO. Marketing tem Agent Guidance. Jurídico tem políticas de uso de modelo. Design tem restrições no nível do sistema. Financeiro agora tem IER.
Cada um desses é o mesmo padrão: uma função que tradicionalmente media resultados depois do fato ganha um ponto de controle pré-execução porque IA move custo e risco rápido demais para que medição retrospectiva ainda importe. Os CFOs que instalarem IER como porta de lançamento neste trimestre vão parecer presciência daqui a dezoito meses. Os CFOs que verem a linha de inferência pela primeira vez em um deck de board porque ela dobrou vão passar o trimestre seguinte explicando o que mudou.
O texto de Murray faz pelo financeiro o que um bom runbook faz pela área de SRE. Nomeia a métrica, define os limites e coloca a métrica na frente da ação.
Instale o IER Esta Semana
Três passos. Nenhum exige ferramenta nova.
Passo 1: Escolha um recurso de IA e calcule o IER dele. Use o último mês completo de receita atribuível (contribuição da assinatura, receita por uso, ou uma alocação defensável se vier empacotado). Use o último mês completo de custo de inferência das faturas do provedor, alocado para esse recurso. Divida. Anote o número. Compare com a tabela acima.
Passo 2: Decida onde a porta de lançamento fica. IA-infundida ou IA-nativa? Suas barras de alerta, alvo e saudável são diferentes. Seja honesto sobre qual arquitetura o recurso é de fato, não qual arquitetura o deck de marketing diz que é. Se o recurso exige que o modelo faça o trabalho, é matemática IA-nativa, mesmo que viva dentro de um produto IA-infundido.
Passo 3: Faça do IER um critério de lançamento para o próximo recurso de IA do roadmap. Não uma métrica para monitorar. Uma porta para passar. O time de produto traz receita projetada e custo de inferência projetado. Financeiro calcula o índice. Abaixo do alerta, o recurso não vai ao ar. A conversa muda para preço, cache, escolha de modelo ou redução de escopo.
Se o time não consegue projetar receita e custo nessa granularidade, esse é o achado. O recurso vai ao ar no escuro, e a fatura da nuvem é o único loop de feedback.
Os CFOs que ganharem os próximos dois anos de economia de produto de IA não são os que bloqueiam gasto com IA. São os que instalaram uma métrica que o resto da empresa precisa de fato passar antes que o gasto aconteça.
Fontes
- The SaaS CFO. “How to Calculate the Inference Efficiency Ratio.” Maio de 2026.
A Victorino apoia CFOs e lideranças de produto a instalar o IER como porta de lançamento antes que a conta de nuvem escreva o postmortem: contato@victorino.com.br | www.victorino.com.br
Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →
Se isso faz sentido, vamos conversar
Ajudamos empresas a implementar IA sem perder o controle.
Agendar uma Conversa