A Meta matou seu placar de tokens. Uso nunca foi impacto.

O placar interno de IA da Meta registrou 73,7 trilhões de tokens consumidos em cerca de 30 dias. A empresa apelidou o ranking de Claudeonomics. Depois o CTO escreveu um memorando para cerca de 6.000 funcionários dizendo que o número não media nada.

O dado dos tokens foi reportado pelo The Decoder. O memorando, reportado pelo The Information, chegou enquanto os custos de IA na Meta se aproximavam de bilhões de dólares para 2026. Andrew Bosworth, o CTO, resumiu a correção em uma linha: nem todo movimento é progresso, e o uso de tokens, sozinho, não é medida de impacto de tipo algum.

O memorando funciona como obituário de uma métrica que o próprio autor ajudou a popularizar. A Meta construiu o placar, viu-o produzir consumo recorde e então confirmou por escrito que o consumo não dizia nada sobre se todo aquele movimento gerava valor. O maior gastador da sala foi o primeiro a dizer que o placar estava quebrado.

A lei que quebrou o placar

Charles Goodhart, economista britânico, nos deu a regra em 1975: quando uma medida vira alvo, ela deixa de ser uma boa medida. Aponte uma recompensa para um indicador substituto e as pessoas otimizam o substituto, não a coisa que ele deveria representar. O substituto infla. O valor por baixo dele fica parado.

Consumo de tokens é um substituto de manual. É fácil de contar, sobe rápido e parece esforço. Então, quando as empresas começaram a ranquear engenheiros por tokens queimados, o número fez exatamente o que Goodhart previu. Subiu. Um placar recompensa o comportamento que mede. Aqui, o comportamento medido é o gasto, e a entrega fica de fora da conta. Você gamifica o uso, você colhe uso.

Escrevemos sobre a ascensão desse jogo em Tokenmaxxing: orçamentos de tokens virando símbolo de status, placares de consumo se espalhando por Meta, OpenAI e Shopify. Aquele texto rastreou a tendência na subida. Este é o maior praticante da tendência puxando o fio da tomada. A correção veio de dentro de casa, da empresa cujo placar produziu 73,7 trilhões de tokens em um mês.

O problema era o instrumento, não a fatura. Gastar em IA pode ser a decisão certa. A métrica que a Meta escolheu para justificar esse gasto era estruturalmente incapaz de justificar qualquer coisa. Um número que só sobe não consegue dizer quando parar, quando redirecionar, nem se o último dólar comprou algo de fato.

O gasto corre à frente da evidência

Muitas empresas gastam como a Meta. Poucas admitem o descompasso em voz alta.

A Uber esgotou todo o seu orçamento de IA para código de 2026 em quatro meses e teve de limitar cada engenheiro a US$ 1.500 por mês. Cerca de 70% do código submetido na Uber já é gerado por IA. Ainda assim, como o COO Andrew Macdonald disse à Fortune, o vínculo entre esse gasto e o resultado “ainda não está lá”. Uma empresa pode empurrar IA pela maioria da sua base de código e continuar sem conseguir traçar uma linha reta entre custo e valor.

A cegueira é quase universal. Apenas 26% das empresas têm visibilidade abrangente dos próprios custos de IA, segundo a KPMG. A maioria das organizações não enxerga o denominador, muito menos o numerador. A pesquisa State of AI 2025 da McKinsey apontou que 88% das organizações já usam IA em pelo menos uma função, enquanto só 39% relatam algum impacto no EBIT vindo dela. A adoção está perto da saturação. O retorno financeiro fica muito atrás.

O custo humano de perseguir o substituto também aparece. A pesquisa State of the Creative Industry 2026 da Creative Boom (882 respondentes) apontou que 86% dos profissionais criativos usam IA, apenas 10% acreditam que o efeito geral sobre o setor é positivo e 69% relatam esgotamento. Uso e benefício são coisas diferentes. Quando a ferramenta é obrigatória e o valor não está comprovado, o número no placar sobe enquanto as pessoas por trás dele se desgastam.

O artefato que substitui o placar

Matar uma métrica ruim deixa um vácuo. Alguma coisa precisa responder “isto está funcionando?”. Os times que extraem valor real estão trocando contagens de uso por pontuação de resultado com trava de evidência, e o exemplo publicado mais claro vem da Ably.

O time de engenharia da Ably jogou fora as métricas de volume e montou um placar em torno de duas perguntas, cada uma pontuada em uma escala ancorada de 1 a 5. Primeira: que novos resultados a IA destravou que antes não eram possíveis? Segunda: quão profundamente a IA está embutida na forma como o time realmente trabalha? Os líderes de engenharia revisam as notas mensalmente.

O mecanismo que faz isso funcionar é a trava. Uma nota não sobe porque alguém se sentiu mais produtivo ou porque o uso de tokens cresceu. Ela sobe apenas quando há um exemplo concreto de um novo resultado. Sem exemplo, sem aumento. Essa única regra inverte Goodhart. O alvo deixa de ser um substituto que você infla gastando mais. O alvo passa a ser um resultado específico, nomeável, que você produziu ou não.

Repare no que o placar se recusa a medir. Ele ignora tokens, commits e horas economizadas numa planilha que ninguém validou. Ele mede se o trabalho andou, e exige prova antes de creditar o avanço. Uma escala ancorada, mais uma trava de evidência, mais uma cadência humana de revisão é um instrumento muito mais barato que um painel de tokens em tempo real, e responde à única pergunta que importa.

É a mesma disciplina que defendemos na visão estreita do valor de IA: uma única métrica estreita te dá um retrato confiante, preciso e errado. E complementa a disciplina de custo do fim da era do flat-fee. A governança de custo diz o que você está gastando. A pontuação de resultado diz se o gasto comprou algo. Você precisa dos dois instrumentos, apontados para os dois lados do balanço.

Faça isto agora

Encontre sua métrica de uso e audite-a contra Goodhart. Se o seu time reporta consumo de tokens, taxa de adoção de ferramentas de IA ou “percentual de código gerado por IA” como sinal de progresso, você está medindo o substituto. Faça uma pergunta a cada métrica: esse número pode subir sem que nenhum valor novo seja criado? Se a resposta for sim, é um placar, e ele vai inflar.

Depois construa o substituto antes de apagar o antigo. Escolha duas perguntas de resultado com que sua liderança de fato se importa. Pontue-as numa escala ancorada. Trave cada aumento de nota atrás de um exemplo concreto e nomeado de um resultado que antes não existia. Revise mensalmente com um humano na sala. É uma reunião e um documento compartilhado. Custa menos que o painel que você está aposentando e, ao contrário dele, consegue dizer quando parar.

A Meta tinha o maior placar de tokens do setor e o memorando que o encerrou. O instrumento que o substitui é um placar barato o bastante para rodar numa planilha e honesto o bastante para dizer não. Nada de telemetria mais cara.

Fontes

MLQ.ai. “Meta caps internal AI token spending after costs approach billions in 2026.” Junho de 2026.
Ably. “Is AI making your teams better, or just busier?.” Junho de 2026.
Creative Boom. “The State of the Creative Industry 2026.” Junho de 2026.

A Victorino ajuda organizações a trocar métricas de uso de IA por pontuação de resultado com trava de evidência, capaz de sobreviver à lei de Goodhart: contato@victorino.com.br | www.victorino.com.br