Três Empresas, Uma Mesma Falha: a Lei de Goodhart Chegou à Adoção de IA

TV
Thiago Victorino
7 min de leitura
Três Empresas, Uma Mesma Falha: a Lei de Goodhart Chegou à Adoção de IA
Ouvir este artigo

Três confissões chegaram na mesma semana. A Meta desligou silenciosamente seu leaderboard interno de consumo de tokens, o mesmo painel que, há dois meses, era o exemplo mais citado de como big techs recompensam o uso agressivo de IA. Funcionários da Amazon disseram à imprensa que estão “tokenmaxxando” sob pressão de uma ferramenta interna chamada MeshClaw e de rankings de uso. O CEO do Duolingo, von Ahn, sentou no podcast Rapid Response da Fast Company e retratou publicamente o famoso memo “AI-first” que viralizou no ano passado, admitindo que a IA ainda produz “muita lama” e que o enquadramento estava errado, mesmo quando a prática não estava.

Três empresas. Três forçadores diferentes. Mesma falha.

Quando uso de IA vira métrica, funcionários otimizam a métrica. A qualidade fica de lado ou cai. O leaderboard continua subindo.

Isso é a Lei de Goodhart colidindo com a adoção de IA. O Engineer’s Codex trouxe o enquadramento em 7 de maio e é a lente correta: “quando uma medida vira um alvo, ela deixa de ser uma boa medida.” O efeito cobra com roupa de token.

Já nomeamos o padrão operacional em A Inflexão da Força de Trabalho IA em março. O que mudou em maio foi a postura pública. Empresas que se orgulhavam dos seus leaderboards agora os estão desmontando, e o CEO que transformou adoção em memo viral está editando a própria mensagem em rede nacional. O padrão deixou de ser descoberta. Virou confissão.

A reversão da Meta

O Engineer’s Codex reportou o desligamento primeiro, e o detalhe que importa não é o desligamento em si. É o motivo. A Meta não matou o leaderboard porque alguém escreveu um memo interno sobre a Lei de Goodhart. Matou porque, segundo o relato, engenheiros estavam queimando milhões de tokens com “literalmente zero produtividade.” O leaderboard funcionava exatamente como tinha sido desenhado. Esse era o problema.

Leia a sequência com atenção. Primeiro a empresa construiu um sistema de medição que transformou consumo de token em competição visível por status. Depois, previsivelmente, os funcionários competiram. Escreveram prompts mais longos. Rodaram mais agentes. Deixaram janelas de contexto abertas. Inflaram o uso da mesma forma que engenheiros inflavam “linhas de código commitadas” nos anos noventa quando essa era a métrica de avaliação. Nada disso exigiu má-fé. Exigiu apenas que humanos respondam a incentivos, o que sempre acontece.

O leaderboard não media produtividade. Media a assinatura visível do consumo de tokens, que se correlaciona com produtividade em alguns casos e não se correlaciona em muitos outros. Quando a assinatura virou o alvo, a correlação quebrou.

Goodhart publicou a formulação original em 1975 no contexto de política monetária. O efeito cobra, a história colonial da recompensa por cobras mortas em Delhi que terminou com cidadãos criando cobras para coletar o prêmio, é a mesma ideia contada com serpentes. Leaderboards de token são a mesma história contada com GPUs.

O que veio da Amazon

A reportagem da Ars Technica, conforme a descrição do TLDR (o corpo do artigo travou em desafio anti-bot quando tentamos acessar diretamente), descreve funcionários da Amazon “tokenmaxxando” sob pressão de tooling interno. Dois sinais ficam claros pelo relato.

Primeiro, a Amazon, segundo a reportagem, mantém seus próprios leaderboards internos de uso, com desenho semelhante ao sistema que a Meta acabou de abandonar. Segundo, o relato menciona “MeshClaw” como uma ferramenta que empurra funcionários para uso de IA no fluxo diário de trabalho, e a expressão “uso performático” aparece no entorno da discussão. Performático é a palavra operativa. Funcionários, segundo o relato, rodam fluxos de IA porque o próprio fluxo sinaliza conformidade com a métrica de adoção, não porque ele tenha produzido um resultado melhor do que a alternativa.

Trate as especificidades do MeshClaw com cuidado, porque não lemos o original. Trate o padrão como confirmado, porque ele agora aparece em três empresas diferentes de forma publicamente documentada.

O que a situação da Amazon adiciona à história da Meta é duração. A Meta percebeu o comportamento de gamificação e puxou o leaderboard. A Amazon, conforme a reportagem, ainda está rodando o sistema. O custo visível só se acumula. O desmonte eventual, se e quando vier, vai ser mais caro do que o da Meta, porque os comportamentos incentivados tiveram mais tempo para se cristalizar em norma de time.

A retratação do Duolingo

A história do Duolingo é estruturalmente diferente, e é exatamente por isso que ela importa.

Von Ahn, CEO do Duolingo, mandou um memo “AI-first” no ano passado declarando que a empresa seria IA primeiro. O memo vazou, virou meme, e foi o exemplo canônico de executivo forçando adoção de IA por decreto. No Rapid Response da Fast Company, em 13 de maio, von Ahn retratou publicamente o enquadramento.

A admissão dele tem três partes. O enquadramento estava errado. A IA ainda produz “muita lama.” E, na parte que surpreendeu a maioria dos observadores, o Duolingo nunca demitiu ninguém em função do memo, e na verdade aumentou o headcount no período seguinte.

Essa é a refutação mais limpa possível da ideia de “mandato de adoção como governança.” O CEO que emitiu o ultimato de adoção de IA mais famoso do ciclo agora está dizendo, em registro público, que o ultimato era enquadramento ruim. Ele não está retraindo o uso de IA. Está retraindo a moldagem do uso de IA como fim em si mesmo.

O padrão por baixo das três empresas é o mesmo. Inputs foram batizados de resultados. Funcionários otimizaram os inputs. A qualidade ficou para trás. As empresas estão, cada uma do seu jeito, desfazendo a confusão.

Por que esse aglomerado é diferente

Em março documentamos o tokenmaxxing como sinal emergente. Em maio o aglomerado passou de observação para confissão. A diferença é pequena mas operacionalmente significativa.

Sinal pode ser ignorado. Confissão pública de três empresas, não. Se o Chief AI Officer de uma Fortune 500 vê a Meta desmontar o leaderboard, a Amazon ser reportada pelo mesmo comportamento, e um CEO retratar o memo de adoção de IA mais viral do ano, esse executivo agora fica exposto se continuar rodando uma métrica do tipo “input-como-resultado” dentro da própria organização. Acionistas, conselho, reguladores e funcionários estão lendo o mesmo ciclo de notícias.

O risco deixou de ser cometer o erro. O risco virou continuar cometendo o erro depois de três empresas pares admitirem publicamente que ele não funciona.

A lição não é “menos IA”

A tentação nesse tipo de ciclo é ler as notícias e concluir que adoção de IA foi um erro. Essa leitura está errada. O headcount do Duolingo subiu. Uso de IA na Meta e na Amazon não vai a zero. A tecnologia continua entregando valor quando aplicada a trabalho real.

A lição é mais estreita e mais difícil. Nunca deixe o input virar o resultado.

Consumo de token é input. Chamadas de ferramenta são input. Tempo dentro de um agente de código é input. Nenhum desses é resultado. Resultado é feature entregue que cliente usa, contrato fechado, ticket resolvido, ciclo mais curto em fluxo recorrente. A disciplina é manter as métricas de input para planejamento de capacidade e as métricas de resultado para avaliação e recompensa.

Quando as duas colapsam em um único número, você construiu uma fazenda de cobras.

Faça isso agora

Se a sua organização tem qualquer tipo de leaderboard de uso de IA, dashboard de adoção ou amarração de remuneração ao consumo de ferramentas de IA, rode esta verificação esta semana. Puxe os dez maiores usuários por volume de token. Puxe os dez menores usuários por volume de token no mesmo tipo de função. Olhe a entrega real deles no último trimestre. Não o input. A saída. Artefatos entregues, trabalho concluído, resultados visíveis para o cliente.

Se a correlação for fraca ou invertida, você tem o seu momento Meta. Desligue o leaderboard antes que ele apareça em uma entrevista da Fast Company daqui a dois trimestres.

Se a correlação for forte, você está em um dos casos raros em que o proxy de input efetivamente acompanha o resultado. Mantenha o painel, mas faça duas coisas. Publique a métrica de resultado lado a lado com a métrica de input, para que o input não possa se descolar do resultado sem ser percebido. E coloque o leaderboard num cronograma de aposentadoria. A Lei de Goodhart não está nem aí para o fato de que seu painel funcionou no trimestre passado. Quando a métrica vira o alvo, a decadência começa no ciclo seguinte de reporte.

O aglomerado desta semana não é uma história sobre IA. É uma história sobre medição. Medição é governança. Três empresas acabaram de contar a mesma história de governança em público.

A disciplina é aprender com a confissão delas, em vez de aprender com a sua.


Fontes

A Victorino ajuda times a desenhar métricas de adoção de IA que medem resultado, não input: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa