Duas Formas de Medir Adoção de IA, Ambas Quebradas

Mande sua equipe usar IA e observe duas coisas acontecerem ao mesmo tempo. Os colegas marcam, em silêncio, como preguiçoso quem admite usar a ferramenta. A liderança começa a contar tokens. As duas reações apareceram na mesma semana, em pontas opostas do organograma, e as duas destroem aquilo de que a governança de IA realmente precisa: gente disposta a dizer o que de fato está fazendo.

O Teamwork Lab da Atlassian rodou um experimento controlado. Gergely Orosz publicou uma dissecação da área de engenharia da Meta. Lidos juntos, os dois mapeiam os dois modos de falha de medir trabalho humano e de IA. Um vem dos pares. O outro vem do topo. Nenhum produz um número em que dá para confiar.

A punição dos pares: honestidade lida como preguiça

O Teamwork Lab da Atlassian manteve o resultado do trabalho constante. Mesmo entregável, mesma qualidade, 961 participantes. A única variável era se a pessoa revelava ter usado IA para produzi-lo. Revelar custava caro. Os pares avaliaram quem revelou o uso como 10 vezes mais preguiçoso que a pessoa idêntica que não revelou, e 24 pontos percentuais menos provável de ser recomendada para projetos de alta visibilidade.

O resultado era igual. O julgamento, não. O que foi punido foi a admissão.

Isso contraria a mensagem oficial. Uma pesquisa de pulso separada, também da Atlassian, mediu o uso de IA entre profissionais do conhecimento nos EUA em 94 por cento. Quase todo mundo usa. Quase ninguém é recompensado por dizer isso em voz alta. Molly Sands, que lidera o Teamwork Lab, resumiu a contradição sem rodeios: “As empresas estão dizendo à equipe para usar IA, mas os funcionários estão punindo uns aos outros por serem honestos sobre isso.”

Vale nomear o incentivo da fonte. A Atlassian vende software de colaboração corporativa e tem interesse comercial em qualquer narrativa de “IA no trabalho.” O experimento é original e o desenho é sólido, mas um fornecedor que o conduz não é parte neutra. O achado se sustenta mesmo assim, porque o mecanismo é familiar a qualquer jogo de status dentro de uma empresa.

O mecanismo é o que importa. Quando ser honesto sobre um comportamento te rende a fama de preguiçoso e te tira dos trabalhos visíveis, o comportamento não para. Ele fica quieto. As pessoas continuam usando as ferramentas e param de reportar. O único ponto positivo nos dados da Atlassian aponta na mesma direção: a punição por preguiça quase some nas empresas que celebram ativamente o uso de IA. Onde a liderança torna a revelação segura, o estigma desaba. Onde fica no ar, o uso submerge. Essa é a dinâmica de shadow AI que tratamos em Shadow AI É o Sintoma, Não a Doença, agora com um número controlado anexado à causa.

A versão de cima para baixo: contar como controle

A Meta pegou o caminho oposto e chegou ao mesmo lugar quebrado. A reportagem de Orosz descreve engenheiros gerando 60,2 trilhões de tokens de IA em 30 dias, cerca de 900 milhões de dólares a preço de tabela se você comprasse esse volume no varejo. O número é apresentado internamente como prova de adoção. Ele prova consumo, que é outra coisa.

Um token mede insumo, e adoção é resultado. Contar tokens para medir valor de engenharia é como contar teclas digitadas para medir escrita, ou contar reuniões para medir decisões. A métrica recompensa volume, e as pessoas otimizam para aquilo que você recompensa. Atrele a contagem de tokens à avaliação de desempenho, o que a Meta teria feito, e você não mediu adoção. Você fabricou adoção.

A vigilância foi além da contagem. Segundo a reportagem, a Meta adicionou rastreamento obrigatório de teclas e mouse, sem opção de recusa, e realocou cerca de 6.500 engenheiros, algo como um a cada cinco ou seis, para uma nova área de Agent Data Optimization. Um engenheiro descreveu a realocação à Wired em termos duros: “É literalmente o gulag. Você perde todo o propósito de vida de uma hora para outra.” (Isso é jornalismo agregando fontes internas e reportagens da Reuters e da Wired, não um estudo medido. Trate os números como reportados, não auditados.)

Sejam quais forem os números exatos, a intenção do desenho é legível. Medir atividade, impô-la via monitoramento, atrelá-la à carreira. O resultado previsível é o mesmo da punição dos pares, alcançado pelo outro lado. As pessoas performam a métrica. Um engenheiro que sabe que os tokens alimentam sua avaliação vai queimar tokens. O sinal que você coleta diz o quanto as pessoas estão burlando o sinal, e nada sobre se o trabalho melhorou.

O mesmo estrago pelos dois lados

O estigma de baixo para cima empurra o uso real para a clandestinidade. A vigilância de cima para baixo puxa o uso fingido para a superfície. Mecanismos diferentes, dano idêntico: o número deixa de descrever a realidade.

A governança precisa do oposto. Todo framework que merece o nome, da política interna de IA à ISO 42001, funciona com um relato honesto do que pessoas e sistemas realmente fazem. Não dá para governar um uso clandestino que você não enxerga, e não dá para governar um teatro que você confunde com sinal. As duas falhas de medição atacam o mesmo insumo. Elas corrompem a verdade de base antes que qualquer política tenha a chance de agir sobre ela.

O erro mais profundo também é compartilhado. As duas abordagens medem a unidade errada. O estigma dos pares julga o indivíduo pela aparência, ele admitiu usar a ferramenta. A Meta julga o indivíduo pela atividade, quantos tokens ele queimou. Aparência e atividade são as duas proxies, e as duas são fáceis de forjar. Argumentamos em O Índice de Honestidade que capacidade e confiança divergem quando você mede o sinal errado. Estigma e vigilância são dois exemplos em produção exatamente dessa divergência.

O que um placar que funciona mede

A unidade que resiste à burla é o time, e o que vale medir é o resultado. Não quem revelou. Não quantos tokens. Se o trabalho entregou, se sustentou e melhorou ao longo do tempo, com humanos e IA contados no mesmo placar.

Um placar de resultado no nível do time corrige as duas falhas de uma vez. Ele remove o jogo de aparência individual que alimenta o estigma dos pares, porque ninguém é avaliado por ter confessado o uso de uma ferramenta. Ele remove o teatro de atividade que alimenta a vigilância, porque volume de token é um insumo que o placar ignora. Sobra a pergunta que tanto a Meta quanto o colega ansioso tentavam responder e erraram: o trabalho está ficando melhor, e a mistura de esforço humano e de IA é a razão disso. Apresentamos o princípio de medição em Medindo IA no Desenvolvimento de Software; estigma e vigilância são as duas formas pelas quais as organizações estão errando hoje.

Isso também dissolve o problema da revelação. Quando o time é dono do resultado, revelar o uso de IA não carrega punição, porque o placar nunca pediu confissão ao indivíduo. A transparência deixa de ser um risco pessoal e vira um fato operacional compartilhado. Essa é a condição que a governança esperava.

Faça isto agora

Audite como a sua organização lê adoção de IA hoje. Se a resposta for um painel de uso, uma contagem de tokens, ou uma sensação informal de quem está “apoiado demais na IA,” você está medindo aparência ou atividade, e está treinando seu pessoal a esconder ou a performar. Troque a visão de atividade individual por uma visão de resultado de time: escolha um time, defina o que entregou e se sustentou ao longo de um trimestre, e meça a unidade de trabalho em vez da pessoa. Torne a revelação sem custo antes de pedir honestidade a alguém, porque os dados mostram que, do contrário, ela não vem.

Fontes

Atlassian Teamwork Lab. “New Research Shows Honesty About AI Use at Work Is Backfiring.” Junho de 2026.
The Pragmatic Engineer. “Why Is Meta Destroying Its Engineering Organization?.” Junho de 2026.

A Victorino ajuda times a medir trabalho humano e de IA num placar neutro, sem estigma nem vigilância: contato@victorino.com.br | www.victorino.com.br