A McKinsey Mediu a Coisa Errada

Em novembro de 2025, a McKinsey publicou uma pesquisa com 300 executivos sobre o impacto da IA no desenvolvimento de software. A conclusão: ganhos de 16% a 45% em qualidade e produtividade. Números que justificam investimento, aceleram orçamentos e alimentam apresentações de board.

O problema está na metodologia. Os 300 executivos auto-reportaram os ganhos. Nenhum dado de produção foi coletado. Nenhum controle foi aplicado. Nenhuma métrica objetiva foi verificada.

A McKinsey perguntou a executivos se IA estava funcionando. Executivos disseram que sim. E a pesquisa transformou essas respostas em percentuais com uma casa decimal.

O Que Estudos Controlados Mostram

Quando pesquisadores medem em vez de perguntar, os números contam outra história.

O estudo da METR, publicado em 2025, é o único ensaio clínico randomizado sobre produtividade de desenvolvedores com IA. Desenvolvedores experientes, trabalhando em repositórios que já conheciam, foram 19% mais lentos com assistência de IA. O dado mais revelador: esses mesmos desenvolvedores acreditavam ser 24% mais rápidos.

A distância entre percepção e medição é de 43 pontos percentuais. Isso não é margem de erro. É ilusão operacional.

Em fevereiro de 2026, o NBER publicou uma pesquisa com 6.000 executivos de diversas indústrias. Mais de 80% reportaram zero ganho de produtividade com implementações de IA. Não ganhos modestos. Zero.

A pesquisa do NBER não é sobre software especificamente. É sobre IA corporativa em geral. E contradiz frontalmente a narrativa de ganhos consistentes que a McKinsey apresenta.

Dois Terços Rejeitados

Os dados da LinearB, baseados em 8,1 milhões de pull requests de 4.800 equipes de engenharia, adicionam uma métrica objetiva que nenhuma pesquisa de auto-relato pode contestar: a taxa de aceitação de PRs gerados por IA é 32,7%. Para PRs escritos manualmente, 84,4%.

Código de IA é rejeitado em dois terços das vezes. Não por preconceito dos revisores. Porque os revisores encontram problemas reais.

A pesquisa Sonar State of Code 2026, com 1.149 desenvolvedores, complementa: 96% não confiam plenamente no código gerado por IA. E 48% verificam sistematicamente o que a IA produz. A outra metade commita sem verificação completa.

Esses não são dados de opinião. São dados de comportamento medido em escala.

O Que a McKinsey Acerta

Seria desonesto descartar o relatório inteiro. A McKinsey identifica cinco fatores organizacionais que distinguem empresas com melhores resultados: capacitação estruturada, medição de resultados, gestão de mudança, implementação ponta-a-ponta e criação de papéis IA-nativos.

Esses fatores são direcionalmente corretos. E convergem com o que pesquisas independentes indicam. O relatório cita Tariq Shaukat, CEO da Sonar, dizendo que empresas devem “medir resultados, não adoção”. Esse princípio está correto.

Enquadrar IA como problema de modelo operacional, não de ferramenta, também está correto. A maioria das organizações trata IA como uma atualização de software. Compra licenças, distribui acessos, espera que a produtividade suba. Quando não sobe, compra mais licenças.

O problema é que a McKinsey aplica esse enquadramento correto sobre uma base de dados que não sustenta as conclusões quantitativas.

O Que a McKinsey Não Menciona

O relatório não contém nenhuma referência a riscos de qualidade ou segurança do código gerado por IA. A Veracode, em 2025, testou mais de 100 modelos de linguagem e encontrou que 40% a 48% do código gerado contém vulnerabilidades de segurança. Não bugs funcionais. Vulnerabilidades exploráveis.

Nenhuma menção às taxas de rejeição de PRs com IA. Nenhuma menção ao problema “quase certo” que o Stack Overflow documentou (66% dos desenvolvedores gastam mais tempo corrigindo código de IA do que gastariam escrevendo do zero). Nenhuma menção à ilusão de velocidade que o estudo METR quantificou.

O estudo de caso principal do relatório é a Cursor, uma startup de IA avaliada em 29,3 bilhões de dólares. Uma empresa IA-nativa, construída por engenheiros de elite, usando suas próprias ferramentas para seu próprio produto. Extrair lições dessa realidade para uma seguradora com 15 mil funcionários ou um banco com sistemas legados de 30 anos é, na melhor das hipóteses, aspiracional.

A Lógica Circular

Existe um padrão nas recomendações da McKinsey que merece atenção. Os cinco fatores organizacionais que o relatório identifica como determinantes de sucesso (capacitação, medição, gestão de mudança, implementação estruturada e redesenho de papéis) mapeiam com precisão os serviços que a McKinsey vende.

Isso não invalida as recomendações. Mas contextualiza. Quando uma consultoria publica pesquisa cujas conclusões apontam para os próprios serviços da consultoria, o leitor precisa aplicar um desconto de credibilidade. Os fatos podem estar corretos. A ênfase é comercial.

É o mesmo padrão que o CEO do Stack Overflow exibe quando diz que o problema de confiança em IA se resolve com “bases de conhecimento integradas”, exatamente o produto que o Stack Overflow vende. Diagnósticos que coincidem perfeitamente com o catálogo de serviços do diagnosticador pedem ceticismo, não cinismo, mas ceticismo.

A Velocidade das Ferramentas Versus a Velocidade da Governança

O relatório cita dados do Artificial Analysis mostrando que as ferramentas de IA para código dobraram de capacidade em um ano. Esse dado é verificável e relevante. As ferramentas estão melhorando rapidamente.

Mas velocidade de melhoria de ferramenta não é velocidade de melhoria de resultado. Uma ferramenta que gera código duas vezes mais rápido, se a taxa de vulnerabilidade permanece em 40-48%, gera vulnerabilidades duas vezes mais rápido. Sem infraestrutura de verificação, ferramentas melhores amplificam tanto a produção quanto os riscos.

O relatório trata a evolução tecnológica como progresso linear em direção a resultados melhores. A evidência empírica sugere algo diferente: ferramentas mais capazes exigem governança mais sofisticada, não menos.

A Distância Entre Percepção e Medição

A contribuição mais valiosa da pesquisa da McKinsey é acidental. Ao documentar que executivos percebem ganhos de 16-45% enquanto estudos controlados mostram 19% de lentidão e pesquisas amplas mostram zero ganho, o relatório ilustra com precisão o déficit de medição que existe na maioria das organizações.

Executivos acreditam que IA está funcionando porque ninguém está medindo se IA está funcionando. As métricas que existem (linhas de código, PRs abertos, velocidade de entrega) medem throughput, não valor. Medem quanto código entra no pipeline, não quanto código sobrevive à produção sem incidentes.

Quando uma organização mede apenas adoção e velocidade, a percepção de ganho é inevitável. Mais ferramentas, mais código, mais atividade. Os indicadores apontam para cima. O que eles não capturam é o retrabalho silencioso, a dívida de verificação, os bugs que entram em produção porque ninguém conferiu.

Governança Como Infraestrutura de Medição

O que distingue organizações que capturam valor real de IA daquelas que capturam apenas a ilusão de valor é a infraestrutura de medição.

Não pesquisas de satisfação. Métricas objetivas. Taxa de aceitação de código gerado por IA versus código manual. Densidade de defeitos por origem. Tempo de detecção de vulnerabilidades. Percentual de código que chega a produção sem revisão humana. Uso de ferramentas via contas pessoais fora do perímetro corporativo.

Sem essas métricas, a organização depende de percepção executiva. E percepção executiva, como a pesquisa da McKinsey demonstra involuntariamente, diverge da realidade medida por dezenas de pontos percentuais.

A McKinsey acerta o enquadramento: IA é um problema de modelo operacional. Mas modelo operacional sem dados confiáveis é apenas reorganização. Governança é o que transforma percepção em medição e medição em decisão.

Sem isso, a próxima pesquisa vai mostrar os mesmos números otimistas. E a realidade operacional vai continuar divergindo.

Fontes: McKinsey — Supercharging software development with generative AI (Nov 2025), METR — Measuring the Impact of AI on Developer Productivity (2025), NBER — Executive Survey on AI Productivity (Feb 2026), LinearB Software Engineering Benchmarks 2026, Sonar State of Code 2026, Veracode — AI Code Security Analysis (2025), Stack Overflow Developer Survey 2025

O Victorino Group ajuda empresas a construir infraestrutura de governança para IA em produção. Se a sua organização mede adoção mas não mede resultados, esse é o problema que resolvemos. Entre em contato em contato@victorino.com.br ou visite www.victorino.com.br.