A Lacuna de Confiança É a Lacuna de Governança

Em 2024, cerca de 40% dos desenvolvedores confiavam na precisão das ferramentas de IA para código. Em 2025, esse número caiu para 33%. No mesmo período, a adoção subiu de 76% para 84%.

Mais pessoas usando. Menos pessoas confiando no que usam.

A Developer Survey 2025 do Stack Overflow, com mais de 49 mil respondentes, documenta esse paradoxo com clareza. 46% dos desenvolvedores desconfiam ativamente da precisão do código gerado por IA. Não são céticos distantes. São profissionais que usam as ferramentas diariamente e aprenderam, pela prática, que o resultado exige supervisão constante.

O CEO do Stack Overflow, Prashanth Chandrasekar, interpreta esse dado como um problema de gestão do conhecimento. Desenvolvedores não confiam porque as ferramentas não têm acesso ao contexto interno da empresa. A solução, segundo ele, são bases de conhecimento integradas.

Essa interpretação é conveniente. Chandrasekar está vendendo exatamente isso.

O Que os Dados Realmente Dizem

Três pesquisas independentes, publicadas entre janeiro e fevereiro de 2026, contam a mesma história sob ângulos diferentes.

A pesquisa Sonar State of Code 2026 entrevistou 1.149 desenvolvedores. Os resultados: 96% não confiam plenamente no código gerado por IA. Apenas 48% sempre verificam o que a IA produz. E 42% do código commitado em repositórios já é gerado por IA.

Esses três números juntos formam uma equação preocupante. Quase metade do código é sintético. Menos da metade dos desenvolvedores verifica sistematicamente. E quase ninguém confia no resultado.

O estudo da LinearB, baseado em 8,1 milhões de pull requests de 4.800 equipes, adiciona uma métrica objetiva: a taxa de aceitação de PRs gerados por IA é 32,7%. Para PRs escritos manualmente, 84,4%. O código de IA é rejeitado em dois terços das vezes.

Não se trata de percepção. Os revisores estão encontrando problemas reais.

A Ilusão de Velocidade

Existe uma narrativa persistente de que ferramentas de IA aceleram o desenvolvimento. Os números de piloto parecem confirmar. Equipes pioneiras reportam ganhos de 20% a 30% em velocidade de entrega.

Quando essas mesmas ferramentas são implantadas em escala organizacional, os ganhos caem para dígitos únicos. Chandrasekar reconheceu isso publicamente. A McKinsey documentou o mesmo padrão em janeiro de 2026.

O estudo mais rigoroso sobre o assunto é o da METR, publicado em 2025. Um estudo controlado com desenvolvedores experientes mostrou que eles eram 19% mais lentos ao usar IA para tarefas em repositórios que já conheciam. O detalhe revelador: os mesmos desenvolvedores acreditavam ser 24% mais rápidos.

A pesquisa do Stack Overflow reforça: 66% dos desenvolvedores relatam gastar mais tempo corrigindo código “quase certo” gerado por IA do que gastariam escrevendo do zero.

“Quase certo” é a parte perigosa. Código errado é descartado. Código quase certo é commitado com confiança e quebra em produção.

Dívida de Verificação

Quando 42% do código é gerado por IA e só 48% dos desenvolvedores verificam, a matemática é direta. Uma parcela significativa de código sintético entra nos repositórios sem revisão adequada.

Isso não é um problema de ferramenta. É dívida de verificação acumulando sem controles organizacionais.

A pesquisa Sonar revelou outro dado que amplia o problema: 35% dos desenvolvedores acessam ferramentas de IA por contas pessoais, fora dos canais oficiais da empresa. Shadow AI no pipeline de desenvolvimento. Código gerado sem visibilidade, sem auditoria, sem políticas de uso.

Somem-se os três fatores: código de IA com taxa de rejeição de 67%, verificação inconsistente, e acesso via contas pessoais. O resultado não é um déficit de conhecimento. É uma falha estrutural de governança.

O Padrão Piloto-Produção

O colapso entre resultados de piloto e resultados em escala é um fenômeno documentado fora do contexto de IA. Tecnologias que funcionam em equipes selecionadas, com acompanhamento próximo, frequentemente perdem eficácia quando distribuídas para toda a organização.

Com IA generativa para código, o padrão se repete com uma agravante: a tecnologia produz resultados que parecem corretos. Um script que roda. Uma função que compila. Um teste que passa. A superfície está limpa. Os problemas estão nos casos de borda, nas suposições implícitas, nas vulnerabilidades que só aparecem sob condições específicas.

O relatório Veracode de 2025 testou mais de 100 modelos de linguagem e encontrou que 40% a 48% do código gerado contém vulnerabilidades de segurança. Não bugs. Vulnerabilidades.

Equipes de piloto, com desenvolvedores seniores e atenção redobrada, capturam esses problemas. Organizações inteiras, operando com pressão de prazo e verificação irregular, não capturam.

O Que Está Sendo Medido e o Que Deveria Ser

As métricas que a maioria das empresas usa para avaliar IA em desenvolvimento medem velocidade: tempo para primeiro commit, linhas de código por dia, PRs abertos por semana. São métricas de throughput.

Nenhuma dessas métricas captura o custo de verificação. O tempo gasto revisando código quase certo. O retrabalho silencioso. Os bugs que passam para produção porque ninguém conferiu o que a IA gerou.

Uma organização com governança de IA mediria de forma diferente. Taxa de verificação por desenvolvedor. Percentual de código de IA que chega a produção sem revisão humana. Incidentes de segurança em código gerado versus código manual. Uso de contas pessoais para acesso a ferramentas.

Sem essas métricas, a empresa está voando por instrumentos que medem a velocidade do vento, mas não a altitude.

Supervisão Agêntica

O problema vai piorar antes de melhorar. A Forrester prevê pelo menos um breach significativo causado por IA agêntica em 2026. O Gartner classificou a supervisão de IA agêntica como tendência número um em cibersegurança para 2026.

Agentes de IA que operam com autonomia (abrindo pull requests, modificando configurações, acessando APIs) amplificam cada falha de governança existente. Se a organização não consegue garantir que desenvolvedores verifiquem código gerado por IA, como vai garantir que agentes autônomos operem dentro de limites aceitáveis?

A resposta, para a maioria das empresas, é que não vai. Não sem infraestrutura de governança.

Confiança Não É Sentimento

A queda de confiança documentada pelo Stack Overflow não é irracionalidade de desenvolvedores resistentes à mudança. É o oposto. São profissionais ajustando suas expectativas com base em evidências. Eles usaram as ferramentas. Viram os resultados. Recalibraram.

Quando a confiança cai ao mesmo tempo em que a adoção sobe, o sinal é claro: as pessoas estão usando porque precisam (ou porque a empresa mandou), não porque confiam. Essa é a definição de dívida organizacional. Uso sem confiança gera atalhos, verificação superficial e problemas cumulativos.

O déficit de confiança é o sintoma. A ausência de governança é a causa.

Não faltam ferramentas melhores. Faltam controles que tornem o uso dessas ferramentas confiável em escala. Políticas de verificação. Métricas de qualidade sobre código gerado. Visibilidade sobre quem usa o quê, como e com que resultado. Limites para agentes autônomos.

Enquanto a indústria tratar a queda de confiança como um problema de produto (IA precisa ser mais precisa, precisa ter mais contexto, precisa de bases de conhecimento melhores), o déficit vai continuar crescendo. Porque o problema não é o que a IA produz. É o que a organização faz com o que a IA produz.

E isso é governança.

Fontes: Stack Overflow Developer Survey 2025, Sonar State of Code 2026, LinearB Software Engineering Benchmarks 2026, METR — Measuring the Impact of AI on Developer Productivity (2025)

O Victorino Group ajuda empresas a construir governança para sistemas de IA em produção. Se a sua organização está escalando uso de IA sem controles proporcionais, entre em contato em contato@victorino.com.br ou visite www.victorino.com.br.