671 PRs Sem Revisão Humana. Zero Revertidos. O Que a Vercel Provou com Dados.

TV
Thiago Victorino
10 min de leitura
671 PRs Sem Revisão Humana. Zero Revertidos. O Que a Vercel Provou com Dados.
Ouvir este artigo

Em março, argumentamos que matar o code review era renomear governança. Em fevereiro, definimos a dívida de verificação como o déficit entre desconfiança e disciplina. Em março, identificamos que camadas de revisão viram gargalo quando não calibradas por risco.

A Vercel acaba de publicar os dados que testam todas essas teses simultaneamente. E os resultados merecem atenção.

O teatro que ninguém admitia

O monorepo principal da Vercel processa mais de 400 PRs por semana. A equipe de GRC (Governance, Risk, and Compliance) fez o que poucos fazem: mediu a eficácia real do processo de revisão obrigatória.

52% das revisões humanas não produziram nenhum comentário. Zero. O revisor olhou, clicou em “approve”, seguiu em frente. Outros 18% foram aprovados em menos de cinco minutos. Somados, 70% das revisões não adicionavam valor mensurável.

Isso não é preguiça. É consequência previsível de um sistema que trata todo PR com o mesmo nível de escrutínio, independentemente do risco real. Quando você pede a um engenheiro sênior para revisar a atualização de uma dependência pela terceira vez na semana, a qualidade da atenção despenca. O processo existe, mas a substância evaporou.

A solução que não é “matar code review”

A Vercel não eliminou a revisão. Construiu um classificador de risco baseado em LLM que avalia cada PR e atribui uma categoria: LOW, MEDIUM ou HIGH.

PRs classificados como LOW pulam revisão obrigatória. PRs HIGH recebem atenção concentrada. O sistema não é binário (revisão ou nada). É proporcional.

A diferença entre essa abordagem e a proposta que analisamos em março é fundamental. Ankit Jain, da Aviator, propunha substituir revisão por cinco camadas de verificação automatizada. A Vercel não substitui. Redistribui. A capacidade humana de revisão, antes diluída em 400+ PRs semanais, agora se concentra nos PRs que realmente exigem julgamento.

Os números que importam

671 PRs classificados como baixo risco pularam revisão humana durante o experimento. Nenhum foi revertido. O intervalo de confiança Wilson de 95% coloca o limite superior de defeitos em 0,6%. O custo por avaliação do classificador: US$ 0,054. Aproximadamente US$ 51 por semana para processar todo o monorepo.

O impacto nos revisores é onde o dado fica interessante. A carga caiu de 13 PRs por semana por revisor para 5. Mas a qualidade subiu: antes, 6,3% dos PRs HIGH tinham preocupações de segurança sinalizadas. Depois, 27,2%. Os revisores, liberados do teatro de revisar atualizações de dependência, passaram a encontrar problemas reais com frequência quatro vezes maior.

O tempo de merge caiu de 29 horas para 10,9 horas (redução de 62%). Para PRs de alto risco especificamente, o tempo de primeira revisão caiu de 24,7 horas para 9 horas. Throughput individual subiu 46%, de 2,6 para 3,8 PRs por semana por autor.

O dado que ninguém esperava

43% dos PRs classificados como baixo risco ainda receberam revisões voluntárias. Sem obrigatoriedade, sem cobrança, sem métrica atrelada. Engenheiros escolheram revisar porque queriam.

Esse número desmonta o argumento de que revisão obrigatória é necessária para garantir supervisão. Quando o sistema retira a obrigação, quase metade dos engenheiros continua revisando por conta própria. A diferença: revisam porque identificaram valor, não porque um bot bloqueou o merge.

O único rollback durante todo o experimento veio de um PR que o classificador corretamente sinalizou como HIGH. Um revisor humano aprovou. O sistema automatizado acertou. O humano errou. Isso inverte a narrativa usual sobre confiabilidade de verificação automatizada.

Verificação cruzada: o que o GitHub descobriu em paralelo

Na mesma semana, o GitHub publicou resultados do Copilot CLI usando verificação cross-modelo. Em vez de confiar na saída de um único modelo, o sistema passa o resultado por um segundo modelo de família diferente (GPT-5.4 revisando outputs do Claude Sonnet).

Os ganhos: +3,8% em problemas multi-arquivo complexos, +4,8% nos problemas mais difíceis. A verificação cruzada fechou 74,7% do déficit de desempenho entre Sonnet e Opus. O padrão é o mesmo que a Vercel descobriu por outro caminho: verificação proporcional ao risco supera verificação uniforme.

Como documentamos ao analisar a dívida de verificação, 96% dos desenvolvedores não confiam no código gerado por IA, mas só 48% verificam. A abordagem cross-modelo começa a fechar essa distância sem depender de disciplina humana.

O que muda para quem projeta governança

Três implicações práticas.

Primeiro: revisão obrigatória universal é um controle preguiçoso. Os dados da Vercel provam que calibrar por risco melhora simultaneamente velocidade e segurança. Não é tradeoff. A conformidade SOC-2 foi mantida durante todo o experimento.

Segundo: o custo de classificação é irrelevante. US$ 51 por semana para processar 400+ PRs. Qualquer organização que argumenta que “não tem orçamento” para classificação de risco está gastando ordens de magnitude mais em revisões humanas que não produzem valor.

Terceiro: libertar revisores do teatro os torna melhores revisores. A taxa de detecção de problemas de segurança quadruplicou. Não porque os revisores ficaram mais competentes. Porque finalmente puderam exercer a competência que já tinham.

O paradoxo das camadas de revisão que identificamos persiste. Cada camada adiciona latência. A solução da Vercel não remove camadas. Remove a uniformidade. Nem todo PR merece a mesma atenção. Tratar todos como se merecessem é a definição operacional de desperdício.

A pergunta que resta

A Vercel publicou esses dados com transparência incomum. Intervalo de confiança, custo por avaliação, taxa de revisão voluntária. Isso é raro. A maioria das empresas que automatiza processos de governança publica métricas de velocidade e omite métricas de segurança.

A pergunta para qualquer organização de engenharia: você sabe qual porcentagem das suas revisões de código produz valor mensurável? Se não sabe, está operando no escuro. E provavelmente gastando a atenção dos seus melhores engenheiros em trabalho que um classificador de US$ 0,05 faria melhor.


Fontes

Victorino Group ajuda empresas a construir infraestrutura de governança para desenvolvimento assistido por IA: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa