Code Review com IA: Licoes do Cursor BugBot

Agentes de codigo aumentaram a producao de PRs, mas criaram um novo problema: o tempo de revisao humana nao escala.

Times que adotam IA para codificacao relatam aumento de carga cognitiva, gargalos em revisoes e maior risco de defeitos escaparem para producao. Adocao de agentes de code review cresceu de 14,8% em janeiro para 51,4% em outubro de 2025.

O dado mais alarmante: code churn — linhas revertidas em menos de duas semanas — dobrou com codigo gerado por IA. Ate 40% dos alertas de ferramentas de review sao ignorados.

O Caso BugBot

O BugBot do Cursor processa mais de 2 milhoes de PRs por mes. Em 6 meses e 40 experimentos, a equipe aumentou a taxa de resolucao de 52% para 70% e os bugs encontrados por execucao de 0,4 para 0,7.

Taxa de resolucao e a metrica primaria: percentual de bugs reportados que foram efetivamente corrigidos pelo autor no codigo final. Esta metrica usa IA para classificar automaticamente se cada bug foi resolvido no momento do merge.

Evolucao: Pipeline Estatico para Agente Autonomo

Pipeline Estatico (V1)

Sequencia fixa de passos, contexto pre-definido:

8 passes paralelos com ordem randomizada do diff
Combinacao de bugs similares em buckets
Votacao majoritaria para filtrar falsos positivos
Merge de cada bucket em descricao unica
Filtro de categorias indesejadas
Validador final para capturar falsos positivos
Deduplicacao contra execucoes anteriores

Arquitetura Agentica (V11)

Agente decide onde investigar mais profundamente:

Raciocinio sobre o diff com capacidade de chamar ferramentas
Decisao autonoma de profundidade de investigacao
Contexto dinamico: busca informacao conforme necessario
Prompts agressivos que incentivam investigacao completa
Superficie rica para experimentacao via toolset
Modelo puxa contexto adicional em runtime
Ajustes no design de ferramentas impactam resultados

Contexto Dinamico: Menos e Mais

Fornecer menos detalhes inicialmente permite que o agente puxe contexto relevante por conta propria. Esta abordagem reduziu o total de tokens do agente em 46,9% em testes A/B, melhorando simultaneamente a qualidade das respostas.

Arquivos como Interface: Outputs longos viram arquivos que o agente pode ler seletivamente.

Tecnicas de contexto dinamico:

Outputs de ferramentas convertidos em arquivos
Historico de chat como material de referencia
Skills com descricoes minimas + lookup dinamico
Descricoes de MCP tools sincronizadas em pastas
Sessoes de terminal integradas ao filesystem

Beneficios: Eficiencia de tokens + qualidade de resposta. Menos informacao contraditoria resulta em melhor raciocinio.

Ferramentas Deterministicas

Agentes aumentados por ferramentas delegam tarefas especificas para analise estatica, reduzindo tokens e alucinacoes.

A arquitetura hibrida executa checagens deterministicas primeiro, depois usa o LLM apenas para raciocinio semantico que ferramentas nao conseguem fazer.

Pipeline Hibrido:

Linters e SAST rodam primeiro (deterministico)
AST parsing estrutura o codigo semanticamente
LLM recebe resultados + diff (menos tokens)
Agente foca em bugs logicos e contextuais

Ferramentas que agentes usam:

Linters: ESLint, Ruff, golangci-lint
Type Checkers: Mypy, TypeScript, fbinfer
AST Parsers: Tree-sitter, ast-grep, OXC
SAST: Semgrep, CodeQL, Checkmarx
MCP Servers: Expoem ferramentas via protocolo

Por que funciona: Ferramentas deterministicas fornecem “ground truth” para operacoes criticas. O LLM nao precisa gastar tokens detectando erros de sintaxe ou tipos — foca no que realmente importa.

Infraestrutura para Escala

Integracao Git Robusta

BugBot reconstruiu integracao Git em Rust para velocidade e confiabilidade. Minimize dados buscados, use cache eficiente.

Rate Limiting e Batching

Monitoramento de rate limits e batching de requisicoes para operar dentro das restricoes do GitHub.

Regras Customizaveis

BugBot Rules permite codificar invariantes especificos do codebase sem hardcode no sistema:

Migrations inseguras
Uso incorreto de APIs internas
Convencoes do projeto

Metricas para DevEx com IA

DevEx moderno requer metricas alem de velocidade:

Flow: Desenvolvedores conseguem trabalho profundo ininterrupto?

Clarity: Entendem codigo e contexto rapidamente?

Quality: O sistema resiste a drift e degradacao?

Energy: Padroes de trabalho sao sustentaveis?

Governance: IA comporta-se de forma previsivel e rastreavel?

Metricas de Code Review

Taxa de Resolucao: % de bugs reportados que foram corrigidos. Metrica primaria do BugBot.
Taxa de Inspecao: LOC / Horas de Revisao. Benchmark: 150-500 LOC/hora.
Change Failure Rate: Metrica DORA. Canario para problemas de qualidade.
Tempo ate Primeira Revisao: Target recomendado: < 24h. Impacta diretamente o flow.

O Paradoxo da Percepcao

Estudo METR (2025): Desenvolvedores experientes trabalhando em seus proprios repositorios open-source mostraram resultados surpreendentes.

Tempo real com IA: +19% (mais lento)
Expectativa previa: -24% (achavam que seria mais rapido)

Mesmo apos experimentar o atraso, desenvolvedores ainda acreditavam que IA os acelerou em 20%.

Implicacoes para Lideres:

Nao confie em percepcoes — meca objetivamente
60% dos lideres citam falta de metricas claras como maior desafio
Baseline antes de adotar: Cycle time, qualidade, satisfacao
Compare 3-6 meses depois: Dados reais vs. expectativas

Trate DevEx como problema de design de sistemas, nao iniciativa cultural. Defina metricas concretas antes de escalar ferramentas de IA.

O Problema dos Falsos Positivos

Ferramentas de code review com IA tipicamente operam com 5-15% de taxa de falsos positivos. Mas o custo de credibilidade e alto.

Por que ferramentas falham:

Leitura de diffs sem contexto do projeto
Checks baseados em sintaxe, nao em intencao
Sem consciencia de convencoes internas
Checks estaticos em comportamento dinamico
Alucinacoes de LLMs generalistas

Resultado: Ate 40% dos alertas sao ignorados. A automacao gera ruido em vez de insights acionaveis.

Estrategias de Mitigacao

Votacao Majoritaria: Multiplos passes paralelos. Bug real = sinal mais forte.

Feedback Loop: Desenvolvedores marcam falsos positivos. Sistema aprende.

Calibracao de Severidade: Comece restritivo, relaxe regras com muito ruido.

Inversao de Prompting

Abordagem Tradicional

Restringir o modelo para minimizar falsos positivos:

“Seja conservador. So reporte bugs se tiver alta certeza. Evite falsos alarmes.”

Resultado: Modelo muito cauteloso, deixa passar bugs reais.

Abordagem Agentica

Incentivar investigacao agressiva:

“Investigue cada padrao suspeito. Erre pelo lado de reportar. Use ferramentas para verificar hipoteses.”

Resultado: Agente explora mais, usa ferramentas para validar antes de reportar.

Em arquitetura agentica, a capacidade de chamar ferramentas e buscar contexto adicional muda fundamentalmente a estrategia de prompting. O modelo pode investigar antes de concluir.

Roadmap de Implementacao

Fase 1 - Baseline (4-6 semanas):

Medir cycle time atual
Documentar qualidade de codigo
Survey de satisfacao
Mapear gargalos de revisao

Fase 2 - Piloto (4-6 semanas):

Selecionar time piloto
Configurar regras iniciais
Calibrar sensibilidade
Coletar feedback semanal

Fase 3 - Iteracao (3-6 meses):

Analisar taxa de resolucao
Ajustar regras por feedback
Adicionar regras custom
Comparar com baseline

Fase 4 - Escala (ongoing):

Expandir para outros times
Monitorar DORA metrics
Integrar no onboarding
Documentar playbooks

Nao apresse a calibracao — credibilidade perdida e dificil de recuperar.

O Futuro do Code Review com IA

Execucao de Codigo: Agentes rodando codigo para verificar seus proprios reports de bugs.

Autofix: Agente que nao so encontra, mas corrige bugs automaticamente.

Monitoramento Continuo: Scan constante do codebase, nao apenas em PRs.

BugBot hoje e multiplas vezes melhor que no lancamento. Em poucos meses, sera significativamente melhor novamente.

Na Victorino Group, implementamos sistemas de IA governados para times de engenharia que precisam de qualidade sem sacrificar velocidade. Se voce quer escalar code review com IA mantendo controle, vamos conversar.