Code Review com IA: Lições do Cursor BugBot

Agentes de código aumentaram a produção de PRs, mas criaram um novo problema: o tempo de revisão humana não escala.

Times que adotam IA para codificação relatam aumento de carga cognitiva, gargalos em revisões e maior risco de defeitos escaparem para produção. Adoção de agentes de code review cresceu de 14,8% em janeiro para 51,4% em outubro de 2025.

O dado mais alarmante: code churn — linhas revertidas em menos de duas semanas — dobrou com código gerado por IA. Até 40% dos alertas de ferramentas de review são ignorados.

O Caso BugBot

O BugBot do Cursor processa mais de 2 milhões de PRs por mês. Em 6 meses e 40 experimentos, a equipe aumentou a taxa de resolução de 52% para 70% e os bugs encontrados por execução de 0,4 para 0,7.

Taxa de resolução e a métrica primária: percentual de bugs reportados que foram efetivamente corrigidos pelo autor no código final. Esta métrica usa IA para classificar automaticamente se cada bug foi resolvido no momento do merge.

Evolução: Pipeline Estático para Agente Autônomo

Pipeline Estático (V1)

Sequência fixa de passos, contexto pre-definido:

8 passes paralelos com ordem randomizada do diff
Combinação de bugs similares em buckets
Votação majoritária para filtrar falsos positivos
Merge de cada bucket em descrição unica
Filtro de categorias indesejadas
Validador final para capturar falsos positivos
Deduplicação contra execuções anteriores

Arquitetura Agêntica (V11)

Agente decide onde investigar mais profundamente:

Raciocínio sobre o diff com capacidade de chamar ferramentas
Decisão autônoma de profundidade de investigação
Contexto dinâmico: busca informação conforme necessário
Prompts agressivos que incentivam investigação completa
Superfície rica para experimentação via toolset
Modelo puxa contexto adicional em runtime
Ajustes no design de ferramentas impactam resultados

Contexto Dinâmico: Menos e Mais

Fornecer menos detalhes inicialmente permite que o agente puxe contexto relevante por conta própria. Esta abordagem reduziu o total de tokens do agente em 46,9% em testes A/B, melhorando simultaneamente a qualidade das respostas.

Arquivos como Interface: Outputs longos viram arquivos que o agente pode ler seletivamente.

Técnicas de contexto dinâmico:

Outputs de ferramentas convertidos em arquivos
Histórico de chat como material de referência
Skills com descrições mínimas + lookup dinâmico
Descrições de MCP tools sincronizadas em pastas
Sessões de terminal integradas ao filesystem

Benefícios: Eficiência de tokens + qualidade de resposta. Menos informação contraditória resulta em melhor raciocínio.

Ferramentas Determinísticas

Agentes aumentados por ferramentas delegam tarefas específicas para análise estática, reduzindo tokens e alucinações.

A arquitetura híbrida executa checagens determinísticas primeiro, depois usa o LLM apenas para raciocínio semântico que ferramentas não conseguem fazer.

Pipeline Híbrido:

Linters e SAST rodam primeiro (determinístico)
AST parsing estrutura o código semanticamente
LLM recebe resultados + diff (menos tokens)
Agente foca em bugs lógicos e contextuais

Ferramentas que agentes usam:

Linters: ESLint, Ruff, golangci-lint
Type Checkers: Mypy, TypeScript, fbinfer
AST Parsers: Tree-sitter, ast-grep, OXC
SAST: Semgrep, CodeQL, Checkmarx
MCP Servers: Expõem ferramentas via protocolo

Por que funciona: Ferramentas determinísticas fornecem “ground truth” para operações críticas. O LLM não precisa gastar tokens detectando erros de sintaxe ou tipos — foca no que realmente importa.

Infraestrutura para Escala

Integração Git Robusta

BugBot reconstruiu integração Git em Rust para velocidade e confiabilidade. Minimize dados buscados, use cache eficiente.

Raté Limiting e Batching

Monitoramento de raté limits e batching de requisicoes para operar dentro das restrições do GitHub.

Regras Customizáveis

BugBot Rules permite codificar invariantes específicos do codebase sem hardcode no sistema:

Migrations inseguras
Uso incorreto de APIs internas
Convenções do projeto

Métricas para DevEx com IA

DevEx moderno requer métricas além de velocidade:

Flow: Desenvolvedores conseguem trabalho profundo ininterrupto?

Clarity: Entendem código e contexto rapidamente?

Quality: O sistema resiste a drift e degradação?

Energy: Padrões de trabalho são sustentáveis?

Governance: IA comporta-se de forma previsível e rastreável?

Métricas de Code Review

Taxa de Resolução: % de bugs reportados que foram corrigidos. Métrica primária do BugBot.
Taxa de Inspeção: LOC / Horas de Revisão. Benchmark: 150-500 LOC/hora.
Change Failure Rate: Métrica DORA. Canário para problemas de qualidade.
Tempo até Primeira Revisão: Target recomendado: < 24h. Impacta diretamente o flow.

O Paradoxo da Percepção

Estudo METR (2025): Desenvolvedores experientes trabalhando em seus próprios repositórios open-source mostraram resultados surpreendentes.

Tempo real com IA: +19% (mais lento)
Expectativa prévia: -24% (achavam que seria mais rápido)

Mesmo após experimentar o atraso, desenvolvedores ainda acreditavam que IA os acelerou em 20%.

Implicações para Líderes:

Não confie em percepções — meca objetivamente
60% dos líderes citam falta de métricas claras como maior desafio
Baseline antes de adotar: Cycle time, qualidade, satisfação
Compare 3-6 meses depois: Dados reais vs. expectativas

Trate DevEx como problema de design de sistemas, não iniciativa cultural. Defina métricas concretas antes de escalar ferramentas de IA.

O Problema dos Falsos Positivos

Ferramentas de code review com IA tipicamente operam com 5-15% de taxa de falsos positivos. Mas o custo de credibilidade e alto.

Por que ferramentas falham:

Leitura de diffs sem contexto do projeto
Checks baseados em sintaxe, não em intenção
Sem consciência de convenções internas
Checks estáticos em comportamento dinâmico
Alucinações de LLMs generalistas

Resultado: Até 40% dos alertas são ignorados. A automação gera ruído em vez de insights acionáveis.

Estrategias de Mitigação

Votação Majoritaria: Múltiplos passes paralelos. Bug real = sinal mais forte.

Feedback Loop: Desenvolvedores marcam falsos positivos. Sistema aprende.

Calibração de Severidade: Comece restritivo, relaxe regras com muito ruído.

Inversão de Prompting

Abordagem Tradicional

Restringir o modelo para minimizar falsos positivos:

“Seja conservador. Só reporte bugs se tiver alta certeza. Evite falsos alarmes.”

Resultado: Modelo muito cauteloso, deixa passar bugs reais.

Abordagem Agêntica

Incentivar investigação agressiva:

“Investigue cada padrão suspeito. Erre pelo lado de reportar. Use ferramentas para verificar hipóteses.”

Resultado: Agente explora mais, usa ferramentas para validar antes de reportar.

Em arquitetura agêntica, a capacidade de chamar ferramentas e buscar contexto adicional muda fundamentalmente a estratégia de prompting. O modelo pode investigar antes de concluir.

Roadmap de Implementação

Fase 1 - Baseline (4-6 semanas):

Medir cycle time atual
Documentar qualidade de código
Survey de satisfação
Mapear gargalos de revisão

Fase 2 - Piloto (4-6 semanas):

Selecionar time piloto
Configurar regras iniciais
Calibrar sensibilidade
Coletar feedback semanal

Fase 3 - Iteração (3-6 meses):

Analisar taxa de resolução
Ajustar regras por feedback
Adicionar regras custom
Comparar com baseline

Fase 4 - Escala (ongoing):

Expandir para outros times
Monitorar DORA metrics
Integrar no onboarding
Documentar playbooks

Não apresse a calibração — credibilidade perdida e difícil de recuperar.

O Futuro do Code Review com IA

Execução de Código: Agentes rodando código para verificar seus próprios reports de bugs.

Autofix: Agente que não só encontra, mas corrige bugs automaticamente.

Monitoramento Contínuo: Scan constante do codebase, não apenas em PRs.

BugBot hoje e múltiplas vezes melhor que no lançamento. Em poucos meses, será significativamente melhor novamente.

Na Victorino Group, implementamos sistemas de IA governados para times de engenharia que precisam de qualidade sem sacrificar velocidade. Se você quer escalar code review com IA mantendo controle, vamos conversar.