- Início
- The Thinking Wire
- Code Review com IA: Lições do Cursor BugBot
Code Review com IA: Lições do Cursor BugBot
Agentes de código aumentaram a produção de PRs, mas criaram um novo problema: o tempo de revisão humana não escala.
Times que adotam IA para codificação relatam aumento de carga cognitiva, gargalos em revisões e maior risco de defeitos escaparem para produção. Adoção de agentes de code review cresceu de 14,8% em janeiro para 51,4% em outubro de 2025.
O dado mais alarmante: code churn — linhas revertidas em menos de duas semanas — dobrou com código gerado por IA. Até 40% dos alertas de ferramentas de review são ignorados.
O Caso BugBot
O BugBot do Cursor processa mais de 2 milhões de PRs por mês. Em 6 meses e 40 experimentos, a equipe aumentou a taxa de resolução de 52% para 70% e os bugs encontrados por execução de 0,4 para 0,7.
Taxa de resolução e a métrica primária: percentual de bugs reportados que foram efetivamente corrigidos pelo autor no código final. Esta métrica usa IA para classificar automaticamente se cada bug foi resolvido no momento do merge.
Evolução: Pipeline Estático para Agente Autônomo
Pipeline Estático (V1)
Sequência fixa de passos, contexto pre-definido:
- 8 passes paralelos com ordem randomizada do diff
- Combinação de bugs similares em buckets
- Votação majoritária para filtrar falsos positivos
- Merge de cada bucket em descrição unica
- Filtro de categorias indesejadas
- Validador final para capturar falsos positivos
- Deduplicação contra execuções anteriores
Arquitetura Agêntica (V11)
Agente decide onde investigar mais profundamente:
- Raciocínio sobre o diff com capacidade de chamar ferramentas
- Decisão autônoma de profundidade de investigação
- Contexto dinâmico: busca informação conforme necessário
- Prompts agressivos que incentivam investigação completa
- Superfície rica para experimentação via toolset
- Modelo puxa contexto adicional em runtime
- Ajustes no design de ferramentas impactam resultados
Contexto Dinâmico: Menos e Mais
Fornecer menos detalhes inicialmente permite que o agente puxe contexto relevante por conta própria. Esta abordagem reduziu o total de tokens do agente em 46,9% em testes A/B, melhorando simultaneamente a qualidade das respostas.
Arquivos como Interface: Outputs longos viram arquivos que o agente pode ler seletivamente.
Técnicas de contexto dinâmico:
- Outputs de ferramentas convertidos em arquivos
- Histórico de chat como material de referência
- Skills com descrições mínimas + lookup dinâmico
- Descrições de MCP tools sincronizadas em pastas
- Sessões de terminal integradas ao filesystem
Benefícios: Eficiência de tokens + qualidade de resposta. Menos informação contraditória resulta em melhor raciocínio.
Ferramentas Determinísticas
Agentes aumentados por ferramentas delegam tarefas específicas para análise estática, reduzindo tokens e alucinações.
A arquitetura híbrida executa checagens determinísticas primeiro, depois usa o LLM apenas para raciocínio semântico que ferramentas não conseguem fazer.
Pipeline Híbrido:
- Linters e SAST rodam primeiro (determinístico)
- AST parsing estrutura o código semanticamente
- LLM recebe resultados + diff (menos tokens)
- Agente foca em bugs lógicos e contextuais
Ferramentas que agentes usam:
- Linters: ESLint, Ruff, golangci-lint
- Type Checkers: Mypy, TypeScript, fbinfer
- AST Parsers: Tree-sitter, ast-grep, OXC
- SAST: Semgrep, CodeQL, Checkmarx
- MCP Servers: Expõem ferramentas via protocolo
Por que funciona: Ferramentas determinísticas fornecem “ground truth” para operações críticas. O LLM não precisa gastar tokens detectando erros de sintaxe ou tipos — foca no que realmente importa.
Infraestrutura para Escala
Integração Git Robusta
BugBot reconstruiu integração Git em Rust para velocidade e confiabilidade. Minimize dados buscados, use cache eficiente.
Raté Limiting e Batching
Monitoramento de raté limits e batching de requisicoes para operar dentro das restrições do GitHub.
Regras Customizáveis
BugBot Rules permite codificar invariantes específicos do codebase sem hardcode no sistema:
- Migrations inseguras
- Uso incorreto de APIs internas
- Convenções do projeto
Métricas para DevEx com IA
DevEx moderno requer métricas além de velocidade:
Flow: Desenvolvedores conseguem trabalho profundo ininterrupto?
Clarity: Entendem código e contexto rapidamente?
Quality: O sistema resiste a drift e degradação?
Energy: Padrões de trabalho são sustentáveis?
Governance: IA comporta-se de forma previsível e rastreável?
Métricas de Code Review
- Taxa de Resolução: % de bugs reportados que foram corrigidos. Métrica primária do BugBot.
- Taxa de Inspeção: LOC / Horas de Revisão. Benchmark: 150-500 LOC/hora.
- Change Failure Rate: Métrica DORA. Canário para problemas de qualidade.
- Tempo até Primeira Revisão: Target recomendado: < 24h. Impacta diretamente o flow.
O Paradoxo da Percepção
Estudo METR (2025): Desenvolvedores experientes trabalhando em seus próprios repositórios open-source mostraram resultados surpreendentes.
- Tempo real com IA: +19% (mais lento)
- Expectativa prévia: -24% (achavam que seria mais rápido)
Mesmo após experimentar o atraso, desenvolvedores ainda acreditavam que IA os acelerou em 20%.
Implicações para Líderes:
- Não confie em percepções — meca objetivamente
- 60% dos líderes citam falta de métricas claras como maior desafio
- Baseline antes de adotar: Cycle time, qualidade, satisfação
- Compare 3-6 meses depois: Dados reais vs. expectativas
Trate DevEx como problema de design de sistemas, não iniciativa cultural. Defina métricas concretas antes de escalar ferramentas de IA.
O Problema dos Falsos Positivos
Ferramentas de code review com IA tipicamente operam com 5-15% de taxa de falsos positivos. Mas o custo de credibilidade e alto.
Por que ferramentas falham:
- Leitura de diffs sem contexto do projeto
- Checks baseados em sintaxe, não em intenção
- Sem consciência de convenções internas
- Checks estáticos em comportamento dinâmico
- Alucinações de LLMs generalistas
Resultado: Até 40% dos alertas são ignorados. A automação gera ruído em vez de insights acionáveis.
Estrategias de Mitigação
Votação Majoritaria: Múltiplos passes paralelos. Bug real = sinal mais forte.
Feedback Loop: Desenvolvedores marcam falsos positivos. Sistema aprende.
Calibração de Severidade: Comece restritivo, relaxe regras com muito ruído.
Inversão de Prompting
Abordagem Tradicional
Restringir o modelo para minimizar falsos positivos:
“Seja conservador. Só reporte bugs se tiver alta certeza. Evite falsos alarmes.”
Resultado: Modelo muito cauteloso, deixa passar bugs reais.
Abordagem Agêntica
Incentivar investigação agressiva:
“Investigue cada padrão suspeito. Erre pelo lado de reportar. Use ferramentas para verificar hipóteses.”
Resultado: Agente explora mais, usa ferramentas para validar antes de reportar.
Em arquitetura agêntica, a capacidade de chamar ferramentas e buscar contexto adicional muda fundamentalmente a estratégia de prompting. O modelo pode investigar antes de concluir.
Roadmap de Implementação
Fase 1 - Baseline (4-6 semanas):
- Medir cycle time atual
- Documentar qualidade de código
- Survey de satisfação
- Mapear gargalos de revisão
Fase 2 - Piloto (4-6 semanas):
- Selecionar time piloto
- Configurar regras iniciais
- Calibrar sensibilidade
- Coletar feedback semanal
Fase 3 - Iteração (3-6 meses):
- Analisar taxa de resolução
- Ajustar regras por feedback
- Adicionar regras custom
- Comparar com baseline
Fase 4 - Escala (ongoing):
- Expandir para outros times
- Monitorar DORA metrics
- Integrar no onboarding
- Documentar playbooks
Não apresse a calibração — credibilidade perdida e difícil de recuperar.
O Futuro do Code Review com IA
Execução de Código: Agentes rodando código para verificar seus próprios reports de bugs.
Autofix: Agente que não só encontra, mas corrige bugs automaticamente.
Monitoramento Contínuo: Scan constante do codebase, não apenas em PRs.
BugBot hoje e múltiplas vezes melhor que no lançamento. Em poucos meses, será significativamente melhor novamente.
Na Victorino Group, implementamos sistemas de IA governados para times de engenharia que precisam de qualidade sem sacrificar velocidade. Se você quer escalar code review com IA mantendo controle, vamos conversar.
Se isso faz sentido, vamos conversar
Ajudamos empresas a implementar IA sem perder o controle.
Agendar uma Conversa