Governança como Vantagem

Code Review com IA: Licoes do Cursor BugBot

TV
Thiago Victorino
12 min de leitura

Agentes de codigo aumentaram a producao de PRs, mas criaram um novo problema: o tempo de revisao humana nao escala.

Times que adotam IA para codificacao relatam aumento de carga cognitiva, gargalos em revisoes e maior risco de defeitos escaparem para producao. Adocao de agentes de code review cresceu de 14,8% em janeiro para 51,4% em outubro de 2025.

O dado mais alarmante: code churn — linhas revertidas em menos de duas semanas — dobrou com codigo gerado por IA. Ate 40% dos alertas de ferramentas de review sao ignorados.

O Caso BugBot

O BugBot do Cursor processa mais de 2 milhoes de PRs por mes. Em 6 meses e 40 experimentos, a equipe aumentou a taxa de resolucao de 52% para 70% e os bugs encontrados por execucao de 0,4 para 0,7.

Taxa de resolucao e a metrica primaria: percentual de bugs reportados que foram efetivamente corrigidos pelo autor no codigo final. Esta metrica usa IA para classificar automaticamente se cada bug foi resolvido no momento do merge.

Evolucao: Pipeline Estatico para Agente Autonomo

Pipeline Estatico (V1)

Sequencia fixa de passos, contexto pre-definido:

  • 8 passes paralelos com ordem randomizada do diff
  • Combinacao de bugs similares em buckets
  • Votacao majoritaria para filtrar falsos positivos
  • Merge de cada bucket em descricao unica
  • Filtro de categorias indesejadas
  • Validador final para capturar falsos positivos
  • Deduplicacao contra execucoes anteriores

Arquitetura Agentica (V11)

Agente decide onde investigar mais profundamente:

  • Raciocinio sobre o diff com capacidade de chamar ferramentas
  • Decisao autonoma de profundidade de investigacao
  • Contexto dinamico: busca informacao conforme necessario
  • Prompts agressivos que incentivam investigacao completa
  • Superficie rica para experimentacao via toolset
  • Modelo puxa contexto adicional em runtime
  • Ajustes no design de ferramentas impactam resultados

Contexto Dinamico: Menos e Mais

Fornecer menos detalhes inicialmente permite que o agente puxe contexto relevante por conta propria. Esta abordagem reduziu o total de tokens do agente em 46,9% em testes A/B, melhorando simultaneamente a qualidade das respostas.

Arquivos como Interface: Outputs longos viram arquivos que o agente pode ler seletivamente.

Tecnicas de contexto dinamico:

  • Outputs de ferramentas convertidos em arquivos
  • Historico de chat como material de referencia
  • Skills com descricoes minimas + lookup dinamico
  • Descricoes de MCP tools sincronizadas em pastas
  • Sessoes de terminal integradas ao filesystem

Beneficios: Eficiencia de tokens + qualidade de resposta. Menos informacao contraditoria resulta em melhor raciocinio.

Ferramentas Deterministicas

Agentes aumentados por ferramentas delegam tarefas especificas para analise estatica, reduzindo tokens e alucinacoes.

A arquitetura hibrida executa checagens deterministicas primeiro, depois usa o LLM apenas para raciocinio semantico que ferramentas nao conseguem fazer.

Pipeline Hibrido:

  1. Linters e SAST rodam primeiro (deterministico)
  2. AST parsing estrutura o codigo semanticamente
  3. LLM recebe resultados + diff (menos tokens)
  4. Agente foca em bugs logicos e contextuais

Ferramentas que agentes usam:

  • Linters: ESLint, Ruff, golangci-lint
  • Type Checkers: Mypy, TypeScript, fbinfer
  • AST Parsers: Tree-sitter, ast-grep, OXC
  • SAST: Semgrep, CodeQL, Checkmarx
  • MCP Servers: Expoem ferramentas via protocolo

Por que funciona: Ferramentas deterministicas fornecem “ground truth” para operacoes criticas. O LLM nao precisa gastar tokens detectando erros de sintaxe ou tipos — foca no que realmente importa.

Infraestrutura para Escala

Integracao Git Robusta

BugBot reconstruiu integracao Git em Rust para velocidade e confiabilidade. Minimize dados buscados, use cache eficiente.

Rate Limiting e Batching

Monitoramento de rate limits e batching de requisicoes para operar dentro das restricoes do GitHub.

Regras Customizaveis

BugBot Rules permite codificar invariantes especificos do codebase sem hardcode no sistema:

  • Migrations inseguras
  • Uso incorreto de APIs internas
  • Convencoes do projeto

Metricas para DevEx com IA

DevEx moderno requer metricas alem de velocidade:

Flow: Desenvolvedores conseguem trabalho profundo ininterrupto?

Clarity: Entendem codigo e contexto rapidamente?

Quality: O sistema resiste a drift e degradacao?

Energy: Padroes de trabalho sao sustentaveis?

Governance: IA comporta-se de forma previsivel e rastreavel?

Metricas de Code Review

  • Taxa de Resolucao: % de bugs reportados que foram corrigidos. Metrica primaria do BugBot.
  • Taxa de Inspecao: LOC / Horas de Revisao. Benchmark: 150-500 LOC/hora.
  • Change Failure Rate: Metrica DORA. Canario para problemas de qualidade.
  • Tempo ate Primeira Revisao: Target recomendado: < 24h. Impacta diretamente o flow.

O Paradoxo da Percepcao

Estudo METR (2025): Desenvolvedores experientes trabalhando em seus proprios repositorios open-source mostraram resultados surpreendentes.

  • Tempo real com IA: +19% (mais lento)
  • Expectativa previa: -24% (achavam que seria mais rapido)

Mesmo apos experimentar o atraso, desenvolvedores ainda acreditavam que IA os acelerou em 20%.

Implicacoes para Lideres:

  • Nao confie em percepcoes — meca objetivamente
  • 60% dos lideres citam falta de metricas claras como maior desafio
  • Baseline antes de adotar: Cycle time, qualidade, satisfacao
  • Compare 3-6 meses depois: Dados reais vs. expectativas

Trate DevEx como problema de design de sistemas, nao iniciativa cultural. Defina metricas concretas antes de escalar ferramentas de IA.

O Problema dos Falsos Positivos

Ferramentas de code review com IA tipicamente operam com 5-15% de taxa de falsos positivos. Mas o custo de credibilidade e alto.

Por que ferramentas falham:

  • Leitura de diffs sem contexto do projeto
  • Checks baseados em sintaxe, nao em intencao
  • Sem consciencia de convencoes internas
  • Checks estaticos em comportamento dinamico
  • Alucinacoes de LLMs generalistas

Resultado: Ate 40% dos alertas sao ignorados. A automacao gera ruido em vez de insights acionaveis.

Estrategias de Mitigacao

Votacao Majoritaria: Multiplos passes paralelos. Bug real = sinal mais forte.

Feedback Loop: Desenvolvedores marcam falsos positivos. Sistema aprende.

Calibracao de Severidade: Comece restritivo, relaxe regras com muito ruido.

Inversao de Prompting

Abordagem Tradicional

Restringir o modelo para minimizar falsos positivos:

“Seja conservador. So reporte bugs se tiver alta certeza. Evite falsos alarmes.”

Resultado: Modelo muito cauteloso, deixa passar bugs reais.

Abordagem Agentica

Incentivar investigacao agressiva:

“Investigue cada padrao suspeito. Erre pelo lado de reportar. Use ferramentas para verificar hipoteses.”

Resultado: Agente explora mais, usa ferramentas para validar antes de reportar.

Em arquitetura agentica, a capacidade de chamar ferramentas e buscar contexto adicional muda fundamentalmente a estrategia de prompting. O modelo pode investigar antes de concluir.

Roadmap de Implementacao

Fase 1 - Baseline (4-6 semanas):

  • Medir cycle time atual
  • Documentar qualidade de codigo
  • Survey de satisfacao
  • Mapear gargalos de revisao

Fase 2 - Piloto (4-6 semanas):

  • Selecionar time piloto
  • Configurar regras iniciais
  • Calibrar sensibilidade
  • Coletar feedback semanal

Fase 3 - Iteracao (3-6 meses):

  • Analisar taxa de resolucao
  • Ajustar regras por feedback
  • Adicionar regras custom
  • Comparar com baseline

Fase 4 - Escala (ongoing):

  • Expandir para outros times
  • Monitorar DORA metrics
  • Integrar no onboarding
  • Documentar playbooks

Nao apresse a calibracao — credibilidade perdida e dificil de recuperar.

O Futuro do Code Review com IA

Execucao de Codigo: Agentes rodando codigo para verificar seus proprios reports de bugs.

Autofix: Agente que nao so encontra, mas corrige bugs automaticamente.

Monitoramento Continuo: Scan constante do codebase, nao apenas em PRs.

BugBot hoje e multiplas vezes melhor que no lancamento. Em poucos meses, sera significativamente melhor novamente.


Na Victorino Group, implementamos sistemas de IA governados para times de engenharia que precisam de qualidade sem sacrificar velocidade. Se voce quer escalar code review com IA mantendo controle, vamos conversar.

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa