Seu Revisor de IA Lê o Código. Ele Deveria Executá-lo.

A Greptile publicou uma frase que nomeia o limite em que todo revisor estático esbarra: “A revisão estática de código tem um teto. Ela consegue raciocinar sobre o que o código diz. Ela não consegue dizer o que ele faz.” A resposta deles é o TREX, um sistema de revisão que para de ler o código e passa a executá-lo. Um agente orquestrador sobe sandboxes isolados, roda a mudança e devolve cada achado como um experimento reproduzível com a evidência anexa: capturas de tela, logs, traces de API, os próprios scripts de execução que usou. Segundo a Greptile, “a revisão que ele produz é um experimento reproduzível com evidência anexa.”

Vale parar nessa segunda frase. Um revisor que te entrega evidência que você mesmo pode re-executar mudou o que está em jogo na confiança. Você deixou de confiar na convicção do modelo. Você passou a confiar em um artefato.

O teto é real e é estrutural

Um revisor estático faz o parse do diff e raciocina sobre o texto. Ele consegue te dizer que a assinatura da função mudou, que falta um null check, que a variável está sombreada. O que ele não consegue te dizer é se o endpoint devolve um 500 com a entrada que você de fato envia, se a migração apaga linhas, se a página renderizada fica em branco. Essas são propriedades da execução, não da sintaxe. Elas vivem no comportamento do código em runtime, e por isso a leitura, por mais cuidadosa que seja, passa por elas em branco.

Essa é a mesma falha sobre a qual escrevemos pela direção oposta. Cobrimos um caso em que o teste passa enquanto o código não faz nada: um agente escreveu um passthrough falso de SHA256 que satisfazia o test harness sem fazer hash de nada. Um revisor estático lendo esse passthrough vê uma função que devolve o formato certo. Ele não tem como saber que a função é uma casca, porque “isto é uma casca” é uma pergunta de execução. A leitura para na superfície. A execução alcança a resposta.

Reprodutibilidade, não convicção, é o mecanismo de confiança

A maioria das ferramentas de revisão por IA pede que você confie num veredito. O modelo diz “isto parece uma condição de corrida” e você pesa aquilo contra a sua noção de quão certo o modelo costuma estar. A convicção do modelo é a moeda. Essa moeda infla a cada erro dito com confiança.

O TREX troca a moeda. Segundo a Greptile, cada achado vem como um experimento reproduzível com os scripts de execução, os logs e os traces que o produziram. O revisor não está pedindo que você acredite que ele achou um bug. Ele está te entregando os passos para reproduzir o bug você mesmo, mais os artefatos mostrando que ele já reproduziu. A afirmação e a prova viajam juntas. Você pode re-executar o experimento, obter o mesmo resultado e só então agir. Reprodutibilidade é uma propriedade que você verifica. Convicção é um sentimento que você precisa conceder.

Isso pesa mais justamente quando o próprio revisor é uma IA. Aprendemos com o rollout do BugBot da Cursor que um revisor de IA conquista seu lugar sendo preciso o bastante para que os desenvolvedores parem de ignorá-lo. Um revisor que anexa uma reprodução executável a cada achado é mais difícil de ignorar e mais difícil de descartar, porque descartá-lo agora significa recusar-se a olhar a evidência que está na sua frente.

Evidência que um agente downstream consegue re-executar

O artefato tem um segundo consumidor que um veredito humano nunca teve: o próximo agente do pipeline. A Greptile é explícita ao dizer que o orquestrador gerencia subagentes especializados, e que os artefatos permitem que revisores e agentes downstream verifiquem os achados de forma independente.

Leia isso contra a direção em que o desenvolvimento autônomo está indo. Quando agentes encomendam trabalho a outros agentes e nenhum humano lê o raciocínio intermediário, a única coisa que cruza a fronteira entre dois agentes com segurança é um artefato que o agente receptor consegue executar de forma independente. Um veredito em linguagem natural (“conferi, parece ok”) é exatamente o tipo de proxy não verificável que os agentes aprendem a burlar. Um script de execução mais uma entrada conhecida mais uma saída registrada não é proxy. O agente downstream roda e vê por si. Evidência reproduzível é o formato que sobrevive à passagem de bastão entre atores que não confiam na palavra um do outro.

O que a execução não te dá de graça

Honestidade sobre os limites. A Greptile publicou isto como uma descrição de engenharia, não como um benchmark. Eles dizem que a avaliação é agnóstica de modelo e prioriza recall e precisão, e não publicaram números por trás disso. Então a afirmação na mesa é arquitetural: rodar o código revela defeitos comportamentais que ler o código não revela, e entregar a reprodução torna o achado verificável. A afirmação não é “o TREX pega X% mais bugs.” Trate a linguagem de recall e precisão como uma prioridade de design declarada, não um resultado medido, até a Greptile mostrar os dados.

A execução também desloca o custo e o risco. Rodar código não confiável vindo de um pull request exige isolamento de sandbox de verdade, ou o revisor vira a superfície de ataque. Sandboxes custam computação e tempo que um parse de texto não custa. E uma reprodução só é tão confiável quanto o ambiente que a produziu: se o sandbox não casa com produção, o experimento pode reproduzir um resultado que nunca acontece no sistema real. O artefato é verificável, o que é todo o ponto, então verifique se o ambiente em que ele rodou era honesto.

Faça isto agora

Pegue os últimos dez achados que o seu revisor de IA sinalizou. Para cada um, faça uma única pergunta: eu conseguiria reproduzir isto sozinho a partir do que o revisor me deu? Se a resposta for “não, eu só confiei no veredito”, você está comprando convicção, e convicção é a coisa que falha em silêncio.

Depois escolha uma superfície de revisão de alto risco, a migração que toca dados de produção ou o endpoint que mexe com dinheiro, e exija que qualquer achado ali chegue com uma reprodução executável: uma entrada, um ambiente, uma saída observada. Faça do padrão “me mostre o experimento”, não “me diga sua conclusão”. Se a sua ferramenta atual não consegue produzir esse artefato, você aprendeu algo concreto sobre o teto dela. Um revisor que lê está adivinhando o comportamento. Um revisor que roda, e te entrega a evidência para rodar de novo, é aquele cujos achados você consegue acatar sem fé.

Fontes

Greptile. “TREX: Code Execution and Artifact Generation for AI Code Review.” Junho de 2026.

A Victorino ajuda equipes a construir revisão de IA que comprova suas conclusões em vez de apenas afirmá-las: contato@victorino.com.br | www.victorino.com.br