Sete Horas de IA, Uma Semana de Verificação

TV
Thiago Victorino
9 min de leitura
Sete Horas de IA, Uma Semana de Verificação
Ouvir este artigo

A Reco.ai publicou um caso que deveria encerrar qualquer debate sobre velocidade de geração de código por IA. A empresa reescreveu toda a sua implementação de JSONata em Go, usando agentes de IA, em sete horas. Gastou $400 em tokens. O resultado elimina chamadas RPC entre serviços Go e Node.js, economizando $500K por ano em infraestrutura.

Sete horas. Quatrocentos dólares. Meio milhão de economia anual.

Se você parar nesse parágrafo, a conclusão é óbvia: IA é absurdamente produtiva. Caso encerrado.

Mas o caso não acaba aí.

A proporção que importa

As sete horas foram de geração. O projeto completo levou uma semana. A Reco.ai mantinha 1.778 casos de teste unitários e 2.107 testes de integração em produção. O código gerado pela IA precisou passar por todos eles. Depois disso, a equipe exigiu três dias consecutivos de zero discrepâncias em produção antes de promover o novo sistema.

Faça a conta. Sete horas de geração contra aproximadamente 168 horas de projeto total. A proporção geração-verificação é de 1:24. Para cada hora que a IA gastou escrevendo código, a equipe gastou 24 horas confirmando que o código funcionava.

A Reco.ai não é um caso de fracasso. É um caso de sucesso. Eles economizaram $500K por ano. O ponto é outro: mesmo no melhor cenário, com uma equipe disciplinada e infraestrutura de testes sólida, a verificação consome a esmagadora maioria do tempo.

Como exploramos em A Armadilha da Velocidade, otimizar a parte rápida do processo não acelera a entrega. Acelera a fila de espera.

A hierarquia de restrições

Will Larson, CTO da Imprint, publicou recentemente uma análise que coloca esse fenômeno em contexto. Ele descreve uma hierarquia de restrições no desenvolvimento de software: Tempo, Atenção, Julgamento, Criatividade. Cada nível só se torna o gargalo quando o anterior é resolvido.

A IA resolveu a restrição de Tempo. Gerar código deixou de ser lento. Mas isso expôs a próxima restrição: Atenção. Quando código é produzido em minutos, alguém precisa revisar esse código. Filas de PR crescem. Revisões se acumulam.

Os dados confirmam. A Faros AI analisou telemetria de mais de 10.000 desenvolvedores em 1.255 equipes. Equipes com alta adoção de IA completam 21% mais tarefas e fazem merge de 98% mais pull requests. Mas o tempo de revisão de PR aumentou 91%. Os desenvolvedores produzem mais. A organização não entrega proporcionalmente mais.

Larson conta que na Imprint, a equipe foi de deploy manual para deploy contínuo em cerca de três meses com aproximadamente três engenheiros. A mudança real não foi velocidade de codificação. Foi a reestruturação de onde as pessoas gastam tempo. Em 2014, equipes passavam a maior parte do tempo implementando decisões. Em 2026, passam quase todo o tempo projetando abordagens e revisando pull requests de agentes.

A restrição se moveu. Quem não moveu sua estrutura junto ficou preso na fila.

Diretrizes como infraestrutura de governança

Na mesma semana, o Stack Overflow reuniu três vozes do setor que convergem no mesmo diagnóstico.

Charity Majors, CTO da Honeycomb, argumenta que erros de código de agentes devem ser tratados como oportunidades para atualizar arquivos de padrões. Cada erro revela uma parte tácita das convenções de codificação que nunca foi explicitada. Quinn Slack, CEO da Sourcegraph, distingue entre quem faz prompts casuais e quem investe tempo definindo regras em arquivos como agents.md, iterando sobre eles para melhorar o processo. Logan Kilpatrick, do DeepMind/Google, reforça que diretrizes de codificação para agentes precisam ser mais explícitas e demonstrativas do que as diretrizes tradicionais.

A convergência é reveladora. Os três estão dizendo a mesma coisa com palavras diferentes: diretrizes de código para agentes de IA são infraestrutura de governança.

Isso confirma o que discutimos em Seu Guia de Estilo É uma Camada de Governança. Arquivos de configuração de agentes não são documentação técnica. São políticas operacionais. Definem o que o agente pode e não pode fazer, quais padrões seguir, quais exceções exigem revisão humana.

O déficit de verificação em números

A pesquisa State of Code 2026 da Sonar, com 1.149 desenvolvedores, traz o dado mais incômodo desta semana: 96% dos desenvolvedores não confiam totalmente na correção funcional de código gerado por IA. Apenas 48% verificam sempre antes de fazer commit.

Leia de novo. Quase todos desconfiam. Menos da metade verifica.

Isso não é preguiça. É uma consequência estrutural. Quando a IA gera código mais rápido do que qualquer pessoa consegue revisar, a pressão natural é aceitar e seguir em frente. O volume de output supera a capacidade de verificação. A verificação se torna o caminho crítico, e caminhos críticos sob pressão são os primeiros a sofrer cortes.

A Faros AI encontrou que equipes com alta adoção de IA têm aumento de 9% em bugs por desenvolvedor e crescimento de 154% no tamanho médio de PRs. Mais código, PRs maiores, mais bugs, revisão mais lenta. A produtividade individual sobe. A entrega organizacional fica estagnada.

Julgamento: a última restrição

Larson chama julgamento de “a última restrição.” Não é a última cronologicamente. É a última que a IA consegue resolver.

Um agente de IA pode gerar código que passa nos testes. Não pode determinar se os testes cobrem os cenários certos. Pode implementar tratamento de erros. Não pode julgar se as mensagens de erro fazem sentido para o engenheiro de plantão às 3h da manhã. Pode seguir padrões documentados. Não pode decidir quando o padrão não se aplica.

Como discutimos em O Julgamento do Seu Agente de IA Não Está Sendo Medido, a maioria das organizações não tem sequer métricas para avaliar a qualidade do julgamento dos seus agentes. Medem tokens consumidos, tempo de geração, linhas de código. Não medem a proporção de decisões do agente que um engenheiro sênior reverteria.

A Reco.ai tinha a infraestrutura para verificar: 1.778 testes unitários, 2.107 testes de integração, critério de três dias sem discrepâncias. A maioria das organizações não tem nada disso. Geram código com IA e confiam que “alguém vai revisar.”

O que muda na prática

Três sinais independentes desta semana apontam para a mesma conclusão: a era da velocidade de geração acabou. A IA já é rápida o suficiente. O investimento precisa migrar para a verificação.

Isso significa, concretamente:

Infraestrutura de testes como pré-requisito. A Reco.ai não teria economizado $500K sem quase 4.000 testes automatizados. A suíte de testes não é complemento do projeto de IA. É o que torna o projeto de IA possível. Organizações que querem capturar valor de geração por IA precisam primeiro investir em infraestrutura de verificação.

Diretrizes de agentes como documentos vivos. Charity Majors está certa: cada erro de agente é um sinal de que uma convenção tácita precisa ser explicitada. O arquivo de diretrizes do agente não é algo que você escreve uma vez e esquece. É um documento que evolui com cada interação. Isso exige processo, responsável e cadência de atualização.

Proporção geração-verificação como métrica organizacional. Se sua equipe gasta 1 hora gerando e 24 horas verificando, a alavanca de produtividade não está em gerar mais rápido. Está em verificar mais eficientemente. Automação de revisão, testes baseados em propriedades, análise estática alimentada pelo próprio agente. O investimento certo é reduzir o 24, não o 1.

Julgamento como competência explícita. Se julgamento é a restrição final, ele precisa ser tratado como disciplina, não como talento natural. Isso significa definir o que constitui bom julgamento em cada contexto, medir sua qualidade e desenvolver a capacidade sistematicamente.

O paradoxo da semana

A Reco.ai provou que IA pode reescrever um sistema inteiro em sete horas por $400. O mesmo caso provou que verificação leva 24 vezes mais tempo que geração. Will Larson confirmou que julgamento é a restrição que a IA não resolve. O Stack Overflow documentou que o setor está convergindo para tratar diretrizes de agentes como governança.

A velocidade está resolvida. A pergunta que resta: sua organização investiu proporcionalmente em verificação?

Se a resposta é não, a velocidade da IA não está acelerando sua entrega. Está acelerando sua fila.


Fontes

Victorino Group ajuda empresas a construir infraestrutura de verificação que acompanha a velocidade de geração da IA: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa