O Problema do Controle de IA

Agentes de IA Têm Opiniões: O Que as Escolhas do Claude Code Revelam Sobre Delegação Não Governada

TV
Thiago Victorino
10 min de leitura
Agentes de IA Têm Opiniões: O Que as Escolhas do Claude Code Revelam Sobre Delegação Não Governada

Você delega uma decisão de arquitetura a um agente de IA. Ele escolhe GitHub Actions para CI. Você não perguntou por quê. Ele não explicou. A escolha simplesmente aconteceu, silenciosa como um default de configuração.

Agora multiplique isso por vinte categorias de ferramentas, três modelos diferentes, e 2.430 respostas individuais. O resultado é um estudo publicado pela Amplifying.ai em fevereiro de 2026, e o que ele revela não é sobre preferências de framework. É sobre como decisões técnicas estão sendo tomadas sem que ninguém perceba que são decisões.

Os Números Antes da Interpretação

O estudo testou três modelos da família Claude (Sonnet 4, Sonnet 4.5 e Opus 4.6) em 20 categorias de ferramentas, de CI/CD a gerenciamento de estado, de ORM a deploy. As perguntas eram diretas: dado um cenário específico, qual ferramenta você recomenda?

Os resultados são notáveis pela consistência. GitHub Actions aparece como escolha primária em 93,8% das respostas sobre CI/CD. Stripe domina pagamentos com 91,4%. shadcn/ui lidera componentes de UI com 90,1%. Vercel alcança 100% de recomendação para deploy de aplicações JavaScript.

90% de concordância entre os três modelos. Não houve debate. Não houve “depende do contexto”. Os modelos convergem para as mesmas ferramentas com uma unanimidade que deveria causar desconforto, não alívio.

As Ausências São Mais Reveladoras

Os zeros são onde a análise fica interessante.

Express.js recebeu zero recomendações primárias em 119 perguntas sobre frameworks backend. Zero. Um framework com 33,7 milhões de downloads semanais no npm, sustentáculo de uma fração significativa da web, simplesmente não existe no vocabulário de preferências desses modelos.

Redux, que durante anos foi sinônimo de gerenciamento de estado em React, também recebeu zero picks primários. Zustand dominou a categoria.

A tentação é interpretar isso como “a IA sabe o que é melhor”. Que Express é legado. Que Redux é verboso demais. Que os modelos estão fazendo a curadoria que desenvolvedores não têm tempo de fazer.

Essa interpretação é confortável. E errada.

Prompt, Não Profecia

O zero de Express é um artefato de design do estudo, não um veredito sobre o framework. Os cenários de teste presumiam projetos greenfield. Express domina em codebases existentes onde roteamento já está embutido na estrutura do projeto. Pergunte “qual framework usar num projeto novo?” e Express perde. Pergunte “como organizar rotas neste projeto Express existente?” e o modelo colabora sem hesitar.

O estudo mediu o que os modelos recomendam quando você começa do zero. Para a maioria das organizações, começar do zero é a exceção, não a regra. A base instalada é enorme, diversa, e cheia de escolhas históricas que nenhum agente de IA vai reescrever.

Essa distinção importa porque determina o tipo de risco. O risco não é que Express desapareça. É que um desenvolvedor júnior, pedindo ajuda a um agente sem especificar contexto suficiente, receba uma recomendação de reescrita onde uma adaptação incremental seria a resposta correta.

Custom/DIY: A Resposta que Ninguém Queria

O dado mais curioso do estudo aparece nos cantos: “Custom/DIY” foi a recomendação primária em 12 das 20 categorias. Sessenta por cento.

Lido sem contexto, isso parece um fracasso. Por que o modelo recomenda “construa você mesmo” quando existem dezenas de bibliotecas disponíveis?

Lido com contexto, pode ser a resposta mais honesta do estudo. Projetos greenfield, cenários específicos, requisitos que não encaixam perfeitamente em nenhuma ferramenta existente. A resposta “construa uma solução sob medida” é, em muitos casos, a resposta correta. É também a resposta que nenhum vendor de ferramentas quer ouvir.

O problema não é a recomendação em si. É que “custom” abrange desde “escreva 20 linhas de código utilitário” até “construa um framework inteiro do zero”. Sem governança sobre o que “custom” significa na prática, um agente pode iniciar um projeto de engenharia desproporcional ao problema que está resolvendo.

Personalidade do Modelo: Conservadorismo versus Vanguarda

Um detalhe do estudo que merece atenção: os modelos não concordam em tudo. Sonnet 4.5 tendeu para escolhas conservadoras. Opus 4.6 recomendou Drizzle como ORM em 100% dos cenários onde foi consultado (contra adoção ainda modesta no mercado). Sonnet 4 ficou no meio.

Isso não é bug. É consequência direta da composição dos dados de treinamento e do momento do corte de cada modelo. Drizzle ganhou tração significativa em 2025-2026, e modelos treinados com dados mais recentes refletem essa tração. Modelos com corte de dados anterior recomendam Prisma.

A implicação prática: trocar de modelo é trocar de consultor. Não apenas em capacidade de raciocínio, mas em preferências concretas sobre ferramentas. E como exploramos na análise sobre como a IA distribui atenção, essas preferências são artefatos de exposição nos dados de treinamento, não resultado de avaliação técnica.

Dados de treinamento são política oculta. Definem quais ferramentas recebem visibilidade, quais são relegadas ao esquecimento, quais parecem “óbvias” quando na verdade são apenas frequentes.

Cline e a Ilusão do Benchmark

O estudo inclui uma nota lateral sobre o Cline, ferramenta de coding com IA que subiu de 47% para 57% no Terminal Bench. A manchete sugere melhoria substancial de capacidade.

A realidade é mais prosaica. A maior melhoria veio de aumentar o timeout de 600 para 2.400 segundos. Quatro vezes mais tempo para completar a mesma tarefa. O benchmark mediu paciência, não inteligência.

Como documentamos no paradoxo dos benchmarks de code review, cada vendor desenha o teste para medir o que faz melhor. O Terminal Bench não é exceção. Quando o maior ganho vem de mudar uma configuração de infraestrutura, o benchmark está medindo a infraestrutura, não o modelo.

DeepSource e o Problema do Autoatendimento

O estudo também menciona a DeepSource publicando benchmarks de code review onde, previsivelmente, a DeepSource vence. O padrão é familiar: todo vendor de code review constrói um benchmark, executa o benchmark, e vence o benchmark.

Não é fraude. É seleção estrutural. Cada empresa desenha cenários que favorecem suas otimizações. Os números são tecnicamente corretos e praticamente inúteis para quem precisa decidir qual ferramenta adotar.

O que conecta DeepSource ao estudo de preferências de ferramentas é o mecanismo subjacente: em ambos os casos, os dados de treinamento provavelmente dirigem o resultado. Ferramentas com mais presença em repositórios públicos, mais documentação indexada, mais discussão em fóruns, recebem mais atenção dos modelos. Não porque são melhores, mas porque são mais visíveis.

O Que Isso Significa para Governança

A conclusão mais incômoda do estudo não está nos percentuais. Está no que acontece quando você junta todas as peças.

Agentes de IA recomendam ferramentas com 90%+ de consistência entre modelos. Essas recomendações são dirigidas por dados de treinamento, não por análise contextual do seu projeto. Trocar de modelo altera as recomendações. E a maioria das equipes de engenharia não sabe que essas decisões estão sendo tomadas por padrão.

Cada vez que um desenvolvedor aceita uma sugestão de ferramenta de um agente sem questionar, está delegando uma decisão de arquitetura a um processo estatístico treinado em código público. Para escolhas de baixo impacto, isso é eficiência. Para escolhas que definem a estrutura de longo prazo de um sistema, é risco não mapeado.

Três ações concretas:

Primeira, trate recomendações de ferramentas como RFC, não como fato. Se um agente sugere uma migração ou uma ferramenta nova, a sugestão deve passar pelo mesmo processo de revisão que qualquer proposta arquitetural. A origem ser um modelo de IA não a torna mais ou menos válida. Mas a torna menos contextualizada.

Segunda, documente as razões, não apenas as escolhas. “Usamos Zustand porque o agente recomendou” não é uma ADR (Architecture Decision Record). “Usamos Zustand porque nosso state é local, não compartilhado, e a API é mais simples para nosso caso” é. O agente pode sugerir. O humano precisa justificar.

Terceira, reconheça que dados de treinamento são política. Quando 93,8% das respostas apontam para GitHub Actions, isso reflete a prevalência de GitHub Actions em repositórios públicos, não necessariamente a adequação para seu projeto. Ferramentas menos populares em código aberto, mas mais adequadas para contextos corporativos (Tekton, Dagger, Jenkins em cenários específicos), simplesmente não existem no vocabulário de preferências do modelo.

O estudo da Amplifying.ai é valioso não pelos rankings que produz, mas pela pergunta que levanta: quem governa as preferências do seu agente de IA?

Se a resposta é “ninguém”, suas decisões de arquitetura estão sendo moldadas por dados de treinamento que você não auditou, com vieses que você não mapeou, e com uma consistência que faz tudo parecer mais deliberado do que realmente é.


Fontes

  • Amplifying.ai. “What Tools Does Claude Code Recommend?” Fevereiro 2026. 2.430 respostas, 3 modelos Claude, 20 categorias.
  • npm. Express.js download statistics. 33,7 milhões de downloads semanais (fevereiro 2026).
  • Cline. Terminal Bench results. Melhoria de 47% para 57%, timeout expandido de 600s para 2.400s.
  • DeepSource. Code review benchmark. Fevereiro 2026.

O Grupo Victorino ajuda organizações a construir governança sobre decisões técnicas delegadas a agentes de IA. Se suas equipes estão usando agentes sem políticas claras sobre recomendações de arquitetura, entre em contato: contato@victorino.com.br | www.victorino.com.br

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa