O Déficit de Infraestrutura Entre a Demo e a Operação de Agentes

Nader Dabit publicou um dado que merece mais atenção do que recebeu. Na Cognition, a empresa por trás do Devin, 70% das sessões de agentes ainda são iniciadas por humanos. Pelo webapp, pelo Slack, pelo Linear. A pessoa lê um alerta, interpreta o contexto e digita um prompt.

Trinta por cento rodam de forma automática, via API ou agendamento. A projeção é inverter essa proporção para 10/90 dentro de um ano.

É uma meta ambiciosa. Também é uma confissão: o agente mais visível do mercado ainda depende de um ser humano para saber o que fazer na maioria das vezes.

O Prompt Como Gargalo

Dabit descreve o problema com precisão cirúrgica: “That person is acting as a relay between two systems that could talk directly.” O humano que lê o alerta do PagerDuty, abre o Slack e digita “Devin, investiga esse erro no serviço X” está fazendo trabalho de roteador. A informação já existia em formato legível por máquina. O alerta tinha contexto. O sistema de monitoramento tinha logs. O repositório tinha histórico.

O prompt, diz Dabit, é o gargalo.

Concordo com o diagnóstico. Discordo da implicação de que resolver esse gargalo é principalmente um problema de engenharia de prompts ou de integração de APIs. O gargalo real é de infraestrutura organizacional, e a distância entre “agente que abre um PR” e “agente que resolve um incidente às 3h da manhã” é maior do que parece.

O Que a Bessemer Está Vendo

No mesmo dia em que Dabit publicou seu artigo, a Bessemer Venture Partners lançou o relatório “AI Infrastructure Roadmap: Five Frontiers for 2026”. Os dados complementam a análise da Cognition de forma incômoda.

Primeiro: 78% das falhas de IA são invisíveis. Não são erros que geram exceções ou alertas. São respostas confiantes e erradas, desvios graduais de contexto, desalinhamentos silenciosos que o usuário não questiona. Se a maioria das falhas não é detectada, um agente autônomo que opera sem supervisão humana não está operando “de forma confiável”. Está operando sem que ninguém saiba se é confiável.

Segundo: 93% dos padrões de falha persistem mesmo com modelos mais poderosos. Modelos melhores não eliminam categorias de erro. Eliminam instâncias específicas enquanto preservam os padrões estruturais. Uma organização que espera resolver problemas de confiabilidade trocando o modelo está investindo na dimensão errada.

Terceiro: primitivas de governança, nas palavras do relatório, “ainda não existem em workflows padrão de ML”. A infraestrutura para supervisionar agentes autônomos em produção não está atrasada. Não existe.

A Distância Real

Combine os dados e o cenário fica claro.

A Cognition quer que 90% das sessões do Devin sejam automáticas em um ano. A Bessemer documenta que 78% das falhas de IA são invisíveis e que a infraestrutura de governança para agentes autônomos não existe. A tensão entre essas duas realidades é o problema central que ninguém está resolvendo na velocidade necessária.

Como analisamos em A Tese dos Agentes na Nuvem Está Pela Metade, as mesmas propriedades que tornam agentes na nuvem poderosos (acessibilidade, acesso cross-repo, execução assíncrona, escala organizacional) são as que os tornam perigosos sem governança. Os dados novos de Dabit acrescentam uma dimensão temporal: a Cognition não está falando de um futuro distante. Está falando de doze meses.

Para que a inversão 70/30 para 10/90 funcione sem catástrofe, uma organização precisa de quatro coisas que a maioria não tem:

Observabilidade de agentes, não apenas de sistemas. Monitorar se o servidor está de pé é diferente de monitorar se o agente está tomando decisões corretas. Quando 78% das falhas são invisíveis, a telemetria tradicional não basta. É necessário rastrear a qualidade das decisões, não apenas a disponibilidade do serviço.

Testes como especificação, não como verificação. Dabit menciona que agentes precisam de testes unitários abrangentes para auto-verificação. Está certo. Mas a maioria das organizações trata testes como rede de segurança para código humano. Agentes autônomos precisam de testes como contratos formais do que é permitido e do que não é. A diferença é sutil e fundamental.

Documentação como contexto operacional. Um agente que opera às 3h da manhã não pode perguntar para ninguém. A documentação deixa de ser referência para humanos e vira a memória de trabalho do agente. Se a documentação está desatualizada, incompleta ou ambígua, o agente vai operar com informação errada. E ninguém vai perceber até o próximo turno.

Limites de autoridade codificados. Qual é o raio máximo de impacto que um agente pode ter sem aprovação humana? Pode fazer deploy? Pode modificar configuração de banco de dados? Pode acessar dados de produção? A maioria das empresas não codificou essas restrições porque nunca precisou. Com agentes humano-iniciados, o humano funciona como filtro implícito. Com agentes autônomos, esse filtro desaparece.

Jensen Huang e a Economia da Inferência

Há outro fator acelerando essa transição. Na GTC 2026, Jensen Huang declarou que a demanda por computação de inferência agora rivaliza com a de treinamento. Isso importa porque muda a economia: quando inferência era barata em relação a treinamento, rodar agentes em escala era viável mesmo sem otimização. Com a demanda de inferência explodindo, cada sessão desnecessária de agente tem custo real.

A pressão econômica vai empurrar as empresas na direção de agentes mais autônomos (menos sessões iniciadas por humanos significam menos overhead) antes que a infraestrutura de governança esteja pronta. É o padrão clássico: incentivo econômico puxa para frente, infraestrutura de controle fica para trás.

O Que Isso Significa na Prática

Se você opera agentes de IA em produção ou planeja operar nos próximos doze meses, a pergunta não é se seus agentes vão se tornar mais autônomos. Vão. A pergunta é se sua infraestrutura de supervisão acompanha.

Três perguntas concretas para avaliar sua posição:

Você consegue detectar quando um agente autônomo toma uma decisão errada sem que um humano revise o output? Se a resposta é não, você não tem observabilidade de agentes. Tem observabilidade de infraestrutura, que é necessária mas insuficiente.
Seus agentes têm limites formais de autoridade, ou dependem do contexto implícito do prompt humano? Se dependem do prompt, a inversão para sessões automáticas elimina a única camada de controle que você tem.
Sua documentação interna é boa o bastante para um agente operar sozinho às 3h da manhã? Não para um humano consultar. Para um agente usar como única fonte de verdade. Se não é, o agente autônomo vai improvisar. E 78% das vezes que improvisar errado, ninguém vai saber.

A Cognition está construindo o futuro certo. Agentes que operam sem esperar por humanos são inevitáveis e desejáveis. Mas entre a demo onde um agente abre um PR e a operação onde um agente resolve incidentes de madrugada existe uma distância que não se percorre com modelos melhores ou prompts mais elaborados.

Percorre-se com infraestrutura. E essa infraestrutura, hoje, é o que falta.

Fontes

Dabit, N. “Engineering for Agents That Never Sleep.” Nader’s Thoughts (Substack), março 2026. Link
Shorter, T. “AI Infrastructure Roadmap: Five Frontiers for 2026.” Bessemer Venture Partners, março 2026. Link

Victorino Group ajuda empresas a construir a infraestrutura de governança que agentes autônomos exigem antes de escalar: contato@victorino.com.br | www.victorino.com.br