Quem Vigia os 700 Experimentos?

No dia 8 de março, Andrej Karpathy publicou um script Python de 630 linhas no GitHub. Na segunda-feira de manhã, tinha 24 mil estrelas e 8,6 milhões de visualizações no X. A ferramenta, chamada autoresearch, roda experimentos de IA enquanto você dorme. Um agente lê seu próprio código-fonte, formula uma hipótese, modifica o código, treina o modelo, avalia o resultado e mantém ou reverte a alteração. Depois repete. E repete.

Em uma única noite, o agente completou 126 experimentos, melhorando a eficiência de um modelo de linguagem de 0,9979 para 0,9697 bits por byte. Deixado rodando por dois dias em um modelo mais profundo, processou aproximadamente 700 alterações autônomas e encontrou cerca de 20 melhorias que transferiram para modelos maiores. Reduziu o benchmark “Time to GPT-2” de 2,02 para 1,80 horas, um ganho de 11% em eficiência num código que Karpathy considerava já otimizado.

O agente identificou falhas em escalonamento de atenção e regularização que Karpathy diz ter ignorado ao longo de duas décadas de trabalho. Quebrou o que a comunidade de ML considera “folclore estabelecido” sobre exclusões de weight decay, descobrindo que valores mínimos de weight decay em embeddings e value embeddings melhoravam o desempenho. Um ponto ótimo estreito em escala de inicialização de transformer a 0,68x emergiu da busca exaustiva entre centenas de variações.

A ferramenta funciona. A pergunta que ninguém está fazendo é: quem a governa?

O que o autoresearch realmente é

Honestidade intelectual exige precisão. O autoresearch não está “automatizando o método científico,” apesar do que as manchetes sugerem. O método científico envolve formular hipóteses originais, desenhar experimentos para testá-las e revisar o entendimento teórico. O autoresearch faz algo mais restrito: roda um ciclo de modificar-medir-manter/reverter num script de treinamento fixo contra uma métrica de validação fixa.

Isso está mais próximo de hill-climbing automatizado do que de raciocínio científico. O agente não pode questionar sua própria função objetivo, propor novos critérios de avaliação ou reconhecer quando seu alvo de otimização está desalinhado com o objetivo real. Ele otimiza dentro do quadro que um humano define. Não redefine o quadro.

Dito isso, o autoresearch é genuinamente diferente de ferramentas tradicionais de AutoML como Optuna, Ray Tune ou Hyperopt, que fazem experimentação automatizada há mais de uma década. A diferença: o autoresearch usa um LLM para modificar código real, não apenas varrer espaços de parâmetros predefinidos. O agente pode alterar a arquitetura do modelo, adicionar técnicas de regularização, reestruturar loops de treinamento e articular seu raciocínio em linguagem natural. O log de experimentos se lê como um caderno de pesquisa, não como uma grade de parâmetros.

Isso é um incremento real. Não é uma revolução.

A progressão que ninguém está governando

Como exploramos em A Mudança de Fase na Engenharia de Software, Karpathy descreveu uma mudança profunda em janeiro de 2026: inverter de 80% código manual para 80% código gerado por IA. A progressão desde então mapeia uma trajetória clara de diminuição do envolvimento humano:

2025: Humano escreve código. IA auxilia com completação e sugestões.

Janeiro de 2026: Humano descreve intenção em linguagem natural. IA escreve código. Humano revisa. Isso é “vibe coding.”

Março de 2026: Humano define uma função de fitness e um orçamento de computação. IA escreve código, executa, avalia resultados e decide o que manter. Humano dorme.

Cada passo reduz o envolvimento humano e amplia a superfície de governança que as organizações precisam cobrir. No vibe coding, o humano ainda revisa cada alteração. No autoresearch, a revisão acontece depois que 126 ou 700 alterações já foram commitadas.

O problema de integridade da validação

O usuário alexisthual levantou a questão mais afiada na discussão do GitHub: “Você não está preocupado que tantos experimentos eventualmente vão ‘estragar’ o conjunto de validação?”

Essa não é uma preocupação hipotética. Com 126 experimentos avaliados contra os mesmos dados de validação, o autoresearch enfrenta o problema de testes múltiplos. Cada experimento é um teste de hipótese. Sem correção, a probabilidade de manter alterações que exploram idiossincrasias do conjunto de validação cresce a cada iteração.

Pesquisas do estudo MLE-bench (arXiv 2507.02554) confirmam isso em escala: quando agentes de IA selecionam soluções por pontuação de teste em vez de pontuação de validação, os resultados inflam de 9 a 13%. Os agentes começam a demonstrar overfitting por volta da marca de 50 horas. O loop do autoresearch não tem validação cruzada, rotação de holdout, nem detecção de drift.

Karpathy reportou que 20 melhorias “transferiram para modelos maiores,” o que fornece alguma evidência contra overfitting puro. Mas “transferiram” é vago. Qual foi o tamanho do efeito? Todas as 20 transferiram igualmente? Um tweet não é um estudo de replicação.

A taxa de falha de 81% na sessão publicada (102 de 126 experimentos descartados) e a fragilidade dos resultados (warmup de 5% “NÃO reproduziu” entre sessões) sugerem que a confiabilidade do método como ferramenta de pesquisa permanece não comprovada.

O cenário do enxame

A história escalou quando Varun Mathur, CEO da Hyperspace AI, distribuiu o autoresearch em uma rede peer-to-peer. Trinta e cinco agentes autônomos rodaram 333 experimentos completamente sem supervisão usando o protocolo GossipSub para compartilhamento de descobertas em tempo real. A VentureBeat reportou que esses agentes “redescobriram de forma independente marcos de ML que levaram pesquisadores humanos 8 anos para formalizar.”

Essa afirmação exige escrutínio. Os “marcos” em questão são RMSNorm e tied embeddings, ambas técnicas padrão documentadas em incontáveis artigos e tutoriais. Os agentes LLM que conduziam os experimentos foram treinados com essa literatura. Eles não derivaram essas técnicas a partir de primeiros princípios. Reconheceram contextos onde técnicas conhecidas se aplicam. Uma calculadora que produz “2+2=4” não redescobriu a aritmética.

O que é genuinamente interessante no experimento da Hyperspace é a coordenação emergente. Agentes com GPU e agentes somente com CPU desenvolveram estratégias experimentais diferentes. As máquinas com GPU forçaram taxas de aprendizado agressivas; as com CPU, limitadas por computação, focaram em escolhas de inicialização e normalização. Quando um agente descobriu que a inicialização Kaiming reduziu a loss em 21%, a descoberta se propagou pela rede gossip em horas.

Isso é inteligência de enxame. Tem valor. Também é fundamentalmente resistente à governança centralizada. Nenhum humano aprovou a descoberta Kaiming antes que 23 outros agentes a incorporassem. Ninguém verificou se ela transferiria antes que se espalhasse. A coordenação aconteceu mais rápido do que qualquer processo de supervisão humana poderia operar.

O vácuo de governança

A Pesquisa EY Technology Pulse de março de 2026 fornece o contexto empresarial: 97% dos executivos de tecnologia veem IA autônoma como prioridade alta ou essencial. Mas 52% das iniciativas de IA em nível departamental operam sem supervisão formal. Oitenta e cinco por cento priorizam velocidade de lançamento sobre verificação exaustiva de IA. Quarenta e cinco por cento já sofreram vazamentos de dados por ferramentas de IA não autorizadas.

O autoresearch se encaixa perfeitamente nessa lacuna. É open source, licença MIT, 630 linhas de Python. Qualquer pessoa com acesso a GPU e uma chave de API de LLM pode implantá-lo esta noite. A simplicidade faz parte do apelo. Também é o risco de governança.

A ferramenta tem exatamente um mecanismo de contenção: o agente só pode modificar o train.py. Essa é toda a arquitetura de segurança. Sem portões de aprovação. Sem detecção de anomalias. Sem restrições de escopo além dos limites do arquivo. Sem trilha de auditoria além de commits git. Sem mecanismo para detectar quando o agente passou de melhoria genuína para gaming de métricas.

Quando discutimos governança de agentes em teoria, os cenários podem parecer abstratos. O autoresearch os torna concretos. Quem é responsável quando uma “melhoria” descoberta por um agente causa uma regressão em produção? Quem revisa 700 alterações autônomas por corretude, não apenas por melhoria de métrica? O que acontece quando agentes compartilham resultados ruins por uma rede gossip e múltiplos sistemas incorporam descobertas falhas?

O que “designer experimental” realmente significa

A formulação de Karpathy é que o papel humano muda de “experimentador” para “designer experimental.” Isso é preciso, mas incompleto. O designer experimental também precisa ser o governador experimental.

Definir a função de fitness não é apenas uma decisão técnica. No autoresearch, val_bpb é limpo e inequívoco. Mas como Ken Huang observa em sua análise das implicações empresariais do autoresearch, a maioria dos objetivos organizacionais carece dessa clareza. Qual é o equivalente de val_bpb para satisfação do cliente? Para conformidade regulatória? Para confiança na marca?

O agente quebrou o folclore estabelecido sobre exclusões de weight decay. Isso tem valor quando o folclore está errado. É perigoso quando o “folclore” é na verdade uma restrição de segurança que existe por razões que o agente não consegue compreender.

Definir o orçamento de computação também é um ato de governança. Cinco minutos por experimento limita o raio de impacto. Mas o experimento da Hyperspace mostra o que acontece quando a restrição afrouxa: 35 agentes, 333 experimentos, zero checkpoints humanos. Os agentes eram limitados por computação, não por política.

O pré-requisito de medição é a fundação pouco glamorosa da experimentação autônoma governada. Antes de implantar qualquer sistema como o autoresearch, organizações precisam de respostas para: Que métrica estamos otimizando? Melhorar essa métrica garante que estamos melhorando o que realmente nos importa? Quem revisa quando a métrica melhora mas o resultado não? Quantos experimentos sem supervisão são aceitáveis antes de um checkpoint humano?

A avaliação honesta

O autoresearch é uma ferramenta útil que foi embrulhada em retórica revolucionária. O próprio Karpathy é relativamente comedido: nota a fragilidade, nega uso em produção e convida ao escrutínio. O excesso de promessas vem principalmente da camada editorial da VentureBeat e de partes comercialmente interessadas como a Hyperspace AI e Eric Siu, que projetou “36.500 experimentos de marketing por ano” sem reconhecer que experimentos de marketing precisam de tráfego real de usuários, não de ciclos de GPU.

A contribuição genuína é o padrão LLM-como-gerador-de-hipóteses: usar raciocínio em linguagem natural para navegar um espaço de busca que ferramentas tradicionais de AutoML percorrem mecanicamente. Isso é um incremento real sobre Optuna e Ray Tune. Não é a automação da ciência.

Para líderes empresariais, a lição não é “implante o autoresearch.” É que loops de experimentação autônoma agora são simples o bastante para qualquer equipe com acesso a GPU rodá-los. A questão de governança não é se permitir experimentação autônoma de IA. É se sua organização saberá quando ela estiver acontecendo.

Fontes

Carl Franzen. “Andrej Karpathy’s new open source ‘autoresearch’ lets you run hundreds of AI experiments a night.” VentureBeat, março 2026.
Andrej Karpathy. Session report: GitHub Discussion #43, autoresearch repository. Março 2026.
EY. “Technology Pulse Poll: Autonomous AI Adoption Surges as Oversight Falls Behind.” Março 2026.
MLE-bench. “AI Research Agents for ML: Search, Exploration, and Generalization.” arXiv 2507.02554.
Ken Huang. “Exploring Andrej Karpathy’s Autoresearch: Enterprise Implications.” Substack, março 2026.

O Victorino Group ajuda organizações a construir a infraestrutura de governança que torna a experimentação autônoma de IA segura, auditável e realmente útil: contato@victorino.com.br | www.victorino.com.br