Quando o Que Está Sendo Melhorado É Quem Melhora: Governando a Autoaperfeiçoante

Um laboratório de fronteira acabou de colocar o próprio nome no loop que a maioria dos frameworks de governança finge não existir. Em “Recursive Self-Improvement”, Marina Favaro e Jack Clark escrevem que a Anthropic está “delegando uma parcela crescente do desenvolvimento de IA aos próprios sistemas de IA, o que está acelerando nosso trabalho”. O ponto final dessa tendência, dito sem rodeios, é “um sistema de IA capaz de projetar e desenvolver, de forma totalmente autônoma, o próprio sucessor”. Eles dão um nome a isso: autoaperfeiçoamento recursivo.

Isso importa por causa de quem está dizendo. Já escrevemos antes sobre a Devin construindo a Devin e sobre a probabilidade de 60 por cento de Clark até 2028. Aquilo era um caso de fornecedor e uma previsão. Isto é outra coisa. É um laboratório de fronteira descrevendo, com dados internos antes não divulgados, como o loop já está rodando dentro das próprias paredes, e propondo como governá-lo. O framework merece uma leitura de governança, não uma leitura de hype.

O Loop Que a Anthropic Desenhou

O texto apresenta uma linha do tempo de cinco estágios de como o próprio desenvolvimento de IA mudou. De 2021 a 2023, humanos construíram o primeiro Claude. De 2023 a 2025, chatbots ajudavam com trechos de código. Ao longo de 2025 e 2026, agentes de código escreviam e editavam arquivos de forma independente. Hoje, agentes autônomos rodam código e delegam a outros agentes. O estágio final é marcado como “20XX?” e rotulado “fechando o loop”: agentes construindo e treinando modelos.

Esse último estágio é aquele que todo controle existente presume que não acontecerá sob sua guarda. A maior parte da governança, inclusive a nossa, é construída em torno de uma janela de revisão: um agente propõe, um humano inspeciona, um humano aprova ou rejeita. A linha do tempo de cinco estágios descreve o estreitamento contínuo dessa janela. Quando agentes delegam a outros agentes, o humano deixa de estar no caminho da inspeção. Ele revisa um resumo de um resumo, se é que revisa.

A Anthropic divide o trabalho delegado em duas categorias que vale separar. Há a engenharia, definida como “escrever o código, montar a infraestrutura e supervisionar o treinamento do modelo”. E há a pesquisa: “decidir quais experimentos rodar, interpretar o que volta e descobrir quais ideias tentar a seguir”. A engenharia é a metade mecânica. A pesquisa é a metade do julgamento. A pergunta de governança gira em torno de qual metade o loop está fechando.

Os Números Que Eles Colocaram na Mesa

O que torna isto um texto de posição, e não um experimento mental, são os dados internos. A Anthropic mede por quanto tempo seus modelos sustentam uma tarefa coerente de forma autônoma: o Claude Opus 3 dava conta de tarefas de quatro minutos em março de 2024, o Claude Sonnet 3.7 chegou a tarefas de 90 minutos um ano depois, e o Claude Opus 4.6 alcançou tarefas de 12 horas. Em trabalho de código aberto, o texto reporta uma taxa de sucesso de 76 por cento em maio de 2026, uma subida de 50 pontos percentuais em seis meses.

Os números de julgamento de pesquisa são os que um leitor de governança deveria sentar e digerir. A Anthropic reporta que, em otimização de experimentos, um modelo interno alcançou cerca de 3x de aceleração em maio de 2025, e um preview posterior chegou a cerca de 52x em abril de 2026. E na questão do tino de pesquisa, a proporção de vezes em que um modelo sugeriu um próximo passo melhor que o humano subiu de 51 por cento em novembro de 2025 para 64 por cento em abril de 2026.

Leia essa última cifra com cuidado. Não é um benchmark de capacidade. É a medição do modelo superando o humano exatamente na decisão que o humano deveria estar supervisionando. Quando o supervisor acerta com menos frequência que o supervisionado, a janela de revisão não estreitou. Ela inverteu.

Um pesquisador da Anthropic, citado no texto, descreve um projeto de pesquisa autônomo assim: “O Claude fez tudo isso com ajuda bem mínima em 1 ou 2 dias. Se um colega júnior voltasse com esses resultados, eu ficaria levemente impressionado.” Levemente impressionado é o tom. O sinal de governança está em “ajuda bem mínima”.

Supervisão do Processo, Não da Saída

Aqui o framework da Anthropic rompe com o roteiro habitual de segurança, e aqui ele conquista atenção. O controle proposto não é uma revisão de saída melhor. É um compromisso sobre o próprio processo.

O Anthropic Institute diz que vai “conduzir pesquisa, em colaboração com muitos outros, e tomar ações para ajudar a construir os sistemas que uma desaceleração ou pausa críveis exigiriam”. E nomeia uma condição: “Se tais sistemas existissem, esperamos que desaceleraríamos ou pausaríamos temporariamente, se outros desenvolvedores na fronteira ou perto dela também o fizessem de forma verificável.”

Repare na estrutura desse compromisso. Ele é condicional à verificação e condicional à coordenação. Uma pausa só funciona se você consegue provar que os outros também pausaram, o que significa que o objeto de governança deixa de ser o comportamento de um único modelo. É a taxa coletiva do loop entre laboratórios. É um enquadramento honesto, e também uma admissão silenciosa: nenhuma revisão de saída isolada detém o autoaperfeiçoamento recursivo, porque o risco não mora em nenhuma saída isolada. Mora na taxa.

Esse é o movimento que todo conselho deveria copiar na própria escala. Pare de perguntar apenas se o último commit do agente foi seguro. Comece a perguntar se você ainda consegue ver, e ainda consegue frear, a taxa com que agentes melhoram os agentes. O revisor de código automatizado que a Anthropic roda sobre as próprias mudanças de produção é um controle de saída. O compromisso de pausa é um controle de processo. Você precisa dos dois, e quase ninguém tem o segundo.

Onde Este Texto Para, e Por Que Isso Importa

Uma disciplina antes de alguém construir uma estratégia sobre isso. Esta é uma fonte primária única, de um laboratório com interesse claro em ser visto como o ator responsável da sala. É coassinada por uma líder de política da Anthropic e por um cofundador da Anthropic. Os números internos são “antes não divulgados”, o que é outra forma de dizer não auditados por ninguém de fora do prédio. Trate o framework como a posição da Anthropic, não como consenso independente.

O texto também é cuidadoso onde é incerto. Apresenta três futuros em vez de uma previsão: a tendência estagna, mas a capacidade se difunde amplamente; a eficiência se acumula enquanto humanos seguem definindo a direção; ou o autoaperfeiçoamento recursivo pleno chega com envolvimento humano mínimo. Não diz qual. Um leitor de governança deveria respeitar essa contenção e resistir ao impulso de importar um cronograma que a própria fonte se recusou a assumir.

O que a fonte sustenta é estreito e útil. O loop é real, está parcialmente rodando, e o único controle que escala junto com ele opera sobre a taxa do processo, não sobre saídas individuais.

Faça Isto Agora

Rode um exercício neste trimestre. Desenhe a sua própria versão da linha do tempo de cinco estágios da Anthropic para a sua organização. Em qual estágio você está? Onde, no seu pipeline, um agente já delega a outro agente sem nenhum humano no caminho da inspeção? Essa junção é o seu loop se fechando, e quase com certeza já está em produção em algum canto pequeno.

Depois escreva a resposta a uma pergunta para essa junção: se a taxa de agente-melhorando-agente dobrasse no próximo trimestre, você veria? E conseguiria freá-la? Se a resposta a qualquer das metades for não, você não tem uma estratégia de autoaperfeiçoamento recursivo. Você tem uma janela de revisão que inverte em silêncio enquanto você observa as saídas.

Fontes

Anthropic. “Recursive Self-Improvement.” Junho de 2026.

A Victorino ajuda conselhos a construir controles de nível de processo para sistemas de agentes autoaperfeiçoantes, não apenas revisões de saída: contato@victorino.com.br | www.victorino.com.br