O Loop Científico Tem Quatro Papéis. A IA Ocupa Só Um.

No dia 25 de maio, Alejandro Piad Morffis publicou um ensaio curto chamado AI is doing something weird to Science. Ele faz o que a maioria das análises sobre IA e ciência não faz. Recusa o binário “IA está substituindo cientistas” versus “IA é só uma ferramenta”. No lugar, decompõe o que cientistas de fato fazem em quatro papéis e pergunta quais deles sobrevivem ao contato com um modelo de linguagem grande.

Os quatro papéis são: poser, proposer, verifier, curator. Leia devagar. A maioria das discussões sobre IA em trabalho intelectual colapsa os quatro num único nome chamado “o humano” ou “o especialista”. Piad separa os papéis, e quando eles estão separados, fica óbvio qual sustenta a estrutura. Não é o que a maioria assume.

Isso importa muito além da ciência. Os mesmos quatro papéis estão presentes em revisão jurídica, análise financeira, produção de marketing e qualquer outro workflow intelectual em que a IA agora gera candidatos. Se a sua organização não consegue apontar o verificador, você não tem governança. Tem decoração.

O que Piad realmente propôs

Os quatro papéis, na estrutura do próprio Piad:

Poser. Decide o que vale a pena resolver. Nomeia a pergunta. Define o enquadramento. Na conta de Piad, esse papel permanece exclusivamente humano. Não porque LLMs não consigam gerar perguntas, mas porque a escolha de qual pergunta importa é um ato de gosto, julgamento e responsabilidade que nenhum modelo sustenta.

Proposer. Gera candidatos a solução, rápido. É onde o LLM mora. Piad é preciso sobre o título: “Não descobridor, não autor, não cientista. O que gera candidatos rápido o bastante para o verificador achar algo no palheiro.” O trabalho do proposer é volume e variedade, não correção.

Verifier. Checa se um candidato é de fato verdadeiro. Nos quatro casos documentados por Piad, o verificador nunca é outro LLM. É lógica formal (Lean), um checador combinatório de provas, um experimento de laboratório, uma medição de cristalografia. O verificador não pode ser enganado por falsidades plausíveis, que é exatamente o que LLMs produzem com excelência.

Curator. Decide quais candidatos que sobreviveram merecem ser perseguidos adiante. Aqui o papel volta a ser humano. O verificador diz que algo é verdadeiro; o curador diz que é interessante, que cabe num programa de pesquisa, que avança o campo. Verdade é necessária, mas não suficiente.

A frase central de Piad é direta: “O verificador é o que importa. Um loop com um proposer fraco e um verifier forte ainda produz ciência válida, só que devagar.” Inverta a frase e a implicação é brutal. Um loop com proposer forte e verifier fraco produz besteira rápida em escala.

Os casos não são novos. A nomeação é.

Piad percorre quatro exemplos. O trabalho de Claude’s Cycles em combinatória, em que o Claude propôs construções candidatas e um checador formal verificou. A matemática de Terence Tao assistida por Lean, em que Tao dirige a pergunta e cura o resultado enquanto o Lean faz a verificação. AlphaFold, em que o modelo propõe estruturas de proteínas e a cristalografia verifica. GNoME, em que o modelo propõe materiais candidatos e a síntese física verifica.

Ele também volta a 1976. A prova de Appel-Haken do teorema das quatro cores usou a mesma estrutura de loop: um humano colocou a pergunta, um programa gerou configurações candidatas, um verificador checou cada uma e humanos curaram o resultado sobrevivente numa prova. Estamos rodando esse loop há cinquenta anos. Só nunca tínhamos nomeado os papéis.

Esse é o movimento que torna o ensaio útil. Piad não descobriu uma arquitetura nova. Deu nome a um padrão que já estava rodando, e quando o padrão tem nome, dá para testar.

O teste, exportado

Pegue os quatro papéis para qualquer aplicação de IA fora da ciência e pergunte:

Revisão jurídica. Um escritório usa um LLM para resumir contratos e sinalizar riscos. Quem é o poser? (O sócio que decide quais cláusulas importam.) Quem é o proposer? (O modelo.) Quem é o verifier? (Aqui fica desconfortável. Frequentemente a resposta é “outro associado lendo o resumo”, que é só um proposer mais lento. Um verificador real seria um motor de regras no nível da cláusula, um checador de citações contra jurisprudência, um diff estruturado contra um template conhecido como bom.) Quem é o curator? (O sócio de novo, decidindo quais riscos sinalizados merecem conversa com o cliente.)

A maioria das aplicações de IA jurídica hoje tem poser, proposer, curator, e nenhum verifier. O associado faz teatro de verificação. O modelo produz falsidades plausíveis. O associado, sob pressão de tempo, lê o texto como resumo competente. O curador herda material não verificado como se tivesse sido verificado.

Análise financeira. Mesmo exercício. Quem coloca a pergunta? (O CFO.) Quem propõe a análise? (O modelo rodando sobre os dados.) Quem verifica? (Um motor de reconciliação, um cálculo determinístico, uma referência cruzada contra o razão original. Não outro LLM “checando” o primeiro.) Quem cura? (O CFO, de novo.)

Quando o verificador falta, times financeiros acabam com narrativas elegantes que não citam nada checável. O padrão sobre o qual Piad alerta na ciência aparece idêntico na sala de diretoria.

Produção de marketing. Um time usa IA para produzir cem variações de anúncio. Poser: estrategista da marca. Proposer: o modelo. Verifier: … checagem de conformidade com brand guidelines? Revisão jurídica? Teste A/B contra comportamento real de usuário? A maioria dos times pula direto do proposer para o curator e chama o olho do diretor de criação de verificador. O diretor de criação não escala para cem variações, então a verificação silenciosamente não acontece.

Nos três casos, o modo de falha é o mesmo: um LLM faz proposer e verifier ao mesmo tempo. O framework de Piad nomeia por que isso não pode funcionar. O proposer otimiza para plausibilidade. O verifier precisa otimizar para verdade. Você não faz as duas coisas com o mesmo instrumento.

Por que “humano no loop” é a abstração errada

A maioria dos frameworks de governança de IA exige um “humano no loop”. A decomposição de Piad expõe a imprecisão. Qual humano? Fazendo qual trabalho? Em qual estágio?

Um humano agindo como curator depois que o verifier fez seu trabalho é governança. Um humano agindo como poser antes do proposer rodar é governança. Um humano agindo como verifier sobre a saída de um proposer LLM, sem infraestrutura de checagem formal por trás dele, é performance. Está sendo pedido que ele faça, lendo, o que um sistema não-LLM precisa fazer por construção.

É por isso que tantas aplicações de “revisão humana” degradam. Os revisores são honestos. Também são humanos, cansados, lendo prosa plausível. Não conseguem verificar o que o sistema não tornou verificável.

O que fazer esta semana

Três ações, ordenadas por alavancagem:

Rode o teste dos quatro papéis no seu workflow de IA mais usado. Escreva os quatro nomes. Atribua cada um a uma pessoa ou sistema. Se o slot do verifier é “o humano revisando o output”, você não tem verificador.
Nomeie o que precisaria ser verdade para um verificador real existir. Raramente é outra IA. Normalmente é um motor de regras, um checador formal, um sistema determinístico de registro ou um ambiente de teste. Frequentemente ainda não existe. Esse é o trabalho.
Pare de chamar revisores de “verificadores”. Revisores são curadores. Decidem o que merece atenção. Não estão equipados para pegar falsidades plausíveis em escala. A honestidade da nomeação por si só muda como líderes alocam orçamento.

Piad nos deu uma ferramenta. A ferramenta é pequena o bastante para usar numa segunda-feira e afiada o bastante para expor onde a governança termina e o teatro começa.

Fontes

blog.apiad.net. “AI is doing something weird to Science,” por Alejandro Piad Morffis. Maio de 2026.

A Victorino ajuda times de liderança a exportar o teste dos quatro papéis de Piad para workflows jurídicos, financeiros e de marketing, nomeando o verificador independente que transforma “humano no loop” de postura em estrutura: contato@victorino.com.br | www.victorino.com.br