As Ferramentas de Simulação de Futuro Chegaram. A Infraestrutura de Validação, Não.

Três dias atrás, argumentamos que modelos de mundo empresariais são a camada de governança que falta. A tese era conceitual: organizações que operam múltiplos agentes precisam de simulação para governar o que não conseguem prever. O artigo terminava com uma pergunta implícita: onde estão as ferramentas?

Estão aqui. E chegaram com problemas que ninguém antecipou.

O que existe hoje

O campo de simulação social baseada em agentes de IA não é mais teórico. Em dezembro de 2025, um estudante de 20 anos publicou o MiroFish, um motor de simulação open-source que cria “mundos digitais paralelos” com milhares de agentes autônomos. O repositório acumulou mais de 43 mil estrelas no GitHub e recebeu US$ 4,1 milhões em investimento da Shanda Group. A arquitetura combina GraphRAG para extração de conhecimento, Zep Cloud para memória persistente de agentes, e um motor chamado OASIS para simulação social em escala.

O OASIS, por sua vez, é projeto independente da CAMEL-AI. Simula plataformas de mídia social com até um milhão de agentes executando 23 tipos de ações sociais. Pesquisadores de Stanford criaram agentes generativos que simularam 1.052 pessoas reais e atingiram 85% de precisão nas respostas da General Social Survey. O MIT validou um gêmeo digital de Nova York com 8,4 milhões de agentes contra dados do censo americano, e o governo da Nova Zelândia já aplica a mesma tecnologia para simular 5 milhões de cidadãos em cenários de resposta à gripe aviária H5N1.

No Minecraft, o Project Sid da Altera colocou mil agentes de IA para interagir livremente. Sem instruções sobre organização social, os agentes desenvolveram papéis especializados, redigiram uma constituição, e criaram formas rudimentares de religião e cultura. Os pesquisadores não programaram esses comportamentos. Eles emergiram.

Não são protótipos acadêmicos. São sistemas em operação, com papers revisados por pares, dados de validação publicados, e em mais de um caso, influenciando política pública real.

A arquitetura que todos repetem

Apesar da diversidade de aplicações, todos esses sistemas convergem para a mesma arquitetura em cinco etapas: ingestão de dados externos, construção de grafo de conhecimento, geração de agentes com personalidades e memórias distintas, simulação paralela de interações sociais, e síntese de relatórios para consumo humano.

O Google DeepMind formalizou esse padrão na biblioteca Concordia, hoje na versão 2.0. O AgentSociety acrescentou cognição psicologicamente fundamentada: agentes que operam segundo a hierarquia de Maslow e a Teoria do Comportamento Planejado, tentando modelar motivação humana e não apenas comportamento observável.

A convergência arquitetural é significativa. Significa que o campo está amadurecendo o suficiente para ter uma estrutura comum. Mas convergência de arquitetura não implica convergência de qualidade. Todos constroem o mesmo tipo de motor. Nenhum concorda sobre como medir se o motor funciona.

O problema que ninguém resolve

Considere dois cenários. Você monta uma planilha financeira com projeções para o próximo trimestre. Os números não fecham. Você percebe imediatamente porque planilhas erradas parecem erradas. As colunas não somam. O modelo produz absurdos óbvios. O formato do output revela a falha.

Agora considere uma simulação multi-agente que modela o impacto de uma nova política de preços na sua base de clientes. Mil agentes com perfis comportamentais distintos interagem por cem ciclos. O sistema gera um relatório de trinta páginas explicando como e por que a política vai funcionar. Os agentes criaram narrativas. Desenvolveram justificativas. Produziram uma lógica interna coerente.

A planilha errada parece errada. A simulação errada parece certa.

Esse é o risco que o campo ainda não enfrentou. Quanto mais rico o output de um sistema de simulação, mais difícil questioná-lo. Uma resposta numérica pode ser verificada contra a realidade. Uma narrativa gerada por agentes autônomos carrega consigo uma explicação de por que está correta, tornando a refutação psicologicamente custosa mesmo quando factualmente necessária.

Onde a validação falha

Os dados confirmam essa preocupação. Um estudo recente sobre Digital Twins sociais baseados em LLMs testou a abordagem contra dados reais de comportamento durante a pandemia de COVID nos Emirados Árabes. O resultado foi revelador em duas direções. Para comportamentos adaptativos (mudanças de hábito em resposta a políticas públicas), os agentes de IA superaram modelos tradicionais de gradient boosting em 20,7%. Para comportamentos rotineiros, os agentes foram piores que os baselines.

Leia de novo: piores para comportamentos rotineiros. Os modelos de linguagem que alimentam esses agentes foram treinados em textos que descrevem mudanças, crises, adaptações. O mundano, o previsível, o que não vira notícia, está sub-representado nos dados de treinamento. A simulação captura o excepcional melhor que o ordinário.

Para decisões empresariais, essa assimetria é perigosa. A maioria das operações de uma empresa é rotina. Se a ferramenta de simulação funciona melhor para cenários excepcionais e pior para o dia a dia, ela vai sistematicamente superestimar o impacto de mudanças e subestimar a inércia operacional.

Há um segundo problema de validação que o campo ainda não resolveu. Pesquisadores documentaram que agentes baseados em LLMs se comportam de forma duas vezes mais educada que humanos reais. Exibem comportamento de manada exagerado. Reproduzem padrões dos dados de treinamento que podem ser confundidos com comportamentos emergentes autênticos. O que parece “inteligência coletiva espontânea” pode ser o modelo repetindo, com variações, padrões que já viu milhões de vezes.

Não existe hoje uma metodologia de validação padronizada para simulações sociais baseadas em agentes de IA. Nenhum equivalente do framework de “milhas simuladas versus milhas reais” que a indústria de veículos autônomos desenvolveu para calibrar confiança em simulações. Cada grupo de pesquisa valida contra seus próprios benchmarks, com seus próprios critérios, declarando sucesso com suas próprias métricas.

O custo que viabiliza e que preocupa

Rodar mil agentes por cem ciclos de simulação custa aproximadamente US$ 1.000 hoje. Esse custo está caindo rápido. Em doze meses, provavelmente será uma fração disso.

A barreira econômica está desaparecendo. Isso é simultaneamente a melhor e a pior notícia para governança corporativa.

Melhor porque democratiza acesso a uma ferramenta de decisão genuinamente poderosa. Uma empresa de médio porte vai poder testar cenários que antes exigiam consultorias de milhões e meses de trabalho. Departamentos de estratégia que hoje operam com planilhas e intuição vão ter à disposição sistemas capazes de modelar reações de mercado com granularidade individual.

Pior porque a história de tecnologias de decisão segue um padrão previsível: a ferramenta chega primeiro, a disciplina de uso chega depois, e o intervalo entre as duas é onde os erros mais caros acontecem. Quando simulação multi-agente custa menos que uma reunião de diretoria, o incentivo para usá-la supera em muito o incentivo para validá-la.

Governança: os riscos que importam

Quatro riscos específicos merecem atenção imediata.

Simulação como ferramenta de confirmação. O executivo que quer aprovar uma decisão já tomada pode configurar agentes com perfis que favorecem o resultado desejado. A simulação “confirma” o que ele já decidiu, agora com trinta páginas de narrativa gerada por IA para apresentar ao conselho. Cada página com dados, gráficos, e explicações causais. O conselho não está equipado para questionar premissas de um modelo que nenhum membro sabe como funciona. Viés de confirmação em escala computacional.

Dados de entrada como vetor de ataque. Se a qualidade da simulação depende dos dados ingeridos, envenenar os dados de entrada é suficiente para manipular o output. Para empresas de capital aberto, isso cria um vetor de manipulação de mercado que reguladores ainda não mapearam.

Assimetria de capacidade. Quando simulação se torna ferramenta estratégica, quem pode simular tem vantagem sobre quem não pode. Grandes corporações simulando cenários regulatórios antes de governos entenderem a ferramenta. Fundos de investimento simulando comportamento de mercado com fidelidade que investidores individuais não têm acesso. Essa é uma nova forma de assimetria informacional.

Vácuo regulatório. O EU AI Act classifica sistemas de IA por risco, mas não aborda explicitamente simulação de pessoas para informar decisões organizacionais. Simular o comportamento de seus clientes para decidir se aumenta preços não se encaixa em nenhuma categoria existente de regulação de IA. Simular o comportamento de eleitores para otimizar campanhas políticas, tampouco. O framework regulatório tem um ponto cego precisamente onde precisaria ser mais atento.

O que fazer com isso

Não espere a metodologia de validação perfeita. Ela vai demorar anos. Mas três práticas reduzem risco hoje.

Trate outputs de simulação como hipóteses, nunca como previsões. A palavra “previsão” não deveria aparecer em nenhum relatório gerado por simulação multi-agente. O MiroFish se apresenta como sistema de “predicting anything”. Esse framing é marketing, não ciência. Simulação gera cenários plausíveis. Cenários não são previsões.

Exija simulação adversarial. Para cada simulação que apoia uma decisão, rode uma segunda configurada para refutá-la. Configure os agentes com premissas opostas. Altere os perfis comportamentais. Injete cenários de estresse que a primeira simulação ignorou. Se a segunda simulação também “funciona”, nenhuma das duas está validando nada. Se a segunda encontra pontos de falha específicos, você tem informação genuinamente útil. O teste de valor de uma simulação não é o output. É a diferença entre outputs conflitantes.

Documente pressupostos, não resultados. O relatório de uma simulação deveria ter mais páginas sobre premissas de entrada do que sobre conclusões. Quais dados alimentaram os perfis dos agentes? Quais comportamentos foram fixados por design e quais emergiram durante a execução? Quais variáveis foram excluídas da modelagem e por quê? Se o relatório final não responde essas perguntas, ele não é um instrumento de decisão. É teatro analítico.

As ferramentas de simulação de futuro chegaram. São reais, acessíveis, e mais sofisticadas do que qualquer modelo de decisão que a maioria das organizações já teve à disposição. A tentação vai ser tratá-las como oráculos. O trabalho real é tratá-las como telescópios: instrumentos que ampliam a visão, mas que precisam de calibração constante e de um operador que saiba interpretar o que está vendo.

Quem não constrói a disciplina de validação antes de adotar a ferramenta vai descobrir que simulações erradas são mais perigosas que planilhas erradas. Porque planilhas erradas, pelo menos, parecem erradas.

Fontes

666ghj. “MiroFish: AI-Powered Prediction Engine.” GitHub. Dezembro 2025.
CAMEL-AI. “OASIS: Open Agent Social Interaction Simulations.” arXiv:2411.11581. Novembro 2024.
Park et al. “Generative Agent Simulations of 1,000 People.” arXiv:2411.10109. Novembro 2024.
Chopra et al. “AgentTorch: Large Population Agent-Based Modeling.” AAMAS 2025.
Altera. “Project Sid: Many-Agent World Simulation.” arXiv:2411.00114. Novembro 2024.
Xu et al. “AgentSociety: Large-Scale Simulation with LLM Agents.” arXiv:2502.08691. Fevereiro 2025.
Bin Sawad et al. “LLM Social Digital Twins.” arXiv:2601.06111. Janeiro 2026.

A Victorino Group ajuda organizações a avaliar e governar ferramentas de simulação baseadas em IA antes que outputs convincentes substituam julgamento real: contato@victorino.com.br | www.victorino.com.br