Confiabilidade em IA Regulada Vem do Harness, Não do Modelo

A Bayer opera uma plataforma de IA agêntica em produção sobre décadas de dados de segurança pré-clínica. Chama-se PRINCE, construída com a Thoughtworks, no ar desde o início de 2024. O estudo de caso da Thoughtworks e da Bayer, publicado em junho de 2026, documenta como ela funciona. O detalhe mais útil de todo o relato é uma restrição, não um modelo: o agente que escreve SQL só consegue emitir SELECT. DELETE, INSERT e UPDATE são bloqueados na camada do harness, antes que o banco sequer os veja.

Essa única decisão de design carrega a tese. Em um ambiente regulado, você não conquista confiabilidade pedindo a um modelo mais inteligente que se comporte. Você a conquista construindo o sistema ao redor de modo que a ação perigosa seja estruturalmente indisponível.

O Modelo É a Menor Parte

A arquitetura do PRINCE gasta a maior parte do orçamento de engenharia em tudo o que cerca o modelo. Duas disciplinas fazem o trabalho pesado.

A primeira é engenharia de contexto: rotear a informação certa para agentes especializados em vez de despejar tudo em um único prompt. Uma consulta se ramifica em cinco expansões paralelas, cada uma reformulando a intenção do usuário de um jeito. A camada de recuperação puxa cerca de 20 trechos, faz rerank e mantém os sete melhores. O ranqueamento é híbrido, com peso 0,7 para similaridade semântica e 0,3 para correspondência de palavra-chave, para que um termo científico preciso não se perca em embeddings difusos. Cada agente especializado recebe uma fatia enxuta e relevante, não uma janela de contexto indiferenciada.

A segunda é engenharia de harness: orquestração, estado e recuperação. O caminho de Text-to-SQL tenta novamente até três vezes e limita o resultado a 50 registros. O estado vive em PostgreSQL, então, quando uma execução falha no meio, ela retoma do ponto de falha em vez de recomeçar. O time roda avaliações diárias contra tráfego real, o que faz regressões aparecerem a partir do uso de verdade, não de um conjunto de testes congelado.

Nada disso é capacidade de modelo. É encanamento. Encanamento confiável é o que torna o modelo utilizável sobre dados em que uma resposta errada tem consequência regulatória.

O Controle É o Schema, Não o Prompt

A maioria dos times preocupados com um agente rodando uma query destrutiva recorre ao prompt. Escrevem instruções: “você só pode ler dados, nunca modificar”. Isso é um pedido. Um modelo capaz costuma honrar. “Costuma” não é um padrão que você defende para um auditor.

O PRINCE remove o pedido por completo. A validação de schema SQL é SELECT-only por construção. O agente não consegue formular um DELETE que o harness vá executar, porque o harness rejeita qualquer coisa que não seja leitura. O comportamento do modelo deixa de ser a fronteira de segurança. A fronteira se move para o código, onde é testável, revisável e idêntica em toda execução.

Este é o mesmo princípio que percorremos por computação, dados, conhecimento e identidade no stack de contenção de agentes. O andar de dados não se constrói confiando na intenção do agente. Constrói-se removendo a capacidade do agente de agir fora do seu mandato. O PRINCE é uma instância em produção desse andar em um cenário regulado, e a restrição de SQL é a ilustração mais limpa já publicada.

Verificação É Engenheirada, Não Anexada Depois

Ler dados com segurança é metade do problema. A outra metade é confiar no que o sistema diz sobre esses dados. O PRINCE trata confiança com três loops de reflexão, usados como checkpoints, não como enfeite.

O loop de processo verifica se o agente seguiu os passos pretendidos. O loop de dados verifica se a evidência recuperada de fato sustenta a conclusão. O loop de rascunho verifica a resposta gerada antes que ela chegue ao usuário. Cada loop é um ponto em que o sistema captura o próprio erro antes que um humano o herde.

Sobre os loops está a pontuação de confiança. Quando a etapa de reconhecimento de entidades nomeadas produz uma extração de baixa confiança, o sistema a sinaliza para revisão humana em vez de deixá-la passar em silêncio. Os humanos não revisam tudo. Revisam os outputs específicos de que o sistema já desconfia.

Toda resposta carrega também citações granulares, até o documento de origem e a página. Um revisor não precisa confiar no texto gerado. Pode abrir a página citada e confirmar. Em um contexto de segurança pré-clínica, essa rastreabilidade é a diferença entre uma demo interessante e uma ferramenta que um cientista assina embaixo.

Esta é a mesma disciplina de cobertura que defendemos na cobertura de revisão e governança rastreável. Verificação só conta quando é rastreável até uma fonte e roteada por confiança, não quando é um passe uniforme que trata todo output como igualmente confiável.

O Que Isso Significa Para o Seu Build

O instinto na maioria dos projetos agênticos é gastar o orçamento em seleção de modelo e ajuste de prompt. O PRINCE inverte isso. O modelo é um componente. A confiabilidade vem do harness ao redor dele e de controles estruturais, não consultivos.

Uma ressalva sobre a evidência. Este é um relato escrito pela Thoughtworks de um sistema construído pela Thoughtworks, então trate como linhagem de fornecedor, não como medição neutra de terceiro. O estudo descreve a arquitetura em detalhe, mas não divulga nenhum benchmark de acurácia ou custo. Os mecanismos são concretos e valem a cópia. Os números de desempenho simplesmente não estão na mesa, então não presuma nenhum.

O que é copiável, hoje:

Mova toda ação irreversível para trás de um bloqueio estrutural. Se um agente só deve ler, torne escritas impossíveis no código, não desencorajadas no prompt.
Limite e delimite os loops. Três tentativas de SQL, teto de 50 registros, limite de resultado. Retentativas ilimitadas são como um agente travado vira um incidente.
Persista o estado para que falhas retomem em vez de recomeçar. Checkpoints em PostgreSQL transformam um crash em uma pausa.
Roteie revisão por confiança. Pontue as etapas incertas e envie só essas a um humano. Revisão uniforme desperdiça o revisor e perde o risco real.
Cite a fonte. Documento e página, toda vez. Rastreabilidade é o que permite a um usuário regulado agir sobre o output.

Faça Isto Agora

Abra o seu agente de maior risco e encontre a ação mais destrutiva que ele consegue tomar. Se a única coisa que impede essa ação é uma instrução no prompt, você tem um pedido onde precisa de uma parede. Mova o controle para o harness ainda esta semana. Torne a ação perigosa impossível de expressar e depois verifique, com um teste, que o harness a rejeita. Essa única mudança faz mais pela confiabilidade em produção do que qualquer upgrade de modelo no seu roadmap.

Fontes

Thoughtworks e Bayer. “Building Reliable Agentic AI Systems.” Junho de 2026.

A Victorino ajuda organizações reguladas a desenhar sistemas agênticos em que os controles vivem no harness, não no prompt: contato@victorino.com.br | www.victorino.com.br