Prompting Estruturado Como Mecanismo de Governança Para Raciocínio de IA

Um agente de IA olha para dois patches de código e declara: “são equivalentes.” Você pergunta por quê. Ele produz uma explicação fluente, coerente e possivelmente inventada. Como documentamos na pesquisa de interpretabilidade, modelos de linguagem geram racionalizações pós-hoc. A explicação parece lógica. A computação interna que produziu o julgamento pode não ter nada a ver com ela.

Pesquisadores da Meta (Ugare e Chandra) atacaram esse problema por um ângulo diferente. Em vez de tentar entender o que o modelo faz internamente, forçaram o modelo a seguir um protocolo externo de raciocínio antes de emitir qualquer julgamento. O paper “Agentic Code Reasoning” (arXiv 2603.01896) chama essa técnica de semi-formal reasoning.

A ideia é simples. Antes de responder, o agente precisa construir um certificado lógico: declarar premissas explícitas extraídas do código, rastrear caminhos de execução concretos passo a passo e derivar conclusões apenas a partir de evidências verificáveis. Templates específicos por tarefa definem o formato obrigatório.

Não é verificação formal. Não é chain-of-thought livre. Ocupa um meio-termo que até agora não tinha nome.

Os Resultados, Com Contexto

Os números do paper são bons. Em equivalência de patches (exemplos curados difíceis), a precisão saltou de 78,2% para 88,8% usando Opus 4.5. Em code QA no RubberDuckBench, foi de 78,3% para 87,0%. Em localização de falhas no Defects4J, o ganho variou entre 5 e 11,6 pontos percentuais. O melhor caso, 93%, apareceu em patches reais com especificações de teste.

Esses números precisam de contexto.

Primeiro, a amostra. O benchmark de code QA tem 15 perguntas. Quinze. Uma variação de 3 acertos muda o resultado em 20 pontos percentuais. Segundo, o modelo. Os testes cobrem apenas Claude Opus e Sonnet. Não há evidência de que a técnica funcione com outros modelos. Terceiro, Sonnet 4.5 não mostrou ganho significativo em code QA (84,2% para 84,8%) e teve desempenho neutro ou negativo em duas de três tarefas. A mesma técnica que eleva um modelo pode não fazer nada por outro.

O custo também importa. Semi-formal reasoning exige 2,8 vezes mais passos de inferência. Para uma organização processando milhares de julgamentos por dia, esse fator multiplica a conta de API e a latência de resposta.

O Que Importa Não São os Números

O valor real do paper não está nos benchmarks. Está na mudança de categoria.

A maioria das abordagens de governança para código gerado por IA opera sobre outputs. Você roda linters, executa testes, faz code review. Isso é necessário. Como exploramos nas três visões sobre governança de código, tipos, especificações e confiança verificável são mecanismos que atuam sobre o artefato produzido.

Semi-formal reasoning atua em um momento anterior: o processo de raciocínio. Antes do agente emitir um julgamento, o template força a construção de um artefato intermediário. Esse artefato (o certificado lógico) é inspecionável. Auditável. Questionável por um humano ou por outro agente.

Isso muda a governança de “verificar o resultado” para “verificar o raciocínio que produziu o resultado.” A distinção é análoga à diferença entre inspecionar uma ponte depois de construída e exigir que o engenheiro mostre os cálculos estruturais antes de começar a obra.

O Modo de Falha Que o Paper Subestima

Aqui está o problema que o paper reconhece em uma frase e deveria ter dedicado uma seção inteira.

Quando semi-formal reasoning produz uma resposta errada, a resposta vem acompanhada de um certificado lógico que parece correto. Premissas declaradas. Caminhos rastreados. Conclusão derivada formalmente. Tudo coerente. Tudo errado.

No raciocínio livre, uma resposta errada frequentemente vem com sinais de incerteza: linguagem hesitante, qualificadores, lacunas visíveis. No raciocínio estruturado, esses sinais desaparecem. O formato impõe confiança. O agente não pode dizer “acho que talvez” quando o template exige “premissa: X, logo: Y.”

Para governança, isso é um problema sério. Respostas erradas sem sinais de erro são mais perigosas que respostas erradas óbvias. Um revisor humano que vê um certificado lógico bem-formado tem menos probabilidade de questionar o resultado do que se visse uma explicação vaga. A estrutura cria uma falsa impressão de rigor.

Como analisamos no contexto de guardrails contra alucinações, modelos são sistematicamente superconfiantes em saídas incorretas. Prompting estruturado pode amplificar esse efeito ao dar à superconfiança uma moldura formal.

O Meio-Termo Prático

Apesar do modo de falha, a técnica ocupa uma posição útil no espectro de opções.

Chain-of-thought livre é insuficiente para governança. O modelo pode raciocinar de qualquer forma, incluindo formas que parecem boas e não são. Verificação formal (provas em Lean 4, por exemplo) é confiável mas impraticável para a maioria das tarefas. Poucos times têm capacidade de especificar provas formais para cada mudança de código.

Semi-formal reasoning fica entre os dois. Não garante correção. Garante consistência de processo. O modelo precisa mostrar o trabalho em um formato padronizado antes de entregar o resultado. Isso eleva o piso de qualidade (a pior resposta fica menos ruim) mais do que o teto (a melhor resposta não melhora muito).

Para organizações, essa propriedade é valiosa. Governança não é sobre maximizar o pico de desempenho. É sobre minimizar a variância. Um sistema que acerta 88% com raciocínio inspecionável pode ser preferível a um que acerta 93% com raciocínio opaco, dependendo das consequências do erro.

O Que Significa Para Quem Opera IA em Produção

O paper da Meta não é uma solução. É uma evidência de que estruturar o processo de raciocínio produz resultados mensuráveis e cria artefatos auditáveis. Três implicações práticas para quem está operando agentes de IA em código:

O certificado lógico é um artefato de auditoria. Se o seu agente precisa justificar decisões sobre código (e em produção, ele precisa), templates de raciocínio semi-formal produzem registros estruturados do processo decisório. Isso não substitui testes. Complementa. Você tem o resultado (o patch compilou, os testes passaram) e o raciocínio (por que o agente julgou que a mudança era correta).

O custo de 2,8x precisa competir com sandbox. Para muitas tarefas de verificação de código, executar o código em um sandbox e observar o comportamento real pode ser mais confiável e mais barato que pedir ao modelo para raciocinar sobre o código. Prompting estruturado faz sentido quando execução direta é inviável: código legado sem testes, mudanças em sistemas distribuídos, ou análise de equivalência semântica entre patches.

O modo de falha exige uma segunda camada. Se você adotar raciocínio estruturado, precisa de um mecanismo independente para detectar certificados logicamente coerentes mas factualmente incorretos. Um segundo modelo, uma validação estática, ou um humano no loop. A técnica reduz erros óbvios ao preço de tornar erros sutis mais difíceis de encontrar.

41% do código entregue em 2025 foi gerado por IA, segundo a Qodo. Esse código produz 1,75 vezes mais problemas de correção do que código escrito por humanos. A pergunta não é se governança do raciocínio de IA é necessária. A pergunta é qual mecanismo de governança se aplica a cada estágio do processo. Semi-formal reasoning é uma resposta parcial para um estágio específico: o momento entre a pergunta e o julgamento.

Parcial é melhor que inexistente. Desde que você saiba onde termina.

Fontes

Ugare, S. & Chandra, S. “Agentic Code Reasoning.” Março 2026.
Qodo. “State of AI Code Quality 2025.” 2025.
ShiftMag. “AI-Generated Code Stats.” 2025.

Victorino Group ajuda organizações a implementar governança de IA que torna sistemas autônomos auditáveis. contato@victorino.com.br | www.victorino.com.br