Composition-RL: Quando Compor Vale Mais que Escalar

A maioria das empresas que treina modelos de IA opera com uma premissa simples: mais dados, melhores resultados. Quando a performance estagna, a resposta padrão é coletar mais exemplos, contratar mais anotadores, comprar mais compute.

Um paper aceito no ICML 2026 — “Composition-RL” — mostra que essa premissa está errada. E as implicações vão além da academia.

O Problema que Ninguém Mede

Treinamento por reforço com recompensas verificáveis (RLVR) é a técnica por trás dos avanços recentes em raciocínio matemático de LLMs. O princípio é direto: apresente problemas ao modelo, verifique se a resposta está correta, reforce comportamentos que acertam.

O problema é que o modelo aprende. E ao aprender, torna os dados de treino obsoletos.

No dataset MATH12K, a taxa de prompts “solve_all” — problemas onde o modelo acerta 100% dos rollouts — sobe de aproximadamente 0% para mais de 75% em apenas 250 passos de treinamento. Isso significa que o dataset efetivo encolhe de 12 mil para cerca de 3 mil prompts informativos.

Traduzindo para linguagem de negócio: três quartos do seu investimento em dados de treino se tornam redundantes antes do treinamento terminar. Não porque os dados eram ruins, mas porque o modelo já os superou.

Compor em Vez de Coletar

A proposta do Composition-RL é contra-intuitiva: em vez de buscar problemas novos, combine os existentes.

A técnica central — Sequential Prompt Composition (SPC) — encadeia dois ou mais problemas de modo que a resposta do primeiro seja necessária para resolver o segundo. Se o modelo resolvia os problemas A e B separadamente com taxa de acerto de 81,5%, ao compor A→B a taxa cai para 41,4%.

O dataset não mudou. Nenhum dado novo foi coletado. Mas a superfície informativa de treinamento efetivamente dobrou.

De 12 mil prompts originais, os pesquisadores geraram 199 mil prompts compostos — uma expansão de mais de 16 vezes sem um único exemplo novo. Cada composição é verificável: se a resposta final está correta, os passos intermediários também estão.

Menor e Mais Inteligente

O resultado mais provocativo do paper é este: um modelo de 4 bilhões de parâmetros treinado com Composition-RL em progressão curricular alcança 37,9% no AIME24 — uma prova de matemática competitiva reconhecidamente difícil.

Para contexto, modelos de 8 bilhões de parâmetros treinados com métodos convencionais ficam em 28,3% (Alpha-RL) e 34,6% (Beyond-80/20). Um modelo com metade dos parâmetros, usando a mesma base de dados, supera concorrentes maiores porque treina de forma mais inteligente.

A implicação para quem toma decisões sobre infraestrutura de IA é direta: escalar parâmetros não é a única variável de performance. Estratégia de treinamento pode compensar tamanho de modelo — e frequentemente com custo menor.

O Paradoxo Cross-Domain

Se compor problemas do mesmo domínio funciona, o instinto natural é misturar domínios. Adicione física ao treinamento de matemática e o modelo deveria melhorar em ambos, certo?

Errado. Misturar dados de física e matemática no RL padrão degrada a performance em matemática em 1,4%.

Mas — e aqui está o insight — compor problemas de física e matemática juntos, usando SPC, gera um ganho de 9,1% no AIME24. A diferença entre misturar e compor é a diferença entre jogar ingredientes na panela e seguir uma receita.

A composição cross-domain força o modelo a transferir conhecimento entre disciplinas de maneira estruturada. A mistura ingênua apenas dilui o sinal de aprendizado.

Supervisão Implícita de Processo

Há um efeito colateral da composição que merece atenção. Quando o modelo precisa resolver A para responder B, a verificação da resposta final de B implicitamente verifica a corretude de A. Mesmo sem rótulos explícitos para cada etapa intermediária, o treinamento força corretude dos passos.

Isso é relevante porque supervisão de processo — rotular cada passo de raciocínio como correto ou incorreto — é cara e difícil de escalar. A composição oferece uma aproximação pragmática: verificar o resultado final de uma cadeia composta é equivalente a verificar os intermediários, sem o custo de anotação por etapa.

A evidência é sugestiva, não conclusiva. Os autores demonstram que modelos treinados com composição produzem menos erros intermediários, mas o mecanismo exato não está provado. É uma direção de pesquisa, não um resultado estabelecido.

Currículo Importa

Nem toda composição é igual. A ordem em que problemas compostos são apresentados ao modelo afeta diretamente a performance final.

Treinar com progressão curricular — profundidade 1, depois 2, depois 3 — supera saltar diretamente para profundidade 2 em 3% na performance geral. O modelo precisa consolidar composições simples antes de enfrentar cadeias mais longas.

Isso ecoa um princípio conhecido em pedagogia humana e que frequentemente ignoramos em machine learning: a sequência de exposição é tão importante quanto o conteúdo.

O que Isso Não É

Honestidade intelectual exige clareza sobre as limitações.

Não é o primeiro a identificar o problema solve_all. O método DAPO já endereça a questão via amostragem dinâmica, descartando prompts resolvidos em tempo de treinamento. Composition-RL oferece uma abordagem complementar, não uma descoberta inédita.

A comparação 4B vs 8B não é controlada. Os modelos comparados diferem em tamanho, dados base e algoritmo de treinamento. O resultado é informativo — mostra que modelos menores podem competir — mas não prova que Composition-RL é o único fator.

Validado apenas em domínios numéricos. Matemática e física possuem respostas verificáveis por natureza. A extensão para domínios como código, linguagem natural ou raciocínio jurídico não foi demonstrada.

Supervisão implícita de processo é hipótese, não fato. A evidência apoia a interpretação, mas o mecanismo causal não está estabelecido.

As Três Lições para Decisores

1. Eficiência de dados supera volume de dados

O reflexo de “precisamos de mais dados” é caro e frequentemente errado. Antes de expandir seu dataset, pergunte: estamos extraindo o máximo dos dados que já temos? Composition-RL demonstra que reciclagem inteligente pode superar coleta bruta.

2. Modelos menores com estratégia melhor são viáveis

A corrida por modelos cada vez maiores tem custos reais — compute, energia, latência, complexidade operacional. Se um modelo de 4B parâmetros com treinamento sofisticado compete com um de 8B treinado convencionalmente, a equação econômica favorece o menor.

Para empresas que implantam IA em produção, modelos menores significam menor custo de inferência, menor latência, e requisitos de hardware mais acessíveis.

3. Composição estruturada supera mistura ingênua

Combinar dados de diferentes domínios é tentador mas perigoso. A diferença entre degradação e ganho está na estrutura da combinação. Isso se aplica além de RL: em pipelines de dados, em integração de sistemas, em design organizacional — misturar sem estrutura dilui; compor com propósito amplifica.

O Que Fazer com Essa Informação

Se você treina modelos internamente: avalie a taxa de solve_all do seu dataset ao longo do treinamento. Se está subindo rapidamente, seus dados estão envelhecendo. Considere composição antes de considerar coleta.

Se você compra modelos ou APIs: pergunte aos seus fornecedores sobre eficiência de treinamento, não apenas sobre tamanho de parâmetros. Modelos menores bem treinados podem ser mais adequados — e mais baratos — para seu caso de uso.

Se você governa IA na sua organização: a mensagem é que “maior” não é sinônimo de “melhor”. Políticas de aquisição de modelos devem incluir critérios de eficiência de treinamento, não apenas benchmarks de performance bruta.

A tendência é clara: a próxima fronteira de IA não é escalar infinitamente. É extrair mais de menos.

Referências:

Xu, X., Bai, C., Yang, K. et al. “Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models.” ICML 2026. arXiv:2602.12036
Yu, Q. et al. “DAPO: An Open-Source LLM Reinforcement Learning System.” arXiv:2503.14476 (2025)

No Victorino Group, ajudamos empresas a tomar decisões informadas sobre IA — sem hype e com governança. Se você quer otimizar seu investimento em modelos de linguagem, vamos conversar: contato@victorino.com.br