- Início
- The Thinking Wire
- Composition-RL: Quando Compor Vale Mais que Escalar
Composition-RL: Quando Compor Vale Mais que Escalar
A maioria das empresas que treina modelos de IA opera com uma premissa simples: mais dados, melhores resultados. Quando a performance estagna, a resposta padrão é coletar mais exemplos, contratar mais anotadores, comprar mais compute.
Um paper aceito no ICML 2026 — “Composition-RL” — mostra que essa premissa está errada. E as implicações vão além da academia.
O Problema que Ninguém Mede
Treinamento por reforço com recompensas verificáveis (RLVR) é a técnica por trás dos avanços recentes em raciocínio matemático de LLMs. O princípio é direto: apresente problemas ao modelo, verifique se a resposta está correta, reforce comportamentos que acertam.
O problema é que o modelo aprende. E ao aprender, torna os dados de treino obsoletos.
No dataset MATH12K, a taxa de prompts “solve_all” — problemas onde o modelo acerta 100% dos rollouts — sobe de aproximadamente 0% para mais de 75% em apenas 250 passos de treinamento. Isso significa que o dataset efetivo encolhe de 12 mil para cerca de 3 mil prompts informativos.
Traduzindo para linguagem de negócio: três quartos do seu investimento em dados de treino se tornam redundantes antes do treinamento terminar. Não porque os dados eram ruins, mas porque o modelo já os superou.
Compor em Vez de Coletar
A proposta do Composition-RL é contra-intuitiva: em vez de buscar problemas novos, combine os existentes.
A técnica central — Sequential Prompt Composition (SPC) — encadeia dois ou mais problemas de modo que a resposta do primeiro seja necessária para resolver o segundo. Se o modelo resolvia os problemas A e B separadamente com taxa de acerto de 81,5%, ao compor A→B a taxa cai para 41,4%.
O dataset não mudou. Nenhum dado novo foi coletado. Mas a superfície informativa de treinamento efetivamente dobrou.
De 12 mil prompts originais, os pesquisadores geraram 199 mil prompts compostos — uma expansão de mais de 16 vezes sem um único exemplo novo. Cada composição é verificável: se a resposta final está correta, os passos intermediários também estão.
Menor e Mais Inteligente
O resultado mais provocativo do paper é este: um modelo de 4 bilhões de parâmetros treinado com Composition-RL em progressão curricular alcança 37,9% no AIME24 — uma prova de matemática competitiva reconhecidamente difícil.
Para contexto, modelos de 8 bilhões de parâmetros treinados com métodos convencionais ficam em 28,3% (Alpha-RL) e 34,6% (Beyond-80/20). Um modelo com metade dos parâmetros, usando a mesma base de dados, supera concorrentes maiores porque treina de forma mais inteligente.
A implicação para quem toma decisões sobre infraestrutura de IA é direta: escalar parâmetros não é a única variável de performance. Estratégia de treinamento pode compensar tamanho de modelo — e frequentemente com custo menor.
O Paradoxo Cross-Domain
Se compor problemas do mesmo domínio funciona, o instinto natural é misturar domínios. Adicione física ao treinamento de matemática e o modelo deveria melhorar em ambos, certo?
Errado. Misturar dados de física e matemática no RL padrão degrada a performance em matemática em 1,4%.
Mas — e aqui está o insight — compor problemas de física e matemática juntos, usando SPC, gera um ganho de 9,1% no AIME24. A diferença entre misturar e compor é a diferença entre jogar ingredientes na panela e seguir uma receita.
A composição cross-domain força o modelo a transferir conhecimento entre disciplinas de maneira estruturada. A mistura ingênua apenas dilui o sinal de aprendizado.
Supervisão Implícita de Processo
Há um efeito colateral da composição que merece atenção. Quando o modelo precisa resolver A para responder B, a verificação da resposta final de B implicitamente verifica a corretude de A. Mesmo sem rótulos explícitos para cada etapa intermediária, o treinamento força corretude dos passos.
Isso é relevante porque supervisão de processo — rotular cada passo de raciocínio como correto ou incorreto — é cara e difícil de escalar. A composição oferece uma aproximação pragmática: verificar o resultado final de uma cadeia composta é equivalente a verificar os intermediários, sem o custo de anotação por etapa.
A evidência é sugestiva, não conclusiva. Os autores demonstram que modelos treinados com composição produzem menos erros intermediários, mas o mecanismo exato não está provado. É uma direção de pesquisa, não um resultado estabelecido.
Currículo Importa
Nem toda composição é igual. A ordem em que problemas compostos são apresentados ao modelo afeta diretamente a performance final.
Treinar com progressão curricular — profundidade 1, depois 2, depois 3 — supera saltar diretamente para profundidade 2 em 3% na performance geral. O modelo precisa consolidar composições simples antes de enfrentar cadeias mais longas.
Isso ecoa um princípio conhecido em pedagogia humana e que frequentemente ignoramos em machine learning: a sequência de exposição é tão importante quanto o conteúdo.
O que Isso Não É
Honestidade intelectual exige clareza sobre as limitações.
Não é o primeiro a identificar o problema solve_all. O método DAPO já endereça a questão via amostragem dinâmica, descartando prompts resolvidos em tempo de treinamento. Composition-RL oferece uma abordagem complementar, não uma descoberta inédita.
A comparação 4B vs 8B não é controlada. Os modelos comparados diferem em tamanho, dados base e algoritmo de treinamento. O resultado é informativo — mostra que modelos menores podem competir — mas não prova que Composition-RL é o único fator.
Validado apenas em domínios numéricos. Matemática e física possuem respostas verificáveis por natureza. A extensão para domínios como código, linguagem natural ou raciocínio jurídico não foi demonstrada.
Supervisão implícita de processo é hipótese, não fato. A evidência apoia a interpretação, mas o mecanismo causal não está estabelecido.
As Três Lições para Decisores
1. Eficiência de dados supera volume de dados
O reflexo de “precisamos de mais dados” é caro e frequentemente errado. Antes de expandir seu dataset, pergunte: estamos extraindo o máximo dos dados que já temos? Composition-RL demonstra que reciclagem inteligente pode superar coleta bruta.
2. Modelos menores com estratégia melhor são viáveis
A corrida por modelos cada vez maiores tem custos reais — compute, energia, latência, complexidade operacional. Se um modelo de 4B parâmetros com treinamento sofisticado compete com um de 8B treinado convencionalmente, a equação econômica favorece o menor.
Para empresas que implantam IA em produção, modelos menores significam menor custo de inferência, menor latência, e requisitos de hardware mais acessíveis.
3. Composição estruturada supera mistura ingênua
Combinar dados de diferentes domínios é tentador mas perigoso. A diferença entre degradação e ganho está na estrutura da combinação. Isso se aplica além de RL: em pipelines de dados, em integração de sistemas, em design organizacional — misturar sem estrutura dilui; compor com propósito amplifica.
O Que Fazer com Essa Informação
Se você treina modelos internamente: avalie a taxa de solve_all do seu dataset ao longo do treinamento. Se está subindo rapidamente, seus dados estão envelhecendo. Considere composição antes de considerar coleta.
Se você compra modelos ou APIs: pergunte aos seus fornecedores sobre eficiência de treinamento, não apenas sobre tamanho de parâmetros. Modelos menores bem treinados podem ser mais adequados — e mais baratos — para seu caso de uso.
Se você governa IA na sua organização: a mensagem é que “maior” não é sinônimo de “melhor”. Políticas de aquisição de modelos devem incluir critérios de eficiência de treinamento, não apenas benchmarks de performance bruta.
A tendência é clara: a próxima fronteira de IA não é escalar infinitamente. É extrair mais de menos.
Referências:
- Xu, X., Bai, C., Yang, K. et al. “Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models.” ICML 2026. arXiv:2602.12036
- Yu, Q. et al. “DAPO: An Open-Source LLM Reinforcement Learning System.” arXiv:2503.14476 (2025)
No Victorino Group, ajudamos empresas a tomar decisões informadas sobre IA — sem hype e com governança. Se você quer otimizar seu investimento em modelos de linguagem, vamos conversar: contato@victorino.com.br
Se isso faz sentido, vamos conversar
Ajudamos empresas a implementar IA sem perder o controle.
Agendar uma Conversa