Retour au feed
arXiv cs.AI·

Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning

Signal
78
Hype
25
En 3 lignesGCPO (Group Cooperative Policy Optimization) remplace l'optimisation compétitive des rollouts par une attribution de crédit au niveau de l'équipe. Les rollouts sont récompensés selon leur contribution à la couverture de solutions valides (volume déterminant sur embeddings sémantiques), pas leur précision individuelle. Résultats : amélioration de la précision et de la diversité sur benchmarks de raisonnement.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain