arXiv cs.AI·19 mai 2026

Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning

Signal

Hype

En 3 lignesGCPO (Group Cooperative Policy Optimization) remplace l'optimisation compétitive des rollouts par une attribution de crédit au niveau de l'équipe. Les rollouts sont récompensés selon leur contribution à la couverture de solutions valides (volume déterminant sur embeddings sémantiques), pas leur précision individuelle. Résultats : amélioration de la précision et de la diversité sur benchmarks de raisonnement.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning

Autres angles sur ce sujet