Retour au feed
arXiv cs.LG·

CurveRL: Principled Distribution-Aware Context Reweighting for LLM Reasoning

Signal
78
Hype
15
En 3 lignesCurveRL propose une approche de réépondération de prompts basée sur des transformations de quantiles pour l'apprentissage par renforcement avec récompenses vérifiées (RLVR). La méthode assigne des poids selon le rang et la densité des taux de réussite plutôt que leurs valeurs absolues, surpassant GRPO sur plusieurs benchmarks.
Lire la source
Ton avis ?
RaisonnementReinforcement learningPapers

Résumé généré par Claude — vérifié par l'humain