arXiv cs.LG·26 mai 2026

CurveRL: Principled Distribution-Aware Context Reweighting for LLM Reasoning

Signal

Hype

En 3 lignesCurveRL propose une approche de réépondération de prompts basée sur des transformations de quantiles pour l'apprentissage par renforcement avec récompenses vérifiées (RLVR). La méthode assigne des poids selon le rang et la densité des taux de réussite plutôt que leurs valeurs absolues, surpassant GRPO sur plusieurs benchmarks.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Papers

Résumé généré par Claude — vérifié par l'humain

CurveRL: Principled Distribution-Aware Context Reweighting for LLM Reasoning

Autres angles sur ce sujet