arXiv cs.LG·26 May 2026

CurveRL: Principled Distribution-Aware Context Reweighting for LLM Reasoning

Signal

Hype

In three linesCurveRL introduces a distribution-aware prompt reweighting method for Reinforcement Learning with Verified Rewards (RLVR) using quantile coordinate transforms. Weights depend on rank and density of pass rates rather than absolute values, consistently outperforming GRPO and other RLVR baselines across benchmarks.

Read source

Your take?

Reasoning Reinforcement learning Papers

Summary generated by Claude — human-verified

CurveRL: Principled Distribution-Aware Context Reweighting for LLM Reasoning

Other angles on this story