arXiv cs.CL·19 mai 2026

D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning

Signal

Hype

En 3 lignesD²Evo est un framework RL pour améliorer le raisonnement des LLM. Il résout la rareté des samples de difficulté moyenne en minant des anchors adaptés à la capacité du modèle et en entraînant un Questioner à générer des questions diversifiées. Résultats : surpasse les méthodes existantes sur benchmarks mathématiques avec <2K samples réels.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning

Autres angles sur ce sujet