D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning
Signal
75
Hype
25
En 3 lignesD²Evo est un framework RL pour améliorer le raisonnement des LLM. Il résout la rareté des samples de difficulté moyenne en minant des anchors adaptés à la capacité du modèle et en entraînant un Questioner à générer des questions diversifiées. Résultats : surpasse les méthodes existantes sur benchmarks mathématiques avec <2K samples réels.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain