Retour au feed
arXiv cs.CL·

D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning

Signal
75
Hype
25
En 3 lignesD²Evo est un framework RL pour améliorer le raisonnement des LLM. Il résout la rareté des samples de difficulté moyenne en minant des anchors adaptés à la capacité du modèle et en entraînant un Questioner à générer des questions diversifiées. Résultats : surpasse les méthodes existantes sur benchmarks mathématiques avec <2K samples réels.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain