D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning
Signal
75
Hype
25
En 3 lignesD²Evo est un framework RL pour améliorer le raisonnement des LLM via l'auto-évolution. La méthode génère des échantillons d'entraînement de difficulté moyenne en minant des ancres adaptées aux capacités du modèle, puis optimise conjointement un Questioner et un Solver. Résultats : surpasse les méthodes existantes sur benchmarks mathématiques avec <2K exemples réels.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain