arXiv cs.AI·19 mai 2026

D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning

Signal

Hype

En 3 lignesD²Evo est un framework RL pour améliorer le raisonnement des LLM via l'auto-évolution. La méthode génère des échantillons d'entraînement de difficulté moyenne en minant des ancres adaptées aux capacités du modèle, puis optimise conjointement un Questioner et un Solver. Résultats : surpasse les méthodes existantes sur benchmarks mathématiques avec <2K exemples réels.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

D$^2$Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning

Autres angles sur ce sujet