Retour au feed
arXiv cs.AI·

Weak-to-Strong Elicitation via Mismatched Wrong Drafts

Signal
82
Hype
18
En 3 lignesInjection de brouillons mathématiquement incorrects d'un petit modèle (Qwen2.5-Math-1.5B) dans l'entraînement GRPO d'un modèle plus fort (Mathstral-7B) améliore les performances sur MATH-500 (+1.62pp) et AIME 2025/2026 (+14.2pp à pass@1024). Le décalage intentionnel entre problèmes et brouillons est crucial : 71.98% sur MATH-500, meilleur résultat publié pour ce modèle.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementBenchmarksGénération de code

Résumé généré par Claude — vérifié par l'humain