Weak-to-Strong Elicitation via Mismatched Wrong Drafts
Signal
82
Hype
15
En 3 lignesInjecter des brouillons mathématiquement faux d'un petit modèle (Qwen2.5-Math-1.5B) mal appariés au problème courant dans le contexte GRPO d'un modèle plus fort (Mathstral-7B) surpasse le GRPO standard. Sur MATH-500, le variant mal apparié atteint 71,98% (meilleur résultat publié pour ce modèle), +1,62pp vs variant bien apparié, sans SFT ni modèles de récompense.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain