arXiv cs.AI·19 mai 2026

Weak-to-Strong Elicitation via Mismatched Wrong Drafts

Signal

Hype

En 3 lignesInjection de brouillons mathématiquement incorrects d'un petit modèle (Qwen2.5-Math-1.5B) dans l'entraînement GRPO d'un modèle plus fort (Mathstral-7B) améliore les performances sur MATH-500 (+1.62pp) et AIME 2025/2026 (+14.2pp à pass@1024). Le décalage intentionnel entre problèmes et brouillons est crucial : 71.98% sur MATH-500, meilleur résultat publié pour ce modèle.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Benchmarks Génération de code

Résumé généré par Claude — vérifié par l'humain

Weak-to-Strong Elicitation via Mismatched Wrong Drafts

Autres angles sur ce sujet