arXiv cs.CL·19 mai 2026

Weak-to-Strong Elicitation via Mismatched Wrong Drafts

Signal

Hype

En 3 lignesInjecter des brouillons mathématiquement faux d'un petit modèle (Qwen2.5-Math-1.5B) mal appariés au problème courant dans le contexte GRPO d'un modèle plus fort (Mathstral-7B) surpasse le GRPO standard. Sur MATH-500, le variant mal apparié atteint 71,98% (meilleur résultat publié pour ce modèle), +1,62pp vs variant bien apparié, sans SFT ni modèles de récompense.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Benchmarks Génération de code

Résumé généré par Claude — vérifié par l'humain

Weak-to-Strong Elicitation via Mismatched Wrong Drafts

Autres angles sur ce sujet