arXiv cs.CL·27 mai 2026

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

Signal

Hype

En 3 lignesQwen3 améliore ses capacités de raisonnement via Self-Verified Distillation, un algorithme post-training sans données externes. Le modèle génère des solutions, les filtre par auto-vérification (cycle-consistency, factualité, correction), puis s'entraîne sur les données auto-curées. Gains : +16.7 points en math (AIME26/HMMT), +11.1 en science (GPQA), +8.3 en coding pour Qwen3-4B.

Lire la source

Ton avis ?

Qwen Fine-tuning Raisonnement Génération de code Papers

Résumé généré par Claude — vérifié par l'humain

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

Autres angles sur ce sujet