SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning
Signal
78
Hype
15
En 3 lignesSD-Search propose une auto-distillation par hindsight pour améliorer les agents de raisonnement augmentés par recherche. Un modèle unique joue deux rôles (étudiant et enseignant) : l'enseignant a accès aux résultats des requêtes passées et guide l'étudiant via divergence Jensen-Shannon au niveau des tokens. Aucun modèle externe ni annotation supplémentaire requise.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain