Retour au feed
arXiv cs.CL·

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

Signal
78
Hype
15
En 3 lignesSD-Search propose une auto-distillation par hindsight pour améliorer les agents de raisonnement augmentés par recherche. Un modèle unique joue deux rôles (étudiant et enseignant) : l'enseignant a accès aux résultats des requêtes passées et guide l'étudiant via divergence Jensen-Shannon au niveau des tokens. Aucun modèle externe ni annotation supplémentaire requise.
Lire la source
Ton avis ?
RaisonnementReinforcement learningAgents IARAG

Résumé généré par Claude — vérifié par l'humain