Retour au feed
arXiv cs.AI·

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

Signal
78
Hype
15
En 3 lignesSD-Search propose une auto-distillation par hindsight pour améliorer les agents de raisonnement augmentés par recherche. Un modèle unique joue deux rôles (étudiant et enseignant) : l'enseignant conditionné sur les résultats passés guide l'étudiant via divergence Jensen-Shannon au niveau des tokens. Aucun modèle externe ni annotation supplémentaire requise.
Lire la source
Ton avis ?
RaisonnementReinforcement learningRAG

Résumé généré par Claude — vérifié par l'humain