arXiv cs.AI·19 mai 2026

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

Signal

Hype

En 3 lignesSD-Search propose une auto-distillation par hindsight pour améliorer les agents de raisonnement augmentés par recherche. Un modèle unique joue deux rôles (étudiant et enseignant) : l'enseignant conditionné sur les résultats passés guide l'étudiant via divergence Jensen-Shannon au niveau des tokens. Aucun modèle externe ni annotation supplémentaire requise.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning RAG

Résumé généré par Claude — vérifié par l'humain

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

Autres angles sur ce sujet