arXiv cs.CL·19 mai 2026

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

Signal

Hype

En 3 lignesSD-Search propose une auto-distillation par hindsight pour améliorer les agents de raisonnement augmentés par recherche. Un modèle unique joue deux rôles (étudiant et enseignant) : l'enseignant a accès aux résultats des requêtes passées et guide l'étudiant via divergence Jensen-Shannon au niveau des tokens. Aucun modèle externe ni annotation supplémentaire requise.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Agents IA RAG

Résumé généré par Claude — vérifié par l'humain

SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

Autres angles sur ce sujet