What and When to Distill: Selective Hindsight Distillation for Multi-Turn Agents
Signal
78
Hype
25
En 3 lignesSERL, un framework d'apprentissage par renforcement sélectif, améliore l'entraînement d'agents LLM multi-tours en exploitant les retours environnementaux granulaires (messages d'erreur, changements de page, trajectoires de référence). Sur ALFWorld et WebShop, SERL atteint 90,0% et 80,1% de succès, surpassant les baselines RL et distillation existantes.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain