Retour au feed
arXiv cs.AI·

What and When to Distill: Selective Hindsight Distillation for Multi-Turn Agents

Signal
78
Hype
25
En 3 lignesSERL, un framework d'apprentissage par renforcement sélectif, améliore l'entraînement d'agents LLM multi-tours en exploitant les retours environnementaux granulaires (messages d'erreur, changements de page, trajectoires de référence). Sur ALFWorld et WebShop, SERL atteint 90,0% et 80,1% de succès, surpassant les baselines RL et distillation existantes.
Lire la source
Ton avis ?
Agents IAReinforcement learningRaisonnement

Résumé généré par Claude — vérifié par l'humain