arXiv cs.AI·20 mai 2026

What and When to Distill: Selective Hindsight Distillation for Multi-Turn Agents

Signal

Hype

En 3 lignesSERL, un framework d'apprentissage par renforcement sélectif, améliore l'entraînement d'agents LLM multi-tours en exploitant les retours environnementaux granulaires (messages d'erreur, changements de page, trajectoires de référence). Sur ALFWorld et WebShop, SERL atteint 90,0% et 80,1% de succès, surpassant les baselines RL et distillation existantes.

Lire la source

Ton avis ?

Agents IA Reinforcement learning Raisonnement

Résumé généré par Claude — vérifié par l'humain

What and When to Distill: Selective Hindsight Distillation for Multi-Turn Agents

Autres angles sur ce sujet