What Training Data Teaches RL Memory Agents: An Empirical Study of Curriculum Effects in Memory-Augmented QA
Signal
72
Hype
15
En 3 lignesÉtude empirique sur l'effet du curriculum d'entraînement sur les agents RL avec mémoire externe en dialogue multi-session. Trois conditions testées (LoCoMo seul, LoCoMo + LongMemEval, LongMemEval seul) montrent que la composition des données façonne les compétences spécialisées plutôt que la performance globale. Le curriculum mixte obtient le meilleur F1 global.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain