Retour au feed
arXiv cs.CL·

What Training Data Teaches RL Memory Agents: An Empirical Study of Curriculum Effects in Memory-Augmented QA

Signal
72
Hype
15
En 3 lignesÉtude empirique sur l'effet du curriculum d'entraînement sur les agents RL avec mémoire externe en dialogue multi-session. Trois conditions testées (LoCoMo seul, LoCoMo + LongMemEval, LongMemEval seul) montrent que la composition des données façonne les compétences spécialisées plutôt que la performance globale. Le curriculum mixte obtient le meilleur F1 global.
Lire la source
Ton avis ?
Reinforcement learningAgents IARaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain