arXiv cs.CL·25 mai 2026

What Training Data Teaches RL Memory Agents: An Empirical Study of Curriculum Effects in Memory-Augmented QA

Signal

Hype

En 3 lignesÉtude empirique sur l'effet du curriculum d'entraînement sur les agents RL avec mémoire externe en dialogue multi-session. Trois conditions testées (LoCoMo seul, LoCoMo + LongMemEval, LongMemEval seul) montrent que la composition des données façonne les compétences spécialisées plutôt que la performance globale. Le curriculum mixte obtient le meilleur F1 global.

Lire la source

Ton avis ?

Reinforcement learning Agents IA Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

What Training Data Teaches RL Memory Agents: An Empirical Study of Curriculum Effects in Memory-Augmented QA

Autres angles sur ce sujet