SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering
Signal
78
Hype
18
En 3 lignesSPADER est un framework RL pour agents LLM augmentés d'outils en Multi-Answer QA. Il introduit Step-wise Peer Advantage (SPA) pour l'attribution de crédit fine-grained sur trajectoires longues, et une récompense d'exploration sensible à la diversité favorisant la découverte d'entités rares. Évalué sur QAMPARI, Mintaka, WebQSP, QUEST : amélioration du recall et F1 vs prompting et RL supervisé.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain