Retour au feed
arXiv cs.CL·

SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering

Signal
78
Hype
18
En 3 lignesSPADER est un framework RL pour agents LLM augmentés d'outils en Multi-Answer QA. Il introduit Step-wise Peer Advantage (SPA) pour l'attribution de crédit fine-grained sur trajectoires longues, et une récompense d'exploration sensible à la diversité favorisant la découverte d'entités rares. Évalué sur QAMPARI, Mintaka, WebQSP, QUEST : amélioration du recall et F1 vs prompting et RL supervisé.
Lire la source
Ton avis ?
Agents IAReinforcement learningRaisonnementPapers

Résumé généré par Claude — vérifié par l'humain