arXiv cs.CL·2 juin 2026

SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering

Signal

Hype

En 3 lignesSPADER est un framework RL pour agents LLM augmentés d'outils en Multi-Answer QA. Il introduit Step-wise Peer Advantage (SPA) pour l'attribution de crédit fine-grained sur trajectoires longues, et une récompense d'exploration sensible à la diversité favorisant la découverte d'entités rares. Évalué sur QAMPARI, Mintaka, WebQSP, QUEST : amélioration du recall et F1 vs prompting et RL supervisé.

Lire la source

Ton avis ?

Agents IA Reinforcement learning Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering

Autres angles sur ce sujet