Retour au feed
arXiv cs.CL·

DecomposeRL: Learning to Ask Useful, Informative, and Diverse Questions for Semi-Supervised, Traceable Claim Verification

Signal
78
Hype
25
En 3 lignesDecomposeRL combine vérification de claims précise et traçabilité inspectable via RL (GRPO). Un modèle 7B entraîné sur 5K claims curatés atteint 86.3% in-domain et 69.8% out-of-domain, égalant des baselines 32B et GPT-4.1-mini. Fonctionne en semi-supervisé avec 10% de données étiquetées.
Lire la source
Ton avis ?
RaisonnementReinforcement learningBenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain