arXiv cs.CL·28 mai 2026

DecomposeRL: Learning to Ask Useful, Informative, and Diverse Questions for Semi-Supervised, Traceable Claim Verification

Signal

Hype

En 3 lignesDecomposeRL combine vérification de claims précise et traçabilité inspectable via RL (GRPO). Un modèle 7B entraîné sur 5K claims curatés atteint 86.3% in-domain et 69.8% out-of-domain, égalant des baselines 32B et GPT-4.1-mini. Fonctionne en semi-supervisé avec 10% de données étiquetées.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Benchmarks Évaluations

Résumé généré par Claude — vérifié par l'humain

DecomposeRL: Learning to Ask Useful, Informative, and Diverse Questions for Semi-Supervised, Traceable Claim Verification

Autres angles sur ce sujet