Retour au feed
arXiv cs.AI·

Learning Reasoning Rewards from Expert Demonstrations with Inverse Reinforcement Learning

Signal
78
Hype
25
En 3 lignesR-AIRL (Reasoning Adversarial Inverse Reinforcement Learning) infère des fonctions de récompense au niveau du processus à partir des chaînes de pensée d'experts, sans nécessiter de récompenses explicites. Testé sur GSM8K, MMLU-Pro et MedReason : améliore pass@1 de 17,4 points en reranking, surpasse SFT en post-training, localise les défaillances de raisonnement avec 86,1% de précision.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain