arXiv cs.AI·19 mai 2026

Learning Reasoning Rewards from Expert Demonstrations with Inverse Reinforcement Learning

Signal

Hype

En 3 lignesR-AIRL (Reasoning Adversarial Inverse Reinforcement Learning) infère des fonctions de récompense au niveau du processus à partir des chaînes de pensée d'experts, sans nécessiter de récompenses explicites. Testé sur GSM8K, MMLU-Pro et MedReason : améliore pass@1 de 17,4 points en reranking, surpasse SFT en post-training, localise les défaillances de raisonnement avec 86,1% de précision.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

Learning Reasoning Rewards from Expert Demonstrations with Inverse Reinforcement Learning

Autres angles sur ce sujet