Retour au feed
arXiv cs.CL·

Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals

Signal
78
Hype
25
En 3 lignesMaR (Metacognition-as-Reward) est un framework RL qui améliore le raisonnement des LLM via deux dimensions : la connaissance métacognitive (identification d'infos pertinentes) et la régulation métacognitive (planification du processus). Testé sur 22 benchmarks, Qwen3.5-9B + MaR gagne jusqu'à 7.7% vs modèle de base et 11.0% vs DAPO vanilla, surpassant GPT-OSS-120B en moyenne.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementQwenBenchmarks

Résumé généré par Claude — vérifié par l'humain