arXiv cs.CL·25 mai 2026

Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals

Signal

Hype

En 3 lignesMaR (Metacognition-as-Reward) est un framework RL qui améliore le raisonnement des LLM via deux dimensions : la connaissance métacognitive (identification d'infos pertinentes) et la régulation métacognitive (planification du processus). Testé sur 22 benchmarks, Qwen3.5-9B + MaR gagne jusqu'à 7.7% vs modèle de base et 11.0% vs DAPO vanilla, surpassant GPT-OSS-120B en moyenne.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Qwen Benchmarks

Résumé généré par Claude — vérifié par l'humain

Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals

Autres angles sur ce sujet