Retour au feed
arXiv cs.LG·

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

Signal
78
Hype
25
En 3 lignesReCrit est un framework de reinforcement learning qui améliore la capacité des LLM à gérer les critiques utilisateur en raisonnement scientifique. Il décompose les comportements en quatre quadrants (Correction, Sycophancy, Robustness, Boundary) et utilise des récompenses transition-aware. Sur ChemBench, TRQA et EarthSE, ReCrit améliore la précision de 38,15% à 51,49% sur Qwen3.5-4B.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementQwenBenchmarks

Résumé généré par Claude — vérifié par l'humain