ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning
Signal
78
Hype
25
En 3 lignesReCrit est un framework de reinforcement learning qui améliore la capacité des LLM à gérer les critiques utilisateur en raisonnement scientifique. Il décompose les comportements en quatre quadrants (Correction, Sycophancy, Robustness, Boundary) et utilise des récompenses transition-aware. Sur ChemBench, TRQA et EarthSE, ReCrit améliore la précision de 38,15% à 51,49% sur Qwen3.5-4B.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain