arXiv cs.LG·20 mai 2026

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

Signal

Hype

En 3 lignesReCrit est un framework de reinforcement learning qui améliore la capacité des LLM à gérer les critiques utilisateur en raisonnement scientifique. Il décompose les comportements en quatre quadrants (Correction, Sycophancy, Robustness, Boundary) et utilise des récompenses transition-aware. Sur ChemBench, TRQA et EarthSE, ReCrit améliore la précision de 38,15% à 51,49% sur Qwen3.5-4B.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Qwen Benchmarks

Résumé généré par Claude — vérifié par l'humain

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

Autres angles sur ce sujet