arXiv cs.AI·19 mai 2026

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

Signal

Hype

En 3 lignesScaleLogic, un framework de raisonnement logique synthétique, montre que l'RL peut enseigner le raisonnement long-horizon aux LLMs. Le coût d'entraînement suit une loi de puissance avec la profondeur de preuve (T ∝ D^γ, R² > 0.99), l'exposant γ augmentant de 1.04 à 2.60 avec l'expressivité logique. Les modèles entraînés sur des logiques plus expressives transfèrent mieux (+10.66 points sur benchmarks).

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

Autres angles sur ce sujet