Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
Signal
82
Hype
18
En 3 lignesScaleLogic, un framework de raisonnement logique synthétique, montre que l'RL peut enseigner le raisonnement long-horizon aux LLMs. Le coût d'entraînement suit une loi de puissance avec la profondeur de preuve (T ∝ D^γ, R² > 0.99), l'exposant γ augmentant de 1.04 à 2.60 avec l'expressivité logique. Les modèles entraînés sur des logiques plus expressives transfèrent mieux (+10.66 points sur benchmarks).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain