Retour au feed
arXiv cs.AI·

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

Signal
82
Hype
18
En 3 lignesScaleLogic, un framework de raisonnement logique synthétique, montre que l'RL peut enseigner le raisonnement long-horizon aux LLMs. Le coût d'entraînement suit une loi de puissance avec la profondeur de preuve (T ∝ D^γ, R² > 0.99), l'exposant γ augmentant de 1.04 à 2.60 avec l'expressivité logique. Les modèles entraînés sur des logiques plus expressives transfèrent mieux (+10.66 points sur benchmarks).
Lire la source
Ton avis ?
Reinforcement learningRaisonnementBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain