Retour au feed
arXiv cs.AI·

Beyond Inference-Time Search: Reinforcement Learning Synthesizes Reusable Solvers

Signal
78
Hype
25
En 3 lignesDes chercheurs montrent que le renforcement learning peut encoder des solveurs réutilisables dans les poids d'un LLM plutôt que de résoudre chaque instance à l'inférence. En fine-tunant Qwen2.5-Coder-14B avec GRPO sur Synergistic Dependency Selection, le modèle converge vers Simulated Annealing avec 5.0% de gap au solveur optimal, 91× moins cher qu'un Best-of-64 baseline.
Lire la source
Ton avis ?
Reinforcement learningGénération de codeQwenRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain