arXiv cs.AI·19 mai 2026

Beyond Inference-Time Search: Reinforcement Learning Synthesizes Reusable Solvers

Signal

Hype

En 3 lignesDes chercheurs montrent que le renforcement learning peut encoder des solveurs réutilisables dans les poids d'un LLM plutôt que de résoudre chaque instance à l'inférence. En fine-tunant Qwen2.5-Coder-14B avec GRPO sur Synergistic Dependency Selection, le modèle converge vers Simulated Annealing avec 5.0% de gap au solveur optimal, 91× moins cher qu'un Best-of-64 baseline.

Lire la source

Ton avis ?

Reinforcement learning Génération de code Qwen Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

Beyond Inference-Time Search: Reinforcement Learning Synthesizes Reusable Solvers

Autres angles sur ce sujet