Beyond Inference-Time Search: Reinforcement Learning Synthesizes Reusable Solvers
Des chercheurs montrent que le renforcement learning peut encoder des solveurs réutilisables dans les poids d'un LLM plutôt que de résoudre chaque instance à l'inférence. En fine-tunant Qwen2.5-Coder-14B avec GRPO sur Synergistic Dependency Selection, le modèle converge vers Simulated Annealing avec 5.0% de gap au solveur optimal, 91× moins cher qu'un Best-of-64 baseline.