arXiv cs.CL·3 juin 2026

Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

Signal

Hype

En 3 lignesMéthode RL pour contrôler l'échantillonnage adaptatif au test-time sur LLM. Un contrôleur léger entraîné en RL décide dynamiquement d'arrêter ou continuer l'échantillonnage, équilibrant exactitude, latence et coût. Formulation MDP avec interprétation Lagrangienne. Surpasse ASC et ESC sur les trade-offs.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

Autres angles sur ce sujet