Retour au feed
arXiv cs.CL·

Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

Signal
72
Hype
18
En 3 lignesMéthode RL pour contrôler l'échantillonnage adaptatif au test-time sur LLM. Un contrôleur léger entraîné en RL décide dynamiquement d'arrêter ou continuer l'échantillonnage, équilibrant exactitude, latence et coût. Formulation MDP avec interprétation Lagrangienne. Surpasse ASC et ESC sur les trade-offs.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain