Retour au feed
arXiv cs.CL·

Predicting Inference-Time Scaling Gains from Labeled Validation-Set Output Statistics

Signal
78
Hype
15
En 3 lignesMéthode pour prédire les gains de scaling en inférence (best-of-N) sans exécuter la procédure complète. Ridge predictor identifie 3 features stables (accord inter-prompts, position du premier échantillon correct, variance de longueur) + entropie, atteignant ρ=0.90 de corrélation avec les gains réels sur familles de modèles et tâches math/reasoning.
Lire la source
Ton avis ?
RaisonnementÉvaluationsReinforcement learning

Résumé généré par Claude — vérifié par l'humain