arXiv cs.CL·3 juin 2026

Predicting Inference-Time Scaling Gains from Labeled Validation-Set Output Statistics

Signal

Hype

En 3 lignesMéthode pour prédire les gains de scaling en inférence (best-of-N) sans exécuter la procédure complète. Ridge predictor identifie 3 features stables (accord inter-prompts, position du premier échantillon correct, variance de longueur) + entropie, atteignant ρ=0.90 de corrélation avec les gains réels sur familles de modèles et tâches math/reasoning.

Lire la source

Ton avis ?

Raisonnement Évaluations Reinforcement learning

Résumé généré par Claude — vérifié par l'humain

Predicting Inference-Time Scaling Gains from Labeled Validation-Set Output Statistics

Autres angles sur ce sujet