Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings
Signal
78
Hype
25
En 3 lignesScales++ propose une sélection de sous-ensembles de benchmarks basée sur les propriétés intrinsèques des tâches plutôt que sur les patterns d'erreur des modèles. Avec 0,25% des données sur Open LLM Leaderboard, l'approche prédit les scores complets avec 3,2% d'erreur absolue moyenne, réduisant le coût de sélection de 18x.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain