Retour au feed
arXiv cs.AI·

Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings

Signal
78
Hype
25
En 3 lignesScales++ propose une sélection de sous-ensembles de benchmarks basée sur les propriétés intrinsèques des tâches plutôt que sur les patterns d'erreur des modèles. Avec 0,25% des données sur Open LLM Leaderboard, l'approche prédit les scores complets avec 3,2% d'erreur absolue moyenne, réduisant le coût de sélection de 18x.
Lire la source
Ton avis ?
BenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain