arXiv cs.AI·19 mai 2026

Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings

Signal

Hype

En 3 lignesScales++ propose une sélection de sous-ensembles de benchmarks basée sur les propriétés intrinsèques des tâches plutôt que sur les patterns d'erreur des modèles. Avec 0,25% des données sur Open LLM Leaderboard, l'approche prédit les scores complets avec 3,2% d'erreur absolue moyenne, réduisant le coût de sélection de 18x.

Lire la source

Ton avis ?

Benchmarks Évaluations

Résumé généré par Claude — vérifié par l'humain

Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings

Autres angles sur ce sujet