arXiv cs.LG·20 mai 2026

The Growing Pains of Frontier Models: When Leaderboards Stop Separating and What to Measure Next

Signal

Hype

En 3 lignesAnalyse de 34 modèles frontier (2024-2026) montrant que les capacités de raisonnement et codage coopèrent (r=+0.72) mais avec variations par lab. DeepSeek a basculé de reasoning-first à coding-first (+11.2→-4.7); Google maintient l'équilibre; Anthropic oscille. SWE-bench sature tandis que HLE et instruction-following restent discriminants. Prédictions falsifiables pour 12 mois avec dashboard interactif.

Lire la source

Ton avis ?

Benchmarks Évaluations Raisonnement Génération de code

Résumé généré par Claude — vérifié par l'humain

The Growing Pains of Frontier Models: When Leaderboards Stop Separating and What to Measure Next

Autres angles sur ce sujet