Retour au feed
arXiv cs.LG·

The Growing Pains of Frontier Models: When Leaderboards Stop Separating and What to Measure Next

Signal
78
Hype
22
En 3 lignesAnalyse de 34 modèles frontier (2024-2026) montrant que les capacités de raisonnement et codage coopèrent (r=+0.72) mais avec variations par lab. DeepSeek a basculé de reasoning-first à coding-first (+11.2→-4.7); Google maintient l'équilibre; Anthropic oscille. SWE-bench sature tandis que HLE et instruction-following restent discriminants. Prédictions falsifiables pour 12 mois avec dashboard interactif.
Lire la source
Ton avis ?
BenchmarksÉvaluationsRaisonnementGénération de code

Résumé généré par Claude — vérifié par l'humain