How can Deepseek v4 top the coding leaderboards and still sit 8 months behind the frontier?
Signal
45
Hype
55
En 3 lignesDeepSeek v4 Pro affiche 80.6 sur SWE-bench et 93.5 sur LiveCodeBench mais CAISI l'évalue 8 mois derrière la frontière US (vs 2 mois selon DeepSeek). Les benchmarks de code sont étroits et sur-optimisés ; les écarts apparaissent en cybersécurité et raisonnement abstrait. Les versions quantifiées locales s'éloignent davantage des scores annoncés.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain