Retour au feed
Reddit r/LocalLLaMA·

DeepSWE benchmarks indicate that DeepSeek v4 Pro only passes 8% of tasks

Signal
35
Hype
45
En 3 lignesUn utilisateur Reddit rapporte que DeepSeek v4 Pro obtient 8% de réussite sur le benchmark DeepSWE, contrastant avec sa perception d'une performance proche de Claude Sonnet 4.6 en pratique. Le lien vers le benchmark DeepSWE est fourni.
Lire la source
Ton avis ?
DeepSeekBenchmarksGénération de code

Résumé généré par Claude — vérifié par l'humain