NPHardEval Leaderboard: Unveiling the Reasoning Abilities of Large Language Models through Complexity Classes and Dynamic Updates
Signal
75
Hype
25
En 3 lignesHugging Face lance NPHardEval Leaderboard, un benchmark évaluant les capacités de raisonnement des LLM via des problèmes NP-difficiles et des mises à jour dynamiques. Le leaderboard classe les modèles selon leur performance sur des tâches de complexité croissante.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain