Hugging Face Blog·2 février 2024

NPHardEval Leaderboard: Unveiling the Reasoning Abilities of Large Language Models through Complexity Classes and Dynamic Updates

Signal

Hype

En 3 lignesHugging Face lance NPHardEval Leaderboard, un benchmark évaluant les capacités de raisonnement des LLM via des problèmes NP-difficiles et des mises à jour dynamiques. Le leaderboard classe les modèles selon leur performance sur des tâches de complexité croissante.

Lire la source

Ton avis ?

Benchmarks Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

NPHardEval Leaderboard: Unveiling the Reasoning Abilities of Large Language Models through Complexity Classes and Dynamic Updates

Autres angles sur ce sujet