Hugging Face Blog·14 février 2025

Fixing Open LLM Leaderboard with Math-Verify

Signal

Hype

En 3 lignesHugging Face corrige son classement Open LLM en intégrant Math-Verify, une méthode de vérification mathématique pour évaluer plus précisément les capacités de raisonnement des modèles de langage. Cette amélioration adresse les limitations des métriques précédentes.

Lire la source

Ton avis ?

Benchmarks Évaluations Raisonnement

Résumé généré par Claude — vérifié par l'humain

Fixing Open LLM Leaderboard with Math-Verify

Autres angles sur ce sujet