LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening
Signal
78
Hype
15
En 3 lignesLLMEval-Logic est un benchmark chinois de raisonnement logique contenant 246 items de base et 190 items difficiles, vérifiés par Z3 et audités par experts. Évaluation de 14 modèles frontière : meilleur score 37,5% sur items difficiles, 60,16% en formalisation Z3+rubrique.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain