Retour au feed
arXiv cs.AI·

CAM-Bench: A Benchmark for Computational and Applied Mathematics in Lean

Signal
78
Hype
15
En 3 lignesCAM-Bench est un benchmark Lean 4 de 1 000 problèmes de mathématiques computationnelles et appliquées (optimisation, algèbre linéaire numérique, analyse numérique). Les problèmes sont extraits de manuels avec contexte local reconstruit via pipeline de récupération de dépendances. Évaluation de LLMs et agents de formalisation révèle des défaillances sur les hypothèses locales et le contrôle long-horizon.
Lire la source
Ton avis ?
BenchmarksRaisonnementGénération de code

Résumé généré par Claude — vérifié par l'humain