Retour au feed
arXiv cs.AI·

ComBench: A Benchmark for Rigorous Proof Reasoning and Constructive Realization in Olympiad-Level Combinatorics

Signal
82
Hype
15
En 3 lignesComBench est un benchmark de 100 problèmes de combinatoire niveau Olympiade pour évaluer le raisonnement mathématique des LLM. Il distingue problèmes d'analyse (preuves rigoureuses) et de construction (constructions explicites). Les meilleurs modèles atteignent 65,4% en moyenne et 75,3% en Best@4. Kimi-K2.6 surpasse GPT-4o sur les constructions mais le cède sur les preuves.
Lire la source
Ton avis ?
BenchmarksRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain