ComBench: A Benchmark for Rigorous Proof Reasoning and Constructive Realization in Olympiad-Level Combinatorics
Signal
82
Hype
15
En 3 lignesComBench est un benchmark de 100 problèmes de combinatoire niveau Olympiade pour évaluer le raisonnement mathématique des LLM. Il distingue problèmes d'analyse (preuves rigoureuses) et de construction (constructions explicites). Les meilleurs modèles atteignent 65,4% en moyenne et 75,3% en Best@4. Kimi-K2.6 surpasse GPT-4o sur les constructions mais le cède sur les preuves.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain