Retour au feed
arXiv cs.CL·

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

Signal
82
Hype
18
En 3 lignesSoohak est un benchmark de 439 problèmes mathématiques de niveau recherche, créé par 64 mathématiciens. Gemini-3-Pro atteint 30,4%, GPT-5 26,4%, Claude-Opus-4.5 10,4%. Le benchmark introduit un sous-ensemble « refusal » évaluant la capacité à reconnaître les problèmes mal posés : aucun modèle ne dépasse 50%.
Lire la source
Ton avis ?
BenchmarksRaisonnementGPTGeminiClaude

Résumé généré par Claude — vérifié par l'humain