arXiv cs.CL·19 mai 2026

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

Signal

Hype

En 3 lignesSoohak est un benchmark de 439 problèmes mathématiques de niveau recherche, créé par 64 mathématiciens. Gemini-3-Pro atteint 30,4%, GPT-5 26,4%, Claude-Opus-4.5 10,4%. Le benchmark introduit un sous-ensemble « refusal » évaluant la capacité à reconnaître les problèmes mal posés : aucun modèle ne dépasse 50%.

Lire la source

Ton avis ?

Benchmarks Raisonnement GPT Gemini Claude

Résumé généré par Claude — vérifié par l'humain

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

Autres angles sur ce sujet