arXiv cs.AI·19 mai 2026

SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

Signal

Hype

En 3 lignesSCICONVBENCH est un benchmark évaluant la capacité des LLM à clarifier des problèmes mal posés en science computationnelle via dialogue multi-tour. Couvre mécanique des fluides, mécanique solide, science des matériaux et EDP. Les meilleurs modèles résolvent seulement 52,7% des cas d'ambiguïté en mécanique des fluides, mais performent mieux sur la détection d'incohérences.

Lire la source

Ton avis ?

Benchmarks Raisonnement Génération de code Papers

Résumé généré par Claude — vérifié par l'humain

SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

Autres angles sur ce sujet