SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science
Signal
78
Hype
15
En 3 lignesSCICONVBENCH est un benchmark évaluant la capacité des LLM à clarifier des problèmes mal posés en science computationnelle via dialogue multi-tour. Couvre mécanique des fluides, mécanique solide, science des matériaux et EDP. Les meilleurs modèles résolvent seulement 52,7% des cas d'ambiguïté en mécanique des fluides, mais performent mieux sur la détection d'incohérences.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain