Retour au feed
arXiv cs.AI·

SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

Signal
78
Hype
15
En 3 lignesSCICONVBENCH est un benchmark évaluant la capacité des LLM à clarifier des problèmes mal posés en science computationnelle via dialogue multi-tour. Couvre mécanique des fluides, mécanique solide, science des matériaux et EDP. Les meilleurs modèles résolvent seulement 52,7% des cas d'ambiguïté en mécanique des fluides, mais performent mieux sur la détection d'incohérences.
Lire la source
Ton avis ?
BenchmarksRaisonnementGénération de codePapers

Résumé généré par Claude — vérifié par l'humain