Retour au feed
arXiv cs.CL·

ToolMATH: A Diagnostic Benchmark for Long-Horizon Tool Use under Systematic Tool-Catalog Constraints

Signal
72
Hype
18
En 3 lignesToolMATH est un benchmark de diagnostic pour évaluer l'utilisation d'outils sur long horizon par les modèles de langage. Il convertit des solutions mathématiques en outils Python réutilisables avec descriptions naturelles et schémas typés, puis mesure l'adaptabilité (succès avec outils de remplacement), la robustesse (stabilité face aux distracteurs) et la connectivité des outils (précision sur chaînes longues).
Lire la source
Ton avis ?
BenchmarksAgents IAOutilsRaisonnement

Résumé généré par Claude — vérifié par l'humain