ToolMATH: A Diagnostic Benchmark for Long-Horizon Tool Use under Systematic Tool-Catalog Constraints
Signal
72
Hype
18
En 3 lignesToolMATH est un benchmark de diagnostic pour évaluer l'utilisation d'outils sur long horizon par les modèles de langage. Il convertit des solutions mathématiques en outils Python réutilisables avec descriptions naturelles et schémas typés, puis mesure l'adaptabilité (succès avec outils de remplacement), la robustesse (stabilité face aux distracteurs) et la connectivité des outils (précision sur chaînes longues).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain