DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows
Signal
82
Hype
15
En 3 lignesDecisionBench est un benchmark pour évaluer la délégation émergente dans les workflows multi-agents long-horizon. Le substrate inclut 11 modèles (7 familles), des tâches GAIA/tau-bench/BFCL, et des métriques multi-axes (qualité, coût, latence, fidélité de routage). Les résultats montrent que la qualité seule masque les signaux d'orchestration, et que le canal de livraison domine le contenu des descriptions.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain