Retour au feed
arXiv cs.AI·

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

Signal
82
Hype
15
En 3 lignesDecisionBench est un benchmark pour évaluer la délégation émergente dans les workflows multi-agents long-horizon. Le substrate inclut 11 modèles (7 familles), des tâches GAIA/tau-bench/BFCL, et des métriques multi-axes (qualité, coût, latence, fidélité de routage). Les résultats montrent que la qualité seule masque les signaux d'orchestration, et que le canal de livraison domine le contenu des descriptions.
Lire la source
Ton avis ?
Agents IAMulti-agentsBenchmarksRaisonnement

Résumé généré par Claude — vérifié par l'humain