arXiv cs.AI·20 mai 2026

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

Signal

Hype

En 3 lignesDecisionBench est un benchmark pour évaluer la délégation émergente dans les workflows multi-agents long-horizon. Le substrate inclut 11 modèles (7 familles), des tâches GAIA/tau-bench/BFCL, et des métriques multi-axes (qualité, coût, latence, fidélité de routage). Les résultats montrent que la qualité seule masque les signaux d'orchestration, et que le canal de livraison domine le contenu des descriptions.

Lire la source

Ton avis ?

Agents IA Multi-agents Benchmarks Raisonnement

Résumé généré par Claude — vérifié par l'humain

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

Autres angles sur ce sujet