Can LLM Agents Be CFOs? Benchmarking Long-Horizon Resource Allocation in an Uncertain Enterprise Environment
Signal
82
Hype
18
En 3 lignesEnterpriseArena, un simulateur CFO de 132 mois, évalue la capacité des agents LLM à allouer des ressources sur long terme dans l'incertitude. Tests sur 23 modèles et 4 frameworks : seulement 15,4% des essais survivent l'horizon complet. Les modèles plus grands ne surpassent pas fiablement les petits. Révèle un écart critique dans la gestion d'engagements contraignants sous observabilité partielle.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain