Retour au feed
arXiv cs.AI·

EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent

Signal
82
Hype
15
En 3 lignesEComAgentBench est un benchmark de 662 tâches e-commerce évaluant les agents LLM sur des intentions cachées distribuées entre requête, profil utilisateur et clarifications. Les exigences sont dispersées et l'agent doit les découvrir en moins de 100 appels d'outils. Le meilleur modèle atteint 57,1% de précision.
Lire la source
Ton avis ?
Agents IABenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain