EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent
Signal
82
Hype
15
En 3 lignesEComAgentBench est un benchmark de 662 tâches e-commerce évaluant les agents LLM sur des intentions cachées distribuées entre requête, profil utilisateur et clarifications. Les exigences sont dispersées et l'agent doit les découvrir en moins de 100 appels d'outils. Le meilleur modèle atteint 57,1% de précision.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain