arXiv cs.AI·17 juin 2026

EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent

Signal

Hype

En 3 lignesEComAgentBench est un benchmark de 662 tâches e-commerce évaluant les agents LLM sur des intentions cachées distribuées entre requête, profil utilisateur et clarifications. Les exigences sont dispersées et l'agent doit les découvrir en moins de 100 appels d'outils. Le meilleur modèle atteint 57,1% de précision.

Lire la source

Ton avis ?

Agents IA Benchmarks Évaluations

Résumé généré par Claude — vérifié par l'humain

EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent

Autres angles sur ce sujet