DeskCraft: Benchmarking Desktop Agents on Professional Workflows and Human-in-the-Loop Collaboration
Signal
82
Hype
18
En 3 lignesDeskCraft est un benchmark pour agents desktop GUI évaluant des workflows professionnels longs (>50 étapes) en design, vidéo, audio et 3D avec collaboration humain-agent. 18 agents testés sur 538 tâches : GPT-5.4 atteint 31,6% en mode standard et 27,6% en mode interactif. Révèle des faiblesses en clarification proactive et exécution long horizon.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain