WebGameBench: Requirement-to-Application Evaluation for Coding Agents via Browser-Native Games
Signal
78
Hype
25
En 3 lignesWebGameBench est un benchmark évaluant si les agents de code peuvent transformer une spécification de jeu web en application jouable dans un navigateur. Sur 111 tâches et 12 agents, le meilleur atteint 76,9% de taux utilisable mais seulement 20,2% excellent, révélant un écart entre livraison minimale et satisfaction complète des exigences.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain