Retour au feed
arXiv cs.AI·

WebGameBench: Requirement-to-Application Evaluation for Coding Agents via Browser-Native Games

Signal
78
Hype
25
En 3 lignesWebGameBench est un benchmark évaluant si les agents de code peuvent transformer une spécification de jeu web en application jouable dans un navigateur. Sur 111 tâches et 12 agents, le meilleur atteint 76,9% de taux utilisable mais seulement 20,2% excellent, révélant un écart entre livraison minimale et satisfaction complète des exigences.
Lire la source
Ton avis ?
Agents IAGénération de codeBenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain