Retour au feed
arXiv cs.AI·

ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents

Signal
78
Hype
15
En 3 lignesClawForge est un framework de benchmark pour agents CLI testant la gestion d'état persistant et de conflits. 17 scénarios, 6 catégories d'aptitudes. Sept modèles frontier évalués : meilleur score 45,3%, écart maximal 17-90% selon inspection d'état préexistant.
Lire la source
Ton avis ?
Agents IABenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain