ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents
Signal
78
Hype
15
En 3 lignesClawForge est un framework de benchmark pour agents CLI testant la gestion d'état persistant et de conflits. 17 scénarios, 6 catégories d'aptitudes. Sept modèles frontier évalués : meilleur score 45,3%, écart maximal 17-90% selon inspection d'état préexistant.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain