arXiv cs.AI·19 mai 2026

ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents

Signal

Hype

En 3 lignesClawForge est un framework de benchmark pour agents CLI testant la gestion d'état persistant et de conflits. 17 scénarios, 6 catégories d'aptitudes. Sept modèles frontier évalués : meilleur score 45,3%, écart maximal 17-90% selon inspection d'état préexistant.

Lire la source

Ton avis ?

Agents IA Benchmarks Évaluations

Résumé généré par Claude — vérifié par l'humain

ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents

Autres angles sur ce sujet