OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories
Signal
78
Hype
25
En 3 lignesOpenClawBench est un dataset de 31,264 trajectoires annotées pour détecter les anomalies de processus dans l'exécution d'agents IA, au-delà du simple succès de tâche. Parmi 31,135 exécutions réussies, 2,904 contiennent des anomalies (ambiguïté non résolue, écritures non sûres, erreurs ignorées). Un détecteur Gemma 3 12B fine-tuné atteint F1=0.729.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain