Retour au feed
arXiv cs.AI·

OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories

Signal
78
Hype
25
En 3 lignesOpenClawBench est un dataset de 31,264 trajectoires annotées pour détecter les anomalies de processus dans l'exécution d'agents IA, au-delà du simple succès de tâche. Parmi 31,135 exécutions réussies, 2,904 contiennent des anomalies (ambiguïté non résolue, écritures non sûres, erreurs ignorées). Un détecteur Gemma 3 12B fine-tuné atteint F1=0.729.
Lire la source
Ton avis ?
Agents IABenchmarksÉvaluationsSécurité IAGemini

Résumé généré par Claude — vérifié par l'humain