Taxonomy and Consistency Analysis of Safety Benchmarks for AI Agents
Signal
85
Hype
15
En 3 lignesAnalyse systématique de 40 benchmarks de sécurité pour agents IA (2023-2026). Les benchmarks présentent des modèles de menace incompatibles, des métriques fragmentées et une couverture de risques incohérente. Test de concordance (Kendall's W = 0.10, p = 0.94) révèle l'absence d'alignement entre évaluations. Publication de métadonnées structurées et standards minimaux de reporting.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain