arXiv cs.AI·19 mai 2026

Taxonomy and Consistency Analysis of Safety Benchmarks for AI Agents

Signal

Hype

En 3 lignesAnalyse systématique de 40 benchmarks de sécurité pour agents IA (2023-2026). Les benchmarks présentent des modèles de menace incompatibles, des métriques fragmentées et une couverture de risques incohérente. Test de concordance (Kendall's W = 0.10, p = 0.94) révèle l'absence d'alignement entre évaluations. Publication de métadonnées structurées et standards minimaux de reporting.

Lire la source

Ton avis ?

Agents IA Sécurité IA Évaluations Benchmarks

Résumé généré par Claude — vérifié par l'humain

Taxonomy and Consistency Analysis of Safety Benchmarks for AI Agents

Autres angles sur ce sujet