arXiv cs.CL·29 mai 2026

Benchmarking Open-Source Safety Guard Models: A Comprehensive Evaluation

Signal

Hype

En 3 lignesÉvaluation de 14 modèles de sécurité open-source sur 79 331 échantillons couvrant 8 catégories de risque NIST. Qwen Guard (4B) atteint le meilleur recall (83,97%), surpassant Llama Guard (12B) et GPT-OSS Safeguard (20B). La taille du modèle ne corrèle pas avec la performance de détection.

Lire la source

Ton avis ?

Benchmarks Sécurité IA Open source Qwen Llama

Résumé généré par Claude — vérifié par l'humain

Benchmarking Open-Source Safety Guard Models: A Comprehensive Evaluation

Autres angles sur ce sujet