arXiv cs.CL·2 juin 2026

TrustLDM: Benchmarking Trustworthiness in Language Diffusion Models

Signal

Hype

En 3 lignesTrustLDM est un benchmark d'évaluation de la fiabilité des modèles de diffusion de langage (LDMs), couvrant sécurité, confidentialité et équité. Les résultats montrent que les LDMs dégradent leur alignement quand des contextes malveillants sont ajoutés aux réponses masquées, indépendamment de la longueur du contexte. Un framework d'évaluation automatique (TrustLDM-Auto) identifie les configurations vulnérables.

Lire la source

Ton avis ?

Benchmarks Sécurité IA Alignement Évaluations

Résumé généré par Claude — vérifié par l'humain

TrustLDM: Benchmarking Trustworthiness in Language Diffusion Models

Autres angles sur ce sujet