Retour au feed
arXiv cs.CL·

TrustLDM: Benchmarking Trustworthiness in Language Diffusion Models

Signal
75
Hype
15
En 3 lignesTrustLDM est un benchmark d'évaluation de la fiabilité des modèles de diffusion de langage (LDMs), couvrant sécurité, confidentialité et équité. Les résultats montrent que les LDMs dégradent leur alignement quand des contextes malveillants sont ajoutés aux réponses masquées, indépendamment de la longueur du contexte. Un framework d'évaluation automatique (TrustLDM-Auto) identifie les configurations vulnérables.
Lire la source
Ton avis ?
BenchmarksSécurité IAAlignementÉvaluations

Résumé généré par Claude — vérifié par l'humain