Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs
Signal
78
Hype
25
En 3 lignesUniKE, premier benchmark pour l'édition de connaissances cross-modal dans les modèles multimodaux unifiés (UMMs), révèle un écart critique : l'efficacité textuelle atteint 92% mais la précision VQA en génération d'images chute à 18,5%. Une méthode d'édition paramétrique augmentée par raisonnement améliore les résultats jusqu'à +18,6 points.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain