Retour au feed
arXiv cs.CL·

Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs

Signal
78
Hype
25
En 3 lignesUniKE, premier benchmark pour l'édition de connaissances cross-modal dans les modèles multimodaux unifiés (UMMs), révèle un écart critique : l'efficacité textuelle atteint 92% mais la précision VQA en génération d'images chute à 18,5%. Une méthode d'édition paramétrique augmentée par raisonnement améliore les résultats jusqu'à +18,6 points.
Lire la source
Ton avis ?
BenchmarksVisionFine-tuningPapers

Résumé généré par Claude — vérifié par l'humain