arXiv cs.CL·2 juin 2026

Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs

Signal

Hype

En 3 lignesUniKE, premier benchmark pour l'édition de connaissances cross-modal dans les modèles multimodaux unifiés (UMMs), révèle un écart critique : l'efficacité textuelle atteint 92% mais la précision VQA en génération d'images chute à 18,5%. Une méthode d'édition paramétrique augmentée par raisonnement améliore les résultats jusqu'à +18,6 points.

Lire la source

Ton avis ?

Benchmarks Vision Fine-tuning Papers

Résumé généré par Claude — vérifié par l'humain

Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs

Autres angles sur ce sujet