arXiv cs.LG·4 juin 2026

KODA: Contrastive Representation Comparison and Alignment for Vision-Language Foundation Models

Signal

Hype

En 3 lignesKODA est un framework kernel-based pour comparer et aligner les représentations de modèles vision-langage (CLIP, SigLIP). La méthode identifie des sous-ensembles d'échantillons faiblement groupés dans une représentation mais fortement groupés dans une autre, via optimisation contrainte et approximations low-rank. Code disponible.

Lire la source

Ton avis ?

Vision Embeddings Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

KODA: Contrastive Representation Comparison and Alignment for Vision-Language Foundation Models

Autres angles sur ce sujet