Retour au feed
arXiv cs.CL·

Hubness, Not Anisotropy, Drives Cross-Lingual Retrieval Asymmetry in Multilingual Embedding Models

Signal
82
Hype
15
En 3 lignesÉtude sur l'asymétrie de récupération cross-lingue dans 5 modèles multilingues (Gemini, Mistral, OpenAI, Qwen). Analyse de 6 518 expressions idiomatiques en anglais, bengali, hindi et arabe. Résultat : la « hubness » (concentration de vecteurs) est le principal facteur causal (49,5% de dominance), bien plus que l'anisotropie. La correction CSLS ferme 63,5% de l'écart de réciprocité.
Lire la source
Ton avis ?
EmbeddingsBenchmarksMulti-agentsPapers

Résumé généré par Claude — vérifié par l'humain