Discovering Lexical Gaps Using Embeddings from Multilingual LLMs
Signal
72
Hype
15
En 3 lignesCadre automatisé pour détecter les lacunes lexicales (mots inexistants dans certaines langues) via embeddings de LLMs multilingues. Sur paires de traduction coréen-anglais, 4000 espaces d'embedding testés montrent que les mots lacunaires ont un alignement sémantique cross-lingue plus faible. Classifieurs logistiques atteignent AUC 0.81-0.76 et récupèrent 18/19 et 26/27 mots lacunaires.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain