Retour au feed
arXiv cs.CL·

Discovering Lexical Gaps Using Embeddings from Multilingual LLMs

Signal
72
Hype
15
En 3 lignesCadre automatisé pour détecter les lacunes lexicales (mots inexistants dans certaines langues) via embeddings de LLMs multilingues. Sur paires de traduction coréen-anglais, 4000 espaces d'embedding testés montrent que les mots lacunaires ont un alignement sémantique cross-lingue plus faible. Classifieurs logistiques atteignent AUC 0.81-0.76 et récupèrent 18/19 et 26/27 mots lacunaires.
Lire la source
Ton avis ?
EmbeddingsBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain