Beyond Catalogue Counts: the Dataset Visibility Asymmetry in Low-Resource Multilingual NLP
Signal
78
Hype
15
En 3 lignesÉtude révélant une asymétrie de visibilité des datasets multilingues : 118 langues (59% des 200 plus parlées) ont zéro dataset catalogué selon LRE Map et LDC. Via citation-mining sur Semantic Scholar, les auteurs identifient 609 datasets uniques dans 53 langues peu visibles, dont 356 accessibles publiquement. La rareté multilingue est un problème de documentation et discoverabilité, pas seulement de production.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain