Retour au feed
arXiv cs.CL·

Beyond Catalogue Counts: the Dataset Visibility Asymmetry in Low-Resource Multilingual NLP

Signal
78
Hype
15
En 3 lignesÉtude révélant une asymétrie de visibilité des datasets multilingues : 118 langues (59% des 200 plus parlées) ont zéro dataset catalogué selon LRE Map et LDC. Via citation-mining assisté par LLM sur Semantic Scholar, les auteurs identifient 609 datasets uniques dans 53 langues peu visibles, dont 356 accessibles. La rareté multilingue est un problème de documentation et discoverabilité, pas seulement de production.
Lire la source
Ton avis ?
BenchmarksOpen source

Résumé généré par Claude — vérifié par l'humain