arXiv cs.CL·19 mai 2026

Beyond Catalogue Counts: the Dataset Visibility Asymmetry in Low-Resource Multilingual NLP

Signal

Hype

En 3 lignesÉtude révélant une asymétrie de visibilité des datasets multilingues : 118 langues (59% des 200 plus parlées) ont zéro dataset catalogué selon LRE Map et LDC. Via citation-mining assisté par LLM sur Semantic Scholar, les auteurs identifient 609 datasets uniques dans 53 langues peu visibles, dont 356 accessibles. La rareté multilingue est un problème de documentation et discoverabilité, pas seulement de production.

Lire la source

Ton avis ?

Benchmarks Open source

Résumé généré par Claude — vérifié par l'humain

Beyond Catalogue Counts: the Dataset Visibility Asymmetry in Low-Resource Multilingual NLP

Autres angles sur ce sujet