arXiv cs.CL·19 May 2026

Beyond Catalogue Counts: the Dataset Visibility Asymmetry in Low-Resource Multilingual NLP

Signal

Hype

In three linesStudy reveals visibility asymmetry in multilingual datasets: 118 languages (59% of 200 most-spoken) have zero catalogued datasets per LRE Map and LDC. Using LLM-assisted citation-mining on Semantic Scholar, authors identify 609 unique datasets across 53 low-visibility languages, 356 openly accessible. Data scarcity is a documentation and discoverability issue, not just production.

Read source

Your take?

Benchmarks Open source

Summary generated by Claude — human-verified

Beyond Catalogue Counts: the Dataset Visibility Asymmetry in Low-Resource Multilingual NLP

Other angles on this story