arXiv cs.AI·19 mai 2026

SomaliWeb v1: A Quality-Filtered Somali Web Corpus with a Matched Tokenizer and a Public Language-Identification Benchmark

Signal

Hype

En 3 lignesSomaliWeb v1 : corpus Somali de 819 322 documents (~303M tokens) avec tokenizer BPE-16K et benchmark d'identification de langue. Révèle défauts majeurs dans distributions existantes (HPLT v2 : 17,3% doublons, 56,1% mojibake). Tokenizer 40,2% plus efficace que cl100k_base de GPT-4 sur FLORES-200.

Lire la source

Ton avis ?

Embeddings Open source Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

SomaliWeb v1: A Quality-Filtered Somali Web Corpus with a Matched Tokenizer and a Public Language-Identification Benchmark

Autres angles sur ce sujet