SomaliWeb v1: A Quality-Filtered Somali Web Corpus with a Matched Tokenizer and a Public Language-Identification Benchmark
Signal
78
Hype
15
En 3 lignesSomaliWeb v1 : corpus Somali de 819 322 documents (~303M tokens) avec tokenizer BPE-16K et benchmark d'identification de langue. Révèle défauts critiques dans HPLT v2 (17,3% doublons exacts, 56,1% mojibake, 10,7% quasi-doublons). Tokenizer 40,2% plus efficace que cl100k_base sur FLORES-200.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain