SomaliWeb v1: A Quality-Filtered Somali Web Corpus with a Matched Tokenizer and a Public Language-Identification Benchmark
Signal
78
Hype
15
En 3 lignesSomaliWeb v1 : corpus Somali de 819 322 documents (~303M tokens) avec tokenizer BPE-16K et benchmark d'identification de langue. Révèle défauts majeurs dans distributions existantes (HPLT v2 : 17,3% doublons, 56,1% mojibake). Tokenizer 40,2% plus efficace que cl100k_base de GPT-4 sur FLORES-200.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain