Retour au feed
arXiv cs.AI·

SomaliWeb v1: A Quality-Filtered Somali Web Corpus with a Matched Tokenizer and a Public Language-Identification Benchmark

Signal
78
Hype
15
En 3 lignesSomaliWeb v1 : corpus Somali de 819 322 documents (~303M tokens) avec tokenizer BPE-16K et benchmark d'identification de langue. Révèle défauts majeurs dans distributions existantes (HPLT v2 : 17,3% doublons, 56,1% mojibake). Tokenizer 40,2% plus efficace que cl100k_base de GPT-4 sur FLORES-200.
Lire la source
Ton avis ?
EmbeddingsOpen sourceBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain