Released a free 9.8M doc Indic multilingual corpus — Hindi, Bengali, Tamil, Telugu + 7 more (CC0, HuggingFace) [P]
Signal
72
Hype
15
En 3 lignesCorpus multilingue gratuit de 9,8M documents couvrant 11 langues indiennes (hindi, bengali, tamoul, télougou, marathi, goujarati, kannada, malayalam, pendjabi, ourdou, anglais). 8,4B tokens, licence CC0, disponible sur HuggingFace.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain