Retour au feed
Reddit r/MachineLearning·

Released a free 9.8M doc Indic multilingual corpus — Hindi, Bengali, Tamil, Telugu + 7 more (CC0, HuggingFace) [P]

Signal
72
Hype
15
En 3 lignesCorpus multilingue gratuit de 9,8M documents couvrant 11 langues indiennes (hindi, bengali, tamoul, télougou, marathi, goujarati, kannada, malayalam, pendjabi, ourdou, anglais). 8,4B tokens, licence CC0, disponible sur HuggingFace.
Lire la source
Ton avis ?
Open sourceEmbeddings

Résumé généré par Claude — vérifié par l'humain