I built a 103B-token Usenet corpus (1980–2013) — pre-web, human-only, zero AI contamination. Got strong traction on r/ML, thought this community would find it useful.
Signal
78
Hype
25
En 3 lignesCorpus Usenet complet (1980–2013) de 103,1B tokens publié pour fine-tuning local. Zéro contamination IA, 408M posts bruts pré-SEO, organisés par domaines (comp.*, sci.*, rec.*). Samples gratuits téléchargeables, corpus complet sous licence.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain