100 Trillion+ Pretraining data??? This is the largest data I've see a model being trained on.
Signal
35
Hype
55
En 3 lignesUn utilisateur Reddit rapporte qu'un modèle (probablement Minimax M3) aurait été entraîné sur 100+ trillions de tokens, soit le double des standards actuels (27-50T pour Kimi, Mimo, Deepseek). L'auteur doute que le modèle dépasse 500B paramètres malgré cette augmentation massive de données.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain