Retour au feed
Reddit r/LocalLLaMA·

100 Trillion+ Pretraining data??? This is the largest data I've see a model being trained on.

Signal
35
Hype
55
En 3 lignesUn utilisateur Reddit rapporte qu'un modèle (probablement Minimax M3) aurait été entraîné sur 100+ trillions de tokens, soit le double des standards actuels (27-50T pour Kimi, Mimo, Deepseek). L'auteur doute que le modèle dépasse 500B paramètres malgré cette augmentation massive de données.
Lire la source
Ton avis ?
DeepSeekBenchmarks

Résumé généré par Claude — vérifié par l'humain