Me train LLM on 8GB from Scratch. Me happy
Signal
45
Hype
25
En 3 lignesUn développeur a créé un script pour entraîner un petit modèle (25M paramètres) sur TinyStories avec seulement 8GB de VRAM. Après tests de plusieurs techniques (mHC, BitNet, TurboQuant, MTP), seule MTP fonctionne correctement, bien que plus lentement. Le code et le modèle sont disponibles sur GitHub et Hugging Face.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain