Retour au feed
Reddit r/LocalLLaMA·

Me train LLM on 8GB from Scratch. Me happy

Signal
45
Hype
25
En 3 lignesUn développeur a créé un script pour entraîner un petit modèle (25M paramètres) sur TinyStories avec seulement 8GB de VRAM. Après tests de plusieurs techniques (mHC, BitNet, TurboQuant, MTP), seule MTP fonctionne correctement, bien que plus lentement. Le code et le modèle sont disponibles sur GitHub et Hugging Face.
Lire la source
Ton avis ?
Open sourceFine-tuningInfrastructure

Résumé généré par Claude — vérifié par l'humain