Training GPT-like model on non-language series [R]
Signal
35
Hype
15
En 3 lignesChercheur entraîne des modèles Transformer-décodeur (100M–500M params) sur 750M tokens de séries non-linguistiques. Configuration : AdamW, lr=1e-3, batch=4M tokens, 16 couches. Le modèle échoue à apprendre l'auto-régression basique et génère répétitivement un seul token.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain