Retour au feed
Reddit r/MachineLearning·

Training GPT-like model on non-language series [R]

Signal
35
Hype
15
En 3 lignesChercheur entraîne des modèles Transformer-décodeur (100M–500M params) sur 750M tokens de séries non-linguistiques. Configuration : AdamW, lr=1e-3, batch=4M tokens, 16 couches. Le modèle échoue à apprendre l'auto-régression basique et génère répétitivement un seul token.
Lire la source
Ton avis ?
GPTGénération de codeBenchmarks

Résumé généré par Claude — vérifié par l'humain