Reddit r/MachineLearning·28 mai 2026

Training GPT-like model on non-language series [R]

Signal

Hype

En 3 lignesChercheur entraîne des modèles Transformer-décodeur (100M–500M params) sur 750M tokens de séries non-linguistiques. Configuration : AdamW, lr=1e-3, batch=4M tokens, 16 couches. Le modèle échoue à apprendre l'auto-régression basique et génère répétitivement un seul token.

Lire la source

Ton avis ?

GPT Génération de code Benchmarks

Résumé généré par Claude — vérifié par l'humain

Training GPT-like model on non-language series [R]

Autres angles sur ce sujet