Retour au feed
Reddit r/LocalLLaMA·

I trained a 75M parameter LLM from scratch on 18B tokens and it beats a model almost double its size

Signal
72
Hype
35
En 3 lignesKeyLM, un modèle de 75M paramètres entraîné sur 18B tokens, surpasse SmolLM-135M-Instruct sur IFEval (17.85 vs 17.15) malgré une taille moitié moindre et 30x moins de données. Architecture standard : GQA, RoPE, SwiGLU, 24 couches, entraîné sur FineWeb-Edu, Wikipedia, Reddit et autres données publiques.
Lire la source
Ton avis ?
Open sourceBenchmarksGénération de code

Résumé généré par Claude — vérifié par l'humain