Reddit r/LocalLLaMA·2 juin 2026

I trained a 75M parameter LLM from scratch on 18B tokens and it beats a model almost double its size

Signal

Hype

En 3 lignesKeyLM, un modèle de 75M paramètres entraîné sur 18B tokens, surpasse SmolLM-135M-Instruct sur IFEval (17.85 vs 17.15) malgré une taille moitié moindre et 30x moins de données. Architecture standard : GQA, RoPE, SwiGLU, 24 couches, entraîné sur FineWeb-Edu, Wikipedia, Reddit et autres données publiques.

Lire la source

Ton avis ?

Open source Benchmarks Génération de code

Résumé généré par Claude — vérifié par l'humain

I trained a 75M parameter LLM from scratch on 18B tokens and it beats a model almost double its size

Autres angles sur ce sujet