Retour au feed
Reddit r/LocalLLaMA·

Tiny Scale Is All I Can Spare To Play With Transformer

Signal
35
Hype
25
En 3 lignesÉtudiant indien propose de fusionner Attention et FFN pour réduire les paramètres (<10M) sans perte de performance. Remplace les matrices linéaires statiques de SwiGLU par de l'attention dynamique. Expériences limitées (0.8M en 8-10h, 4M en 3-4 jours sur PC personnel) faute de ressources.
Lire la source
Ton avis ?
RaisonnementPapersOpen source

Résumé généré par Claude — vérifié par l'humain