Tiny Scale Is All I Can Spare To Play With Transformer
Signal
35
Hype
25
En 3 lignesÉtudiant indien propose de fusionner Attention et FFN pour réduire les paramètres (<10M) sans perte de performance. Remplace les matrices linéaires statiques de SwiGLU par de l'attention dynamique. Expériences limitées (0.8M en 8-10h, 4M en 3-4 jours sur PC personnel) faute de ressources.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain