I built a Mamba1 variant I call SM1 with d_state=1 that runs on Blackwell in pure PyTorch [P]
Signal
72
Hype
25
En 3 lignesVariante Mamba1 appelée SM1 avec d_state=1 utilisant deux opérations PyTorch natives pour remplacer le selective scan. Solution exacte en forme fermée, pas une approximation. Réduit la mémoire de scan de 16x comparé à Mamba1 (d_state=16). État d'inférence de 14 KB pour modèle 130M, O(1) par token. Entraînement sur 163K fichiers MIDI (2.5B tokens).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain