Parallax: Parameterized Local Linear Attention for Language Modeling
Signal
78
Hype
25
En 3 lignesParallax est un mécanisme d'attention linéaire local paramétrisé pour les LLM, dérivé de la régression statistique. Il remplace l'estimation locale constante du softmax par une estimation linéaire, offrant de meilleurs compromis biais-variance. Prétraîné à 0.6B et 1.7B, Parallax montre des améliorations de perplexité cohérentes et surpasse FlashAttention 2/3 en décodage.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain