Retour au feed
Reddit r/LocalLLaMA·

Parallax: Parameterized Local Linear Attention for Language Modeling

Signal
78
Hype
25
En 3 lignesParallax est un mécanisme d'attention linéaire local paramétrisé pour les LLM, dérivé de la régression statistique. Il remplace l'estimation locale constante du softmax par une estimation linéaire, offrant de meilleurs compromis biais-variance. Prétraîné à 0.6B et 1.7B, Parallax montre des améliorations de perplexité cohérentes et surpasse FlashAttention 2/3 en décodage.
Lire la source
Ton avis ?
RaisonnementBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain