DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention
Signal
78
Hype
25
En 3 lignesDashAttention propose une méthode d'attention hiérarchique sparse différentiable utilisant la transformation α-entmax adaptative pour sélectionner un nombre variable de blocs KV. Contrairement à NSA et InfLLMv2, elle maintient la différentiabilité complète et atteint 75% de sparsité avec précision comparable à l'attention complète. Implémentation GPU en Triton offre accélération significative.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain