DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention
Signal
78
Hype
25
En 3 lignesDashAttention propose une méthode d'attention hiérarchique différentiable utilisant la transformation α-entmax pour sélectionner adaptativement un nombre variable de blocs KV. Contrairement à NSA et InfLLMv2, elle maintient la différentiabilité complète et atteint 75% de sparsité avec précision comparable à l'attention complète. Implémentation GPU en Triton surpasse FlashAttention-3.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain