Retour au feed
arXiv cs.AI·

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

Signal
78
Hype
25
En 3 lignesDashAttention propose une méthode d'attention hiérarchique sparse différentiable utilisant la transformation α-entmax adaptative pour sélectionner un nombre variable de blocs KV. Contrairement à NSA et InfLLMv2, elle maintient la différentiabilité complète et atteint 75% de sparsité avec précision comparable à l'attention complète. Implémentation GPU en Triton offre accélération significative.
Lire la source
Ton avis ?
RaisonnementBenchmarksInfrastructure

Résumé généré par Claude — vérifié par l'humain