arXiv cs.AI·19 mai 2026

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

Signal

Hype

En 3 lignesDashAttention propose une méthode d'attention hiérarchique sparse différentiable utilisant la transformation α-entmax adaptative pour sélectionner un nombre variable de blocs KV. Contrairement à NSA et InfLLMv2, elle maintient la différentiabilité complète et atteint 75% de sparsité avec précision comparable à l'attention complète. Implémentation GPU en Triton offre accélération significative.

Lire la source

Ton avis ?

Raisonnement Benchmarks Infrastructure

Résumé généré par Claude — vérifié par l'humain

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

Autres angles sur ce sujet