arXiv cs.CL·19 mai 2026

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

Signal

Hype

En 3 lignesDashAttention propose une méthode d'attention hiérarchique différentiable utilisant la transformation α-entmax pour sélectionner adaptativement un nombre variable de blocs KV. Contrairement à NSA et InfLLMv2, elle maintient la différentiabilité complète et atteint 75% de sparsité avec précision comparable à l'attention complète. Implémentation GPU en Triton surpasse FlashAttention-3.

Lire la source

Ton avis ?

Raisonnement Infrastructure Benchmarks

Résumé généré par Claude — vérifié par l'humain

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

Autres angles sur ce sujet