EntmaxKV: Support-Aware Decoding for Entmax Attention
Signal
78
Hype
15
En 3 lignesEntmaxKV propose un framework de décodage sparse pour l'attention entmax, exploitant les zéros exacts produits par entmax versus les queues denses du softmax. Combine scoring de pages, sélection de candidats et attention entmax sparse. Atteint 3.36× speedup (softmax) et 5.43× (entmax) sur contexte 1M avec fraction réduite du KV cache.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain