arXiv cs.LG·22 mai 2026

EntmaxKV: Support-Aware Decoding for Entmax Attention

Signal

Hype

En 3 lignesEntmaxKV propose un framework de décodage sparse pour l'attention entmax, exploitant les zéros exacts produits par entmax versus les queues denses du softmax. Combine scoring de pages, sélection de candidats et attention entmax sparse. Atteint 3.36× speedup (softmax) et 5.43× (entmax) sur contexte 1M avec fraction réduite du KV cache.

Lire la source

Ton avis ?

Raisonnement Benchmarks Infrastructure Papers

Résumé généré par Claude — vérifié par l'humain

EntmaxKV: Support-Aware Decoding for Entmax Attention

Autres angles sur ce sujet