Retour au feed
arXiv cs.LG·

EntmaxKV: Support-Aware Decoding for Entmax Attention

Signal
78
Hype
15
En 3 lignesEntmaxKV propose un framework de décodage sparse pour l'attention entmax, exploitant les zéros exacts produits par entmax versus les queues denses du softmax. Combine scoring de pages, sélection de candidats et attention entmax sparse. Atteint 3.36× speedup (softmax) et 5.43× (entmax) sur contexte 1M avec fraction réduite du KV cache.
Lire la source
Ton avis ?
RaisonnementBenchmarksInfrastructurePapers

Résumé généré par Claude — vérifié par l'humain