Retour au feed
arXiv cs.CL·

CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

Signal
78
Hype
15
En 3 lignesCompactAttention optimise l'attention chunked prefill pour LLMs long-context via Block-Union KV Selection. La méthode convertit les masques block-sparse en tables KV per-group GQA-aware, évitant la compaction KV explicite. Sur LLaMA-3.1-8B, elle atteint 2.72× speedup à 128K tokens avec précision proche de l'attention dense (RULER).
Lire la source
Ton avis ?
RaisonnementBenchmarksInfrastructure

Résumé généré par Claude — vérifié par l'humain