CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection
Signal
78
Hype
15
En 3 lignesCompactAttention optimise l'attention chunked prefill pour LLMs long-context via Block-Union KV Selection. La méthode convertit les masques block-sparse en tables KV per-group GQA-aware, évitant la compaction KV explicite. Sur LLaMA-3.1-8B, elle atteint 2.72× speedup à 128K tokens avec précision proche de l'attention dense (RULER).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain