arXiv cs.CL·19 mai 2026

CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

Signal

Hype

En 3 lignesCompactAttention optimise l'attention chunked prefill pour LLMs long-context via Block-Union KV Selection. La méthode convertit les masques block-sparse en tables KV per-group GQA-aware, évitant la compaction KV explicite. Sur LLaMA-3.1-8B, elle atteint 2.72× speedup à 128K tokens avec précision proche de l'attention dense (RULER).

Lire la source

Ton avis ?

Raisonnement Benchmarks Infrastructure

Résumé généré par Claude — vérifié par l'humain

CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

Autres angles sur ce sujet