Shard - getting to 10× KV cache compression
Signal
75
Hype
25
En 3 lignesShard est un cache HuggingFace qui compresse la mémoire KV de Llama-3.1-8B par 10× à contexte 8K (11× à 32K) sans dégradation mesurable sur NIAH/LongBench. Combine PCA + quantization int4 sur K et rotation Hadamard + vector quantization sur V. L'attention s'exécute directement sur K compressé.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain