Reddit r/LocalLLaMA·26 mai 2026

Shard - getting to 10× KV cache compression

Signal

Hype

En 3 lignesShard est un cache HuggingFace qui compresse la mémoire KV de Llama-3.1-8B par 10× à contexte 8K (11× à 32K) sans dégradation mesurable sur NIAH/LongBench. Combine PCA + quantization int4 sur K et rotation Hadamard + vector quantization sur V. L'attention s'exécute directement sur K compressé.

Lire la source

Ton avis ?

Llama Génération de code Infrastructure Open source

Résumé généré par Claude — vérifié par l'humain

Shard - getting to 10× KV cache compression

Autres angles sur ce sujet