Retour au feed
Reddit r/LocalLLaMA·

Shard - getting to 10× KV cache compression

Signal
75
Hype
25
En 3 lignesShard est un cache HuggingFace qui compresse la mémoire KV de Llama-3.1-8B par 10× à contexte 8K (11× à 32K) sans dégradation mesurable sur NIAH/LongBench. Combine PCA + quantization int4 sur K et rotation Hadamard + vector quantization sur V. L'attention s'exécute directement sur K compressé.
Lire la source
Ton avis ?
LlamaGénération de codeInfrastructureOpen source

Résumé généré par Claude — vérifié par l'humain