Retour au feed
Reddit r/LocalLLaMA·

GraphKV, kv cache optimization based on graph embedding models

Signal
45
Hype
25
En 3 lignesGraphKV, projet de compression de KV cache basé sur graph embedding. Compression 7.76x sur GPT-2 (cosine 0.999949), 3.36x sur Qwen2.5-7B 32k tokens (cosine 0.990316). Inspiré de TurboQuant, utilise int2/int4/NF4 quantization.
Lire la source
Ton avis ?
QwenGénération de codeOpen source

Résumé généré par Claude — vérifié par l'humain