GraphKV, kv cache optimization based on graph embedding models
Signal
45
Hype
25
En 3 lignesGraphKV, projet de compression de KV cache basé sur graph embedding. Compression 7.76x sur GPT-2 (cosine 0.999949), 3.36x sur Qwen2.5-7B 32k tokens (cosine 0.990316). Inspiré de TurboQuant, utilise int2/int4/NF4 quantization.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain