CUDA: add fast walsh-hadamard transform by am17an · Pull Request #23615 · ggml-org/llama.cpp
Signal
75
Hype
15
En 3 lignesImplémentation CUDA de la transformée de Walsh-Hadamard rapide (FWHT) pour llama.cpp optimisant la quantification du KV-cache. Gains de 1-2% en prefill et 7-9% en token generation sur RTX 5090 avec quantification q8_0.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain