Retour au feed
Reddit r/LocalLLaMA·

CUDA: add fast walsh-hadamard transform by am17an · Pull Request #23615 · ggml-org/llama.cpp

Signal
75
Hype
15
En 3 lignesImplémentation CUDA de la transformée de Walsh-Hadamard rapide (FWHT) pour llama.cpp optimisant la quantification du KV-cache. Gains de 1-2% en prefill et 7-9% en token generation sur RTX 5090 avec quantification q8_0.
Lire la source
Ton avis ?
Open sourceInfrastructureGénération de code

Résumé généré par Claude — vérifié par l'humain