Retour au feed
Reddit r/LocalLLaMA·

In Q8_0 weight quantization, why can't we just skip blocks of 32 that have very large outliers?

Signal
35
Hype
15
En 3 lignesDiscussion technique sur la quantification Q8_0 : pourquoi ne pas ignorer les blocs de 32 valeurs contenant des outliers au lieu de les quantifier ? L'auteur suggère que cette approche pourrait améliorer la précision avec moins de 1% des sous-couches non quantifiées.
Lire la source
Ton avis ?
Open source

Résumé généré par Claude — vérifié par l'humain