Retour au feed
Reddit r/LocalLLaMA·

Storing an index to a scale instead of the scale itself with Q4_0 quant reduces scale size by ~31% (small gain but interesting)

Signal
45
Hype
25
En 3 lignesUn chercheur propose de réduire la taille des scales en Q4_0 pour Qwen 3.6 27B en remplaçant les valeurs de scales (16 bits) par des indices (11 bits) pointant vers un dictionnaire. Gain estimé : 318 MB minimum sur le modèle complet, soit ~31% de réduction des scales, au prix d'un code d'inférence custom.
Lire la source
Ton avis ?
QwenOpen sourceInfrastructure

Résumé généré par Claude — vérifié par l'humain