Reddit r/LocalLLaMA·14 juin 2026

Storing an index to a scale instead of the scale itself with Q4_0 quant reduces scale size by ~31% (small gain but interesting)

Signal

Hype

En 3 lignesUn chercheur propose de réduire la taille des scales en Q4_0 pour Qwen 3.6 27B en remplaçant les valeurs de scales (16 bits) par des indices (11 bits) pointant vers un dictionnaire. Gain estimé : 318 MB minimum sur le modèle complet, soit ~31% de réduction des scales, au prix d'un code d'inférence custom.

Lire la source

Ton avis ?

Qwen Open source Infrastructure

Résumé généré par Claude — vérifié par l'humain

Storing an index to a scale instead of the scale itself with Q4_0 quant reduces scale size by ~31% (small gain but interesting)

Autres angles sur ce sujet