GAMMA: Global Bit Allocation for Mixed-Precision Models under Arbitrary Budgets
Signal
82
Hype
18
En 3 lignesGAMMA est un framework de quantization mixte pour LLMs qui alloue automatiquement la précision par module sans entraînement. Utilisant une reconstruction d'états cachés et la programmation entière, il atteint +12.99 points vs baselines fixes sur Llama/Qwen 8B-32B, et égale la qualité 3-bit à 2.5-bit moyen.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain