Retour au feed
arXiv cs.AI·

GAMMA: Global Bit Allocation for Mixed-Precision Models under Arbitrary Budgets

Signal
82
Hype
18
En 3 lignesGAMMA est un framework de quantization mixte pour LLMs qui alloue automatiquement la précision par module sans entraînement. Utilisant une reconstruction d'états cachés et la programmation entière, il atteint +12.99 points vs baselines fixes sur Llama/Qwen 8B-32B, et égale la qualité 3-bit à 2.5-bit moyen.
Lire la source
Ton avis ?
LlamaQwenBenchmarks

Résumé généré par Claude — vérifié par l'humain