arXiv cs.AI·19 mai 2026

GAMMA: Global Bit Allocation for Mixed-Precision Models under Arbitrary Budgets

Signal

Hype

En 3 lignesGAMMA est un framework de quantization mixte pour LLMs qui alloue automatiquement la précision par module sans entraînement. Utilisant une reconstruction d'états cachés et la programmation entière, il atteint +12.99 points vs baselines fixes sur Llama/Qwen 8B-32B, et égale la qualité 3-bit à 2.5-bit moyen.

Lire la source

Ton avis ?

Llama Qwen Benchmarks

Résumé généré par Claude — vérifié par l'humain

GAMMA: Global Bit Allocation for Mixed-Precision Models under Arbitrary Budgets

Autres angles sur ce sujet