You Had One Job: Per-Task Quantization Using LLMs' Hidden Representations
Signal
78
Hype
15
En 3 lignesTAQ (Task-Aware Quantization) est une méthode de quantification post-entraînement sans entraînement qui alloue dynamiquement la précision aux couches pertinentes pour une tâche donnée, utilisant des prompts de calibration non étiquetés. Trois variantes (TAQ-IS, TAQ-KL, TAQ-O) estiment l'importance des couches via les représentations cachées. Gains significatifs en ratio précision-mémoire validés sur matériel réel.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain