Retour au feed
arXiv cs.CL·

You Had One Job: Per-Task Quantization Using LLMs' Hidden Representations

Signal
78
Hype
15
En 3 lignesTAQ (Task-Aware Quantization) est une méthode de quantification post-entraînement sans entraînement qui alloue dynamiquement la précision aux couches pertinentes pour une tâche donnée, utilisant des prompts de calibration non étiquetés. Trois variantes (TAQ-IS, TAQ-KL, TAQ-O) estiment l'importance des couches via les représentations cachées. Gains significatifs en ratio précision-mémoire validés sur matériel réel.
Lire la source
Ton avis ?
Fine-tuningBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain