MicroSpec: Accelerating Speculative Decoding with Lightweight In-Context Vocabularies
Signal
78
Hype
15
En 3 lignesMicroSpec réduit le vocabulaire actif de 40x (sous 3k tokens) lors du décodage spéculatif sans entraînement supplémentaire. La technique exploite la localité temporelle du langage et intègre gestion GPU asynchrone. Speedup end-to-end de 1.12-1.32x vs EAGLE-2.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain