Retour au feed
arXiv cs.CL·

MicroSpec: Accelerating Speculative Decoding with Lightweight In-Context Vocabularies

Signal
78
Hype
15
En 3 lignesMicroSpec réduit le vocabulaire actif de 40x (sous 3k tokens) lors du décodage spéculatif sans entraînement supplémentaire. La technique exploite la localité temporelle du langage et intègre gestion GPU asynchrone. Speedup end-to-end de 1.12-1.32x vs EAGLE-2.
Lire la source
Ton avis ?
Génération de codeInfrastructureBenchmarks

Résumé généré par Claude — vérifié par l'humain