arXiv cs.CL·27 mai 2026

MicroSpec: Accelerating Speculative Decoding with Lightweight In-Context Vocabularies

Signal

Hype

En 3 lignesMicroSpec réduit le vocabulaire actif de 40x (sous 3k tokens) lors du décodage spéculatif sans entraînement supplémentaire. La technique exploite la localité temporelle du langage et intègre gestion GPU asynchrone. Speedup end-to-end de 1.12-1.32x vs EAGLE-2.

Lire la source

Ton avis ?

Génération de code Infrastructure Benchmarks

Résumé généré par Claude — vérifié par l'humain

MicroSpec: Accelerating Speculative Decoding with Lightweight In-Context Vocabularies

Autres angles sur ce sujet