BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding
Signal
78
Hype
15
En 3 lignesBudgetDraft entraîne un drafter sparse pour la décodage spéculatif en contexte long (4K-16K tokens). La méthode expose le modèle à plusieurs budgets KV pendant l'entraînement et aligne chaque vue sparse avec une cible full-cache partagée. Résultats : 6.55x, 4.46x, 2.10x speedup vs décodage autorégressif à 4K, 8K, 16K tokens.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain