Retour au feed
arXiv cs.LG·

BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding

Signal
78
Hype
15
En 3 lignesBudgetDraft entraîne un drafter sparse pour la décodage spéculatif en contexte long (4K-16K tokens). La méthode expose le modèle à plusieurs budgets KV pendant l'entraînement et aligne chaque vue sparse avec une cible full-cache partagée. Résultats : 6.55x, 4.46x, 2.10x speedup vs décodage autorégressif à 4K, 8K, 16K tokens.
Lire la source
Ton avis ?
RaisonnementBenchmarksInfrastructure

Résumé généré par Claude — vérifié par l'humain