arXiv cs.LG·2 juin 2026

BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding

Signal

Hype

En 3 lignesBudgetDraft entraîne un drafter sparse pour la décodage spéculatif en contexte long (4K-16K tokens). La méthode expose le modèle à plusieurs budgets KV pendant l'entraînement et aligne chaque vue sparse avec une cible full-cache partagée. Résultats : 6.55x, 4.46x, 2.10x speedup vs décodage autorégressif à 4K, 8K, 16K tokens.

Lire la source

Ton avis ?

Raisonnement Benchmarks Infrastructure

Résumé généré par Claude — vérifié par l'humain

BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding

Autres angles sur ce sujet