Retour au feed
arXiv cs.LG·

Multi-Token Residual Prediction

Signal
75
Hype
20
En 3 lignesMulti-Token Residual Prediction (MRP) est un module léger qui accélère les modèles de langage par diffusion en prédisant les résidus logit entre étapes de débruitage consécutives, sans relancer le backbone. Testé sur SDAR 1.7B–8B, MRP atteint 1.42× d'accélération sans perte en décodage spéculatif sur benchmarks de raisonnement et génération de code.
Lire la source
Ton avis ?
Génération de codeRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain