arXiv cs.LG·20 mai 2026

Multi-Token Residual Prediction

Signal

Hype

En 3 lignesMulti-Token Residual Prediction (MRP) est un module léger qui accélère les modèles de langage par diffusion en prédisant les résidus logit entre étapes de débruitage consécutives, sans relancer le backbone. Testé sur SDAR 1.7B–8B, MRP atteint 1.42× d'accélération sans perte en décodage spéculatif sur benchmarks de raisonnement et génération de code.

Lire la source

Ton avis ?

Génération de code Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

Multi-Token Residual Prediction

Autres angles sur ce sujet