Multi-Token Residual Prediction
Multi-Token Residual Prediction (MRP) est un module léger qui accélère les modèles de langage par diffusion en prédisant les résidus logit entre étapes de débruitage consécutives, sans relancer le backbone. Testé sur SDAR 1.7B–8B, MRP atteint 1.42× d'accélération sans perte en décodage spéculatif sur benchmarks de raisonnement et génération de code.