Prefilling-dLLM: Predictive Prefilling for Long-Context Inference in Diffusion Language Models
Signal
78
Hype
15
En 3 lignesPrefilling-dLLM optimise l'inférence des modèles de langage par diffusion en partitionnant le contexte en chunks, cachant leurs représentations KV et sélectionnant les chunks pertinents avec sparsité intra-chunk. Atteint 9.1–28.0x speedup sur contextes 8K–32K sans réencodage complet du préfixe.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain