Retour au feed
arXiv cs.CL·

Prefilling-dLLM: Predictive Prefilling for Long-Context Inference in Diffusion Language Models

Signal
78
Hype
15
En 3 lignesPrefilling-dLLM optimise l'inférence des modèles de langage par diffusion en partitionnant le contexte en chunks, cachant leurs représentations KV et sélectionnant les chunks pertinents avec sparsité intra-chunk. Atteint 9.1–28.0x speedup sur contextes 8K–32K sans réencodage complet du préfixe.
Lire la source
Ton avis ?
RaisonnementBenchmarksInfrastructure

Résumé généré par Claude — vérifié par l'humain