arXiv cs.CL·10 juin 2026

Prefilling-dLLM: Predictive Prefilling for Long-Context Inference in Diffusion Language Models

Signal

Hype

En 3 lignesPrefilling-dLLM optimise l'inférence des modèles de langage par diffusion en partitionnant le contexte en chunks, cachant leurs représentations KV et sélectionnant les chunks pertinents avec sparsité intra-chunk. Atteint 9.1–28.0x speedup sur contextes 8K–32K sans réencodage complet du préfixe.

Lire la source

Ton avis ?

Raisonnement Benchmarks Infrastructure

Résumé généré par Claude — vérifié par l'humain

Prefilling-dLLM: Predictive Prefilling for Long-Context Inference in Diffusion Language Models

Autres angles sur ce sujet