arXiv cs.CL·2 juin 2026

DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models

Signal

Hype

En 3 lignesDLLM-JEPA combine les architectures JEPA avec les modèles de langage par diffusion masquée pour l'apprentissage auto-supervisé. Élimine le besoin de paires multi-vues explicites et réduit les FLOPs d'entraînement de 33% vs LLM-JEPA. Améliore les performances de +18.7pp sur GSM8K (LLaDA-8B) et +11.4pp (Dream-7B) tout en préservant les capacités de base.

Lire la source

Ton avis ?

Papers Fine-tuning Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models

Autres angles sur ce sujet