DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models
Signal
78
Hype
25
En 3 lignesDLLM-JEPA combine les architectures JEPA avec les modèles de langage par diffusion masquée pour l'apprentissage auto-supervisé. Élimine le besoin de paires multi-vues explicites et réduit les FLOPs d'entraînement de 33% vs LLM-JEPA. Améliore les performances de +18.7pp sur GSM8K (LLaDA-8B) et +11.4pp (Dream-7B) tout en préservant les capacités de base.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain