Retour au feed
arXiv cs.CL·

DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models

Signal
78
Hype
25
En 3 lignesDLLM-JEPA combine les architectures JEPA avec les modèles de langage par diffusion masquée pour l'apprentissage auto-supervisé. Élimine le besoin de paires multi-vues explicites et réduit les FLOPs d'entraînement de 33% vs LLM-JEPA. Améliore les performances de +18.7pp sur GSM8K (LLaDA-8B) et +11.4pp (Dream-7B) tout en préservant les capacités de base.
Lire la source
Ton avis ?
PapersFine-tuningRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain