Retour au feed
arXiv cs.LG·

CP-MoE: Consistency-Preserving Mixture-of-Experts for Continual Learning

Signal
75
Hype
20
En 3 lignesCP-MoE propose un framework de continual learning pour LLMs et VLMs utilisant une architecture Mixture-of-Experts. Un expert transient capture les mises à jour initiales spécifiques aux tâches et guide leur intégration dans des experts stables via un routing bias et une régularisation. Validé sur SuperNI et VQA v2, CP-MoE réduit l'oubli catastrophique tout en préservant le transfert de connaissances cross-task.
Lire la source
Ton avis ?
Papers

Résumé généré par Claude — vérifié par l'humain