CP-MoE: Consistency-Preserving Mixture-of-Experts for Continual Learning
Signal
75
Hype
20
En 3 lignesCP-MoE propose un framework de continual learning pour LLMs et VLMs utilisant une architecture Mixture-of-Experts. Un expert transient capture les mises à jour initiales spécifiques aux tâches et guide leur intégration dans des experts stables via un routing bias et une régularisation. Validé sur SuperNI et VQA v2, CP-MoE réduit l'oubli catastrophique tout en préservant le transfert de connaissances cross-task.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain