Geometric Asymmetry in MoE Specialization: Functional Decorrelation and Representational Overlap
Signal
78
Hype
15
En 3 lignesÉtude de la structure géométrique des architectures Mixture-of-Experts (MoE) via un framework Jacobian-PCA-Grassmann. Analyse de Mistral et Qwen révèle une asymétrie : décorrélation fonctionnelle forte entre experts mais représentations partiellement chevauchantes. Le routing sparse (top-k) renforce la séparation fonctionnelle.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain