The Expert Strikes Back: Interpreting Mixture-of-Experts Language Models at Expert Level
Signal
78
Hype
15
En 3 lignesÉtude comparative de l'interprétabilité des architectures Mixture-of-Experts (MoE) vs réseaux denses. Les experts MoE montrent moins de polysémantique neuronale que les FFN denses, particulièrement avec routage sparse. Les experts fonctionnent comme spécialistes de tâches linguistiques fines (ex: fermeture de crochets LaTeX), pas comme spécialistes de domaines larges. Code disponible.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain