Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization
Signal
72
Hype
15
En 3 lignesÉtude de l'implicit bias de Sharpness-Aware Minimization (SAM) sur réseaux linéaux diagonaux en classification binaire. Pour L=1, ℓ∞-SAM et ℓ2-SAM retrouvent le max-margin classifier ℓ2 comme la descente de gradient. À L=2, ℓ2-SAM exhibe un phénomène de « sequential feature amplification » : le prédicteur s'appuie d'abord sur les coordonnées mineures avant de basculer vers les majeures, contrastant avec GD.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain