The Loupe: A Plug-and-Play Attention Module for Amplifying Discriminative Features in Vision Transformers
Signal
72
Hype
18
En 3 lignesThe Loupe est un module de gating spatial léger pour Vision Transformers hiérarchiques, conçu pour la classification visuelle fine-grained. Inséré à un stade intermédiaire, il prédit un masque spatial monocanal via un petit CNN et repondère les activations. Sur CUB-200-2011, il améliore Swin-Base de 88,36% à 91,72% et Swin-Tiny de 85,14% à 88,61% avec <0,1% de paramètres supplémentaires.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain