Grammatically-Guided Sparse Attention for Efficient and Interpretable Transformers
Signal
62
Hype
28
En 3 lignesNouvelle approche de sparse attention utilisant les rôles grammaticaux (POS tags) pour réduire la complexité quadratique des Transformers. Deux stratégies de masquage testées sur SST-2 avec DistilBERT : hard mask (0.8200) et soft mask (0.8165) maintiennent la performance du full attention (0.8200) tout en réduisant le coût computationnel.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain