arXiv cs.CL·26 mai 2026

Grammatically-Guided Sparse Attention for Efficient and Interpretable Transformers

Signal

Hype

En 3 lignesNouvelle approche de sparse attention utilisant les rôles grammaticaux (POS tags) pour réduire la complexité quadratique des Transformers. Deux stratégies de masquage testées sur SST-2 avec DistilBERT : hard mask (0.8200) et soft mask (0.8165) maintiennent la performance du full attention (0.8200) tout en réduisant le coût computationnel.

Lire la source

Ton avis ?

Raisonnement Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

Grammatically-Guided Sparse Attention for Efficient and Interpretable Transformers

Autres angles sur ce sujet