Understanding BigBird's Block Sparse Attention
BigBird introduit un mécanisme d'attention block-sparse qui réduit la complexité quadratique des transformers à linéaire. Cette approche combine attention locale, globale et aléatoire pour traiter des séquences jusqu'à 4096 tokens, améliorant l'efficacité sans sacrifier la performance.