Retour au feed
arXiv cs.AI·

Attention Sinks and Outliers in Attention Residuals

Signal
72
Hype
18
En 3 lignesOASIS, une technique basée sur la signalisation inter-couches, réduit les attention sinks et les outliers d'activation dans les architectures AttnResidual. Sur trois datasets, OASIS diminue la norme infini maximale de 9.26%, la kurtosis de 2.60%, et améliore la performance post-quantization (W8A8: -75.85% perplexité, W4A4: +12.42% GSM8K).
Lire la source
Ton avis ?
RaisonnementPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain