Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps
Signal
78
Hype
25
En 3 lignesRTPurbo transforme les LLMs full-attention en modèles sparse en quelques centaines d'étapes d'entraînement. La méthode exploite trois observations : seuls certains heads nécessitent l'attention complète, la récupération long-range utilise un sous-espace 16D, et la sélection de tokens est query-dépendante. Résultats : 9.36x speedup prefill à 1M contexte, 2.01x speedup decode, précision préservée.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain