Retour au feed
Reddit r/LocalLLaMA·

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

Signal
78
Hype
25
En 3 lignesRTPurbo transforme les LLMs full-attention en modèles sparse en quelques centaines d'étapes d'entraînement. La méthode exploite trois observations : seuls certains heads nécessitent l'attention complète, la récupération long-range utilise un sous-espace 16D, et la sélection de tokens est query-dépendante. Résultats : 9.36x speedup prefill à 1M contexte, 2.01x speedup decode, précision préservée.
Lire la source
Ton avis ?
RaisonnementBenchmarksInfrastructure

Résumé généré par Claude — vérifié par l'humain