Reddit r/LocalLLaMA·25 mai 2026

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

Signal

Hype

En 3 lignesRTPurbo transforme les LLMs full-attention en modèles sparse en quelques centaines d'étapes d'entraînement. La méthode exploite trois observations : seuls certains heads nécessitent l'attention complète, la récupération long-range utilise un sous-espace 16D, et la sélection de tokens est query-dépendante. Résultats : 9.36x speedup prefill à 1M contexte, 2.01x speedup decode, précision préservée.

Lire la source

Ton avis ?

Raisonnement Benchmarks Infrastructure

Résumé généré par Claude — vérifié par l'humain

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

Autres angles sur ce sujet