arXiv cs.AI·19 mai 2026

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

Signal

Hype

En 3 lignesRTPurbo transforme les LLM en modèles sparse en ~100 étapes d'entraînement. L'approche exploite trois observations : seuls certains heads nécessitent l'attention complète, la récupération long-range utilise un sous-espace 16D, et la sélection top-p dynamique surpasse top-k fixe. Résultats : 9.36× speedup prefill à 1M tokens, 2.01× speedup decode, précision préservée.

Lire la source

Ton avis ?

Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

Autres angles sur ce sujet