Retour au feed
arXiv cs.AI·

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

Signal
78
Hype
25
En 3 lignesRTPurbo transforme les LLM en modèles sparse en ~100 étapes d'entraînement. L'approche exploite trois observations : seuls certains heads nécessitent l'attention complète, la récupération long-range utilise un sous-espace 16D, et la sélection top-p dynamique surpasse top-k fixe. Résultats : 9.36× speedup prefill à 1M tokens, 2.01× speedup decode, précision préservée.
Lire la source
Ton avis ?
RaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain