Retour au feed
arXiv cs.AI·

LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation

Signal
78
Hype
25
En 3 lignesLightTransfer transforme les modèles de langage (LLaMA, Mistral, QwQ-STILL) en architectures hybrides sans entraînement. La méthode identifie les couches « paresseuses » et remplace leur attention complète par une attention en streaming, réduisant les coûts de cache KV. Résultats : jusqu'à 2,17× d'amélioration de débit avec <1,5% de perte sur LongBench et 53,3% sur AIME24.
Lire la source
Ton avis ?
LlamaMistralQwenRaisonnementInfrastructure

Résumé généré par Claude — vérifié par l'humain