arXiv cs.AI·19 mai 2026

LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation

Signal

Hype

En 3 lignesLightTransfer transforme les modèles de langage (LLaMA, Mistral, QwQ-STILL) en architectures hybrides sans entraînement. La méthode identifie les couches « paresseuses » et remplace leur attention complète par une attention en streaming, réduisant les coûts de cache KV. Résultats : jusqu'à 2,17× d'amélioration de débit avec <1,5% de perte sur LongBench et 53,3% sur AIME24.

Lire la source

Ton avis ?

Llama Mistral Qwen Raisonnement Infrastructure

Résumé généré par Claude — vérifié par l'humain

LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation

Autres angles sur ce sujet