arXiv cs.LG·29 mai 2026

Knowledge Offloading: Decomposing LLMs into Sparse Backbones and Memory Modules

Signal

Hype

En 3 lignesKOFF décompose les LLM en backbone partagé épars et modules mémoire externes spécialisés. Sur Llama et Qwen (3B-8B), le framework préserve les performances à 12% de sparsité globale en utilisant des adaptateurs LoRA et des caches KV appris, tandis que l'élagage sans mémoires dégrade fortement le modèle.

Lire la source

Ton avis ?

Llama Qwen Fine-tuning Papers

Résumé généré par Claude — vérifié par l'humain

Knowledge Offloading: Decomposing LLMs into Sparse Backbones and Memory Modules

Autres angles sur ce sujet