Retour au feed
arXiv cs.LG·

Knowledge Offloading: Decomposing LLMs into Sparse Backbones and Memory Modules

Signal
72
Hype
18
En 3 lignesKOFF décompose les LLM en backbone partagé épars et modules mémoire externes spécialisés. Sur Llama et Qwen (3B-8B), le framework préserve les performances à 12% de sparsité globale en utilisant des adaptateurs LoRA et des caches KV appris, tandis que l'élagage sans mémoires dégrade fortement le modèle.
Lire la source
Ton avis ?
LlamaQwenFine-tuningPapers

Résumé généré par Claude — vérifié par l'humain