Do Value Vectors in Deep Layers Need Context from the Residual Stream?
Signal
72
Hype
18
En 3 lignesLes chercheurs proposent Bank of Values (BoV), une méthode remplaçant les vecteurs de valeur contextuels par des vecteurs sans contexte stockés comme paramètres creux dans les derniers tiers des couches. Sur modèles 135M et 780M, BoV améliore la perte de validation et les performances sur 21 benchmarks avec moins de calcul et mémoire.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain