Retour au feed
arXiv cs.AI·

A Negative Result on Cross-Model Activation Transfer in a Pythia Multi-Hop Setting

Signal
72
Hype
15
En 3 lignesÉtude sur le transfert d'activations entre modèles de langage (Pythia-160M vers Pythia-410M). Une couche de translation linéaire aligne fortement les états cachés (similarité cosinus 0.97), mais l'injection des activations traduites n'améliore pas les performances en inférence. Résultat négatif : l'alignement représentationnel hors ligne ne suffit pas pour une communication causale utile.
Lire la source
Ton avis ?
RaisonnementPapersÉvaluations

Résumé généré par Claude — vérifié par l'humain