Scale Determines Whether Language Models Organize Representation Geometry for Prediction
Signal
78
Hype
15
En 3 lignesÉtude sur l'organisation géométrique des représentations dans les modèles de langage selon leur échelle. Subspace PGA mesure l'alignement de la géométrie intermédiaire avec la matrice d'unembedding. Modèles petits (≤1024) perdent progressivement cette organisation aux couches tardives, tandis que grands modèles (≥2048) la préservent. L'échelle détermine comment la géométrie s'organise pour la prédiction.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain