A Pre-Training Analogue of Grokking in Language Models: Tracing Delayed Grammatical Generalization
Signal
72
Hype
18
En 3 lignesÉtude de la généralisation retardée (grokking) lors du pré-entraînement de modèles de langage. Via un cadre basé sur l'exposition et les paires minimales BLiMP, les auteurs observent une généralisation différée sur cinq phénomènes grammaticaux. Les vecteurs de concepts grammaticaux deviennent plus prédictifs après généralisation et occupent un sous-espace de dimension supérieure.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain