Retour au feed
arXiv cs.LG·

A Pre-Training Analogue of Grokking in Language Models: Tracing Delayed Grammatical Generalization

Signal
72
Hype
18
En 3 lignesÉtude de la généralisation retardée (grokking) lors du pré-entraînement de modèles de langage. Via un cadre basé sur l'exposition et les paires minimales BLiMP, les auteurs observent une généralisation différée sur cinq phénomènes grammaticaux. Les vecteurs de concepts grammaticaux deviennent plus prédictifs après généralisation et occupent un sous-espace de dimension supérieure.
Lire la source
Ton avis ?
PapersRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain