Graph spectral analysis (Fiedler value + Scheffer CSD indicators) predicts grokking 21k steps before loss function - five reproducible experiments [R]
Signal
72
Hype
28
En 3 lignesAnalyse spectrale des graphes de poids (valeur de Fiedler + indicateurs CSD de Scheffer) pour prédire le grokking 21k étapes avant la convergence. Cinq expériences reproductibles sur CPU : détection précoce, distinction grokking/oubli catastrophique, intervention guidée (91.7% vs 2.6%), accélération 48x sur tâches séquentielles. Limité à MLPs 2-couches et transformers 1-couche.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain