Simply Stabilizing the Loop via Fully Looped Transformer
Signal
72
Hype
18
En 3 lignesFully Looped Transformer résout l'instabilité d'entraînement des modèles loopés en réutilisant les blocs Transformer. Deux modifications sans paramètres supplémentaires : distribution inter-loop et injection d'attention. Stable jusqu'à 12 itérations, améliore la performance de 13,2% et permet d'ajuster le calcul à l'inférence.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain