Retour au feed
arXiv cs.LG·

Simply Stabilizing the Loop via Fully Looped Transformer

Signal
72
Hype
18
En 3 lignesFully Looped Transformer résout l'instabilité d'entraînement des modèles loopés en réutilisant les blocs Transformer. Deux modifications sans paramètres supplémentaires : distribution inter-loop et injection d'attention. Stable jusqu'à 12 itérations, améliore la performance de 13,2% et permet d'ajuster le calcul à l'inférence.
Lire la source
Ton avis ?
RaisonnementPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain