Improved Baselines with Representation Autoencoders
Signal
78
Hype
15
En 3 lignesRepresentation Autoencoders v2 améliore les VAE en utilisant des encodeurs vision préentraînés. Les auteurs découvrent que combiner les k dernières couches d'encodeur, fusionner RAE et REPA (representation alignment), et re-paramétrer la guidance sans classifier accélère 10x la convergence. RAEv2 atteint gFID 1.06 en 80 epochs sur ImageNet-256 et EP_FID@2 de 35 epochs.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain