Retour au feed
arXiv cs.AI·

Improved Baselines with Representation Autoencoders

Signal
78
Hype
15
En 3 lignesRepresentation Autoencoders v2 améliore les VAE en utilisant des encodeurs vision préentraînés. Les auteurs découvrent que combiner les k dernières couches d'encodeur, fusionner RAE et REPA (representation alignment), et re-paramétrer la guidance sans classifier accélère 10x la convergence. RAEv2 atteint gFID 1.06 en 80 epochs sur ImageNet-256 et EP_FID@2 de 35 epochs.
Lire la source
Ton avis ?
VisionGénération d'imagesBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain