arXiv cs.AI·19 mai 2026

Improved Baselines with Representation Autoencoders

Signal

Hype

En 3 lignesRepresentation Autoencoders v2 améliore les VAE en utilisant des encodeurs vision préentraînés. Les auteurs découvrent que combiner les k dernières couches d'encodeur, fusionner RAE et REPA (representation alignment), et re-paramétrer la guidance sans classifier accélère 10x la convergence. RAEv2 atteint gFID 1.06 en 80 epochs sur ImageNet-256 et EP_FID@2 de 35 epochs.

Lire la source

Ton avis ?

Vision Génération d'images Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Improved Baselines with Representation Autoencoders

Autres angles sur ce sujet