Retour au feed
arXiv cs.LG·

Hierarchical Variational Policies for Reward-Guided Diffusion

Signal
72
Hype
18
En 3 lignesCadre variationnel hiérarchique pour adapter les modèles de diffusion prétrained à des objectifs de récompense. Formule l'adaptation en temps de test comme une politique stochastique légère qui amortit le contrôle par étape. Sur super-résolution 4x : qualité perceptuelle supérieure avec inférence 5x plus rapide que les baselines.
Lire la source
Ton avis ?
Reinforcement learningGénération d'images

Résumé généré par Claude — vérifié par l'humain