arXiv cs.LG·22 mai 2026

Hierarchical Variational Policies for Reward-Guided Diffusion

Signal

Hype

En 3 lignesCadre variationnel hiérarchique pour adapter les modèles de diffusion prétrained à des objectifs de récompense. Formule l'adaptation en temps de test comme une politique stochastique légère qui amortit le contrôle par étape. Sur super-résolution 4x : qualité perceptuelle supérieure avec inférence 5x plus rapide que les baselines.

Lire la source

Ton avis ?

Reinforcement learning Génération d'images

Résumé généré par Claude — vérifié par l'humain

Hierarchical Variational Policies for Reward-Guided Diffusion

Autres angles sur ce sujet