Retour au feed
arXiv cs.LG·

Explicit Critic Guidance for Aligning Diffusion Models

Signal
78
Hype
15
En 3 lignesNouvelle méthode d'apprentissage par renforcement en ligne pour aligner les modèles de diffusion avec des objectifs non-différentiables. Framework actor-critic où le modèle de diffusion prédit directement les valeurs sur états latents bruyants, permettant l'entraînement PPO au niveau trajectoire et l'optimisation multi-récompenses. Surpasse les baselines sur benchmarks UNet et DiT.
Lire la source
Ton avis ?
Reinforcement learningAlignementPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain