arXiv cs.LG·28 mai 2026

Explicit Critic Guidance for Aligning Diffusion Models

Signal

Hype

En 3 lignesNouvelle méthode d'apprentissage par renforcement en ligne pour aligner les modèles de diffusion avec des objectifs non-différentiables. Framework actor-critic où le modèle de diffusion prédit directement les valeurs sur états latents bruyants, permettant l'entraînement PPO au niveau trajectoire et l'optimisation multi-récompenses. Surpasse les baselines sur benchmarks UNet et DiT.

Lire la source

Ton avis ?

Reinforcement learning Alignement Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

Explicit Critic Guidance for Aligning Diffusion Models

Autres angles sur ce sujet