Retour au feed
arXiv cs.AI·

SIPO: Stabilized and Improved Preference Optimization for Aligning Diffusion Models

Signal
72
Hype
18
En 3 lignesSIPO stabilise l'alignement des modèles de diffusion sur les préférences humaines en résolvant l'instabilité d'entraînement et le biais off-policy. La méthode introduit DPO-C&M pour clipper les timesteps non-informatifs et un schéma de pondération par importance conscient des timesteps. Tests sur SD1.5, SDXL, CogVideoX-2B/5B et Wan2.1-1.3B montrent amélioration vs Diffusion-DPO.
Lire la source
Ton avis ?
Génération d'imagesGénération de vidéosReinforcement learningAlignementPapers

Résumé généré par Claude — vérifié par l'humain