arXiv cs.AI·19 mai 2026

SIPO: Stabilized and Improved Preference Optimization for Aligning Diffusion Models

Signal

Hype

En 3 lignesSIPO stabilise l'alignement des modèles de diffusion sur les préférences humaines en résolvant l'instabilité d'entraînement et le biais off-policy. La méthode introduit DPO-C&M pour clipper les timesteps non-informatifs et un schéma de pondération par importance conscient des timesteps. Tests sur SD1.5, SDXL, CogVideoX-2B/5B et Wan2.1-1.3B montrent amélioration vs Diffusion-DPO.

Lire la source

Ton avis ?

Génération d'images Génération de vidéos Reinforcement learning Alignement Papers

Résumé généré par Claude — vérifié par l'humain

SIPO: Stabilized and Improved Preference Optimization for Aligning Diffusion Models

Autres angles sur ce sujet