SIPO: Stabilized and Improved Preference Optimization for Aligning Diffusion Models
SIPO stabilise l'alignement des modèles de diffusion sur les préférences humaines en résolvant l'instabilité d'entraînement et le biais off-policy. La méthode introduit DPO-C&M pour clipper les timesteps non-informatifs et un schéma de pondération par importance conscient des timesteps. Tests sur SD1.5, SDXL, CogVideoX-2B/5B et Wan2.1-1.3B montrent amélioration vs Diffusion-DPO.