Sketch Then Paint: Hierarchical Reinforcement Learning for Diffusion Multi-Modal Large Language Models
Signal
72
Hype
25
En 3 lignesHT-GRPO, une méthode d'apprentissage par renforcement hiérarchique pour les modèles de diffusion multi-modaux, organise l'optimisation en trois étapes (global, structure, raffinement). Elle résout le problème des séquences de démasquage multiples et attribue des récompenses différenciées selon l'importance des tokens. Tests sur MMaDA et Lumina-DiMOO montrent des gains sur GenEval et DPG.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain