arXiv cs.AI·19 mai 2026

Sketch Then Paint: Hierarchical Reinforcement Learning for Diffusion Multi-Modal Large Language Models

Signal

Hype

En 3 lignesHT-GRPO, une méthode d'apprentissage par renforcement hiérarchique pour les modèles de diffusion multi-modaux, organise l'optimisation en trois étapes (global, structure, raffinement). Elle résout le problème des séquences de démasquage multiples et attribue des récompenses différenciées selon l'importance des tokens. Tests sur MMaDA et Lumina-DiMOO montrent des gains sur GenEval et DPG.

Lire la source

Ton avis ?

Reinforcement learning Génération d'images Benchmarks

Résumé généré par Claude — vérifié par l'humain

Sketch Then Paint: Hierarchical Reinforcement Learning for Diffusion Multi-Modal Large Language Models

Autres angles sur ce sujet