Retour au feed
arXiv cs.AI·

Sketch Then Paint: Hierarchical Reinforcement Learning for Diffusion Multi-Modal Large Language Models

Signal
72
Hype
25
En 3 lignesHT-GRPO, une méthode d'apprentissage par renforcement hiérarchique pour les modèles de diffusion multi-modaux, organise l'optimisation en trois étapes (global, structure, raffinement). Elle résout le problème des séquences de démasquage multiples et attribue des récompenses différenciées selon l'importance des tokens. Tests sur MMaDA et Lumina-DiMOO montrent des gains sur GenEval et DPG.
Lire la source
Ton avis ?
Reinforcement learningGénération d'imagesBenchmarks

Résumé généré par Claude — vérifié par l'humain