Retour au feed
arXiv cs.AI·

Curriculum Group Policy Optimization: Adaptive Sampling for Unleashing the Potential of Text-to-Image Generation

Signal
72
Hype
28
En 3 lignesCGPO (Curriculum Group Policy Optimization) améliore l'entraînement des modèles texte-vers-image en utilisant un curriculum adaptatif basé sur la variance des récompenses. La méthode priorise les prompts partiellement maîtrisés (variance élevée) et équilibre les catégories via optimisation de fairness proportionnelle. Gains validés sur GenEval, T2I-CompBench++, DPG Bench.
Lire la source
Ton avis ?
Génération d'imagesReinforcement learningBenchmarks

Résumé généré par Claude — vérifié par l'humain