arXiv cs.AI·19 mai 2026

Curriculum Group Policy Optimization: Adaptive Sampling for Unleashing the Potential of Text-to-Image Generation

Signal

Hype

En 3 lignesCGPO (Curriculum Group Policy Optimization) améliore l'entraînement des modèles texte-vers-image en utilisant un curriculum adaptatif basé sur la variance des récompenses. La méthode priorise les prompts partiellement maîtrisés (variance élevée) et équilibre les catégories via optimisation de fairness proportionnelle. Gains validés sur GenEval, T2I-CompBench++, DPG Bench.

Lire la source

Ton avis ?

Génération d'images Reinforcement learning Benchmarks

Résumé généré par Claude — vérifié par l'humain

Curriculum Group Policy Optimization: Adaptive Sampling for Unleashing the Potential of Text-to-Image Generation

Autres angles sur ce sujet