Pairwise Preference Reward and Group-Based Diversity Enhancement for Superior Open-Ended Generation
Signal
72
Hype
25
En 3 lignesPPR-GDE, une méthode RL pour la génération ouverte, utilise des récompenses de préférence par paires et une diversité basée sur les groupes pour éviter l'effondrement de la diversité. Sans récompenses scalaires, elle préserve les évaluations subjectives et encourage la dispersion sémantique dans les groupes de réponses.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain