Retour au feed
arXiv cs.AI·

Pairwise Preference Reward and Group-Based Diversity Enhancement for Superior Open-Ended Generation

Signal
72
Hype
25
En 3 lignesPPR-GDE, une méthode RL pour la génération ouverte, utilise des récompenses de préférence par paires et une diversité basée sur les groupes pour éviter l'effondrement de la diversité. Sans récompenses scalaires, elle préserve les évaluations subjectives et encourage la dispersion sémantique dans les groupes de réponses.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain