Retour au feed
arXiv cs.AI·

EAPO: Entropy-Driven Adaptive Positive-Negative Sample Weighting for Policy Optimization in Open-Ended QA

Signal
72
Hype
18
En 3 lignesEAPO est une méthode d'optimisation de politique adaptative pour l'entraînement de modèles de raisonnement en QA ouvert. Elle ajuste dynamiquement le poids des échantillons positifs/négatifs selon le ratio d'entropie courante/initiale pour préserver l'exploration et la stabilité. Tests sur deux datasets médicaux montrent amélioration de la diversité et stabilité vs baselines à poids fixes.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain