arXiv cs.AI·28 mai 2026

EAPO: Entropy-Driven Adaptive Positive-Negative Sample Weighting for Policy Optimization in Open-Ended QA

Signal

Hype

En 3 lignesEAPO est une méthode d'optimisation de politique adaptative pour l'entraînement de modèles de raisonnement en QA ouvert. Elle ajuste dynamiquement le poids des échantillons positifs/négatifs selon le ratio d'entropie courante/initiale pour préserver l'exploration et la stabilité. Tests sur deux datasets médicaux montrent amélioration de la diversité et stabilité vs baselines à poids fixes.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

EAPO: Entropy-Driven Adaptive Positive-Negative Sample Weighting for Policy Optimization in Open-Ended QA

Autres angles sur ce sujet