Retour au feed
arXiv cs.AI·

EDGE-OPD: Internalizing Privileged Context with Evidence Guided On-Policy Distillation

Signal
72
Hype
15
En 3 lignesEDGE-OPD améliore la distillation on-policy auto-supervisée (OPSD) en utilisant des rollouts guidés et un masque d'évidence pour transférer efficacement un contexte privilégié (persona, fait privé, solution détaillée) sans dégrader les capacités générales du modèle. Les expériences montrent que l'OPSD standard échoue sur les identités rares, tandis que EDGE-OPD réussit.
Lire la source
Ton avis ?
Reinforcement learningFine-tuningRaisonnement

Résumé généré par Claude — vérifié par l'humain